AccueilActualités informatiquePost Mortem : dépannage après la panne de Facebook

Post Mortem : dépannage après la panne de Facebook

S’agissait-il d’une attaque, d’un coup monté de l’intérieur ou d’une simple erreur de configuration ? Immédiatement après la panne mondiale des systèmes de Facebook, les administrateurs de réseau aux États-Unis ont commencé à résoudre les problèmes. Les spéculations se poursuivent sur ce qui a déclenché la mise hors ligne de l’empire Zuckerberg et de tous ses services. Ce qui s’est passé techniquement, cependant, est devenu de plus en plus clair au cours de la soirée.

Lundi après-midi, Wholesail Networks, un fournisseur de services réseau basé à Seattle, a reçu près de 128 000 demandes d’utilisateurs concernant la panne de Facebook. Sur la liste de diffusion des opérateurs de réseaux nord-américains (Nanog), un employé prévient les autres administrateurs : « Cela devrait entraîner de nombreux appels de la part des clients. »

En quelques minutes, les administrateurs ont recueilli des informations sur le logiciel malveillant et pris des notes : Les préfixes IP qui permettent aux autres abonnés à Internet d’envoyer leurs requêtes destinées à Facebook dans la bonne direction étaient connus. Mais ils étaient absents des tables de routage de la « zone libre par défaut », via laquelle les grands acteurs de l’Internet échangent leurs informations de navigation pour le trafic Internet.

Les routes nécessaires à la navigation dans le réseau sont constamment échangées entre les grands participants connectés entre eux par peering. Il peut s’agir de fournisseurs, d’exploitants de centres de données ou même de grandes plateformes telles que Facebook. En tant que systèmes dits autonomes, ils « annoncent » leurs numéros (ASN) et leurs routes via le protocole BGP (Border Gateway Protocol). Le problème de Facebook : il avait retiré toutes ses annonces – aucune connexion sous ce numéro.

Avec cela, Facebook et tous ses services ont disparu de la surface de l’internet sans un bruit – personne ne connaissait plus le chemin vers Facebook. En raison de l’absence d’informations de routage, les autres participants ne pouvaient plus trouver les serveurs DNS hébergés par Facebook lui-même. Facebook n’était pas non plus joignable par courrier électronique, et une demande de heise online concernant les raisons de cette panne n’a pas pu être satisfaite lundi soir.

La centralisation par Facebook de sa propre infrastructure a apparemment entraîné une réaction en chaîne dévastatrice. Des informations ont circulé sur Twitter selon lesquelles les employés de Facebook ne pouvaient plus accéder aux bureaux car le système de verrouillage en réseau ne fonctionnait plus non plus. Pire : selon les médias, les administrateurs de Facebook n’ont pas pu accéder au matériel concerné car l’accès à distance sans itinéraire ne fonctionnait pas. En même temps, les employés du centre de données n’auraient pas eu les autorisations et les données d’accès nécessaires pour réparer les tables de routage directement sur place.

Les experts de la liste Nanog se demandent donc également s’il est judicieux d’exploiter non seulement tous les routeurs de peering mais aussi tous les serveurs DNS dans son propre réseau. Cependant, Facebook n’est pas le seul à agir de la sorte, d’autres grandes entreprises le font aussi, afin de garder le contrôle de leur propre infrastructure, note un administrateur.

Entre-temps, Facebook a fourni les premières informations sur le contexte de la panne de six heures. Selon le rapport, une erreur de configuration dans les routeurs a coupé la connexion interne entre les centres de données de Facebook. « L’erreur s’est propagée en cascade et a affecté d’autres systèmes », a déclaré un porte-parole à heise online. « Les systèmes internes ont également été affectés, ce qui a rendu le diagnostic et la rectification de l’erreur difficiles. » Facebook n’a pas encore dit qui avait mal configuré quoi.

(Image : Cloudflare)

Le fournisseur mondial de services DNS et de cloud computing Cloudflare, qui a lui-même une expérience pertinente en matière de mauvaise configuration des routeurs, était déjà sur la bonne voie lundi en début de soirée lorsqu’il a remarqué une activité accrue des routes Facebook dans BGP. Après que Facebook a commencé à retirer ses routes et que ses propres serveurs DNS ont été mis hors service, les autres résolveurs DNS ont également fourni de plus en plus de messages d’erreur pour Facebook. Les requêtes infructueuses répétées concernant Facebook ont également mis d’autres systèmes sous pression.

Un indice intéressant, qui pourrait encore être pris en compte dans d’autres analyses post-mortem, est venu des Pays-Bas. Facebook avait annoncé qu’il se retirait de la bourse NLIX. « Peut-être que quelqu’un a mis fin à toutes les sessions BGP, pas seulement à celles avec NLIX, et qu’il ne peut plus accéder à ses machines pour y remédier », a spéculé un participant à la liste de diffusion Nanog.

Plus d'articles