AccueilActualités informatiquePanne de Facebook : "Tout s'est passé très vite"

Panne de Facebook : « Tout s’est passé très vite »

Suite à la panne mondiale de Facebook, Instagram et Whatsapp, l’entreprise a fourni plus de détails sur ce qui se cache derrière. « C’était la pire panne depuis des années », a déclaré le PDG Marc Zuckerberg dans un message publié mardi soir. « Nous avons passé les dernières 24 heures à débriefer sur la façon dont nous pouvons mieux sécuriser nos systèmes contre des pannes comme celle-ci. »

Entre-temps, le maintien de systèmes bien sécurisés s’est avéré être une partie du problème. C’est ce qui ressort d’un billet de blog détaillé du vice-président du développement et de l’infrastructure de Facebook, Santosh Janardhan, dans lequel il explique le déroulement des événements. Selon le post, tout a commencé par un travail de routine sur le réseau interne – et une commande mortelle.

Sommaire

Le réseau interne de Facebook relie tous ses sites et ses centres de données, grands et petits. Ce réseau est à son tour connecté à l’internet via des routeurs. Ces routeurs envoient les demandes de l’extérieur aux bons endroits du réseau interne. Pour les travaux de routine tels que les mises à jour de logiciels ou le remplacement de matériel, il est courant que des parties du réseau interne soient temporairement mises hors tension, écrit le responsable de Facebook.

« C’est également la cause de la panne d’hier », explique Janardhan. « Pendant l’une de ces tâches de maintenance de routine, une commande a été envoyée pour évaluer la disponibilité du réseau fédérateur mondial, mais elle a coupé par inadvertance toutes les connexions de notre réseau fédérateur, mettant hors ligne les centres de données de Facebook dans le monde entier. »

En fait, les systèmes ont été conçus pour surveiller l’utilisation de ces commandes critiques, explique encore Janardhan. « Mais une faille dans le mécanisme de surveillance l’a empêché d’arrêter l’exécution de la commande ». Ainsi, dit-il, tous les serveurs et toutes les connexions à Internet ont été déconnectés. « Et cette perte totale de connectivité a provoqué un deuxième problème qui a aggravé la situation ».

Les serveurs DNS de Facebook, qui publient leurs adresses via le protocole BGP (Border Gateway Protocol), se trouvent dans des endroits plus petits. « Pour garantir un fonctionnement fiable, nos serveurs DNS cessent de faire de la publicité lorsqu’ils n’ont eux-mêmes aucune connexion avec les centres de données », explique Janardhan. Lors de la récente panne, l’ensemble du backbone était en panne, de sorte que les routes de tous les sites Facebook ont été retirées.

« Le résultat final a été que nos serveurs DNS n’étaient plus accessibles, bien qu’ils fonctionnaient toujours », résume Janardhan. « Cela a rendu impossible pour le reste du monde de trouver nos serveurs. » Tout s’est passé très vite, dit-il. Et comme les connexions internes étaient coupées, les administrateurs ne pouvaient pas non plus atteindre le matériel concerné. « Deuxièmement, la perte totale du DNS a également paralysé un grand nombre de nos outils internes que nous utilisons normalement pour l’analyse et la réparation dans de tels incidents. »

Facebook a donc envoyé ses administrateurs sur place pour s’occuper des problèmes sur le terrain. Cela a pris un certain temps car les centres de données sont étroitement sécurisés. « On ne peut pas y entrer facilement », explique Janardhan. « Et une fois que vous êtes dedans, il y a du matériel et des routeurs qui sont difficiles à modifier, même si vous avez un accès direct ». Il a donc fallu un peu de temps pour que les administrateurs puissent se rendre sur place et accéder aux serveurs.

Janardhan admet que le concept de sécurité propre à l’entreprise a ralenti la résolution du problème. « Nous avons pris de nombreuses mesures pour protéger nos systèmes contre les accès non autorisés », explique Janardhan. Il a été « intéressant » d’observer « que ces mesures de sécurité nous ont gênés lorsque nous avons dû réparer une panne qui n’était pas due à des acteurs malveillants, mais à une erreur artisanale. »

Le responsable de l’infrastructure estime néanmoins que le prix à payer pour une sécurité élevée est raisonnable : « Je pense que cela en vaut la peine – une sécurité considérablement accrue pour les opérations quotidiennes par rapport à une récupération plus lente dans le cas, espérons-le, d’un événement extrêmement rare comme celui-ci. »

Lorsque les routeurs ont été remis en service, les administrateurs n’ont pas pu tout remettre en marche immédiatement, mais ont dû augmenter lentement les services concernés pour éviter de surcharger immédiatement le matériel avec des pics de trafic. « Les centres de données individuels ont également signalé des baisses de consommation d’énergie de l’ordre de plusieurs mégawatts », explique Janardhan. « Faire soudainement demi-tour aurait été un risque pour les systèmes électriques et les caches ».

Dans l’ensemble, cependant, l’équipe était bien préparée à cette crise grâce à des exercices d’urgence réguliers, affirme le responsable. « Bien que nous n’ayons pas encore simulé une défaillance de la dorsale mondiale dans nos exercices, nous trouverons certainement un moyen de pratiquer de tels scénarios à partir de maintenant. » En fin de compte, tous les services ont été remis en ligne « relativement rapidement » – une évaluation qui semble quelque peu optimiste au regard d’une panne totale de six heures à l’échelle mondiale.

Plus d'articles