"Uns ist bekannt, dass derzeit manche Nutzer Probleme dabei haben, unsere Apps und Produkte zu erreichen": So tweetete es der offizielle Facebook-Account montags um 18.22 Uhr. Ein Tweet, der gute Chancen auf eine Auszeichnung als Untertreibung des Jahres haben dürfte. War doch Facebook zu diesem Zeitpunkt bereit seit 40 Minuten offline – und zwar vollständig, weltweit und inklusive aller zu dem Unternehmen gehörigen Dienste wie Whatsapp, Instagram und Messenger.



Es folgten Stunden der Verblüffung und des Rätselratens: Wie kann es eigentlich sein, dass Facebook einen dermaßen umfassenden Ausfall hat, sollten die weltweit verteilten Systeme nicht genau vor solch einem Szenario schützen? Ist Facebook vielleicht gar Opfer eines Cyberangriffs geworden? Oder hat sich Mark Zuckerberg persönlich angesichts der gerade wieder wachsenden Kritik dazu entschlossen, den Stecker zu ziehen? Fast sechs Stunden dauerte es schlussendlich, bis Facebook und all die anderen daran hängenden Dienste wieder Lebenszeichen von sich gaben.

Eine dünne Stellungnahme

Mittlerweile hat Facebook auch eine offizielle Stellungnahme zu dem Vorfall veröffentlicht. In der entschuldigt man sich nicht nur bei den eigenen Nutzern, das Unternehmen weist schnell auch alle Theorien über einen Angriff zurück. Eine Konfigurationsänderung an jenen Backbone-Routern, die für den Netzwerkverkehr zwischen den Rechenzentren von Facebook zuständig seien, habe einen Kaskadeneffekt ausgelöst, der sämtliche Dienste zum Stillstand gebracht habe.

Eine Erklärung, die durchaus schlüssig klingt, waren doch zuvor bereits Experten über äußere Beobachtungen zu ebendiesem Schluss gekommen. So hatten die Netzwerkexperten von Cloudflare noch während des Ausfalls einen äußerst aufschlussreichen Blogeintrag zu dem Thema verfasst. Demnach hatte man wenige Minuten vor dem Ausfall zahlreiche Änderungen an den BGP-Einträgen rund um Facebook gesehen. Hinter der Abkürzung BGP steht der Begriff "Border Gateway Protocol". Dieses ist – sehr vereinfacht gesprochen – ein Mechanismus, mit dem große Internetanbieter untereinander kommunizieren und sich ausmachen, wie der Datenverkehr durch das Netz geleitet wird. Es handelt sich also um einen jener zentralen Dienste, die dafür sorgen, dass das Internet überhaupt funktioniert – und einen, der in der Vergangenheit für seine Fragilität immer wieder kritisiert wurde.

Selbst vom Netz genommen

In dem Fall scheint es so gewesen zu sein, dass sich Facebook mit einem Update selbst abgeschossen hat. Nach einer Konfigurationsänderung haben die Systeme des Unternehmens damit aufgehört, die Routen zu den eigenen DNS-Einträgen – mittels derer die lesbaren Domain-Namen wie facebook.com oder instagram.com mit den dahinter stehenden IP-Adressen verbunden werden – zu verbreiten. Damit hat sich das Unternehmen quasi von der Karte des Internets gelöscht. Besonders pikant ist all das auch deswegen, weil Facebook gerne damit prahlt, dass man ein eigenes BPG-basiertes Rechenzentren-Design verwendet, das im Gegensatz zu konventionellen Lösungen schnelle und inkrementelle Updates erlaubt. Ob das hier tatsächlich eine Rolle gespielt hat, ist allerdings noch unklar.

Während also weitgehend geklärt scheint, wie es zu dem Vorfall kommen konnte, bleibt eine entscheidende Frage offen: Wie kann es sein, dass das Bereinigen eines solchen Fehlers – egal wie fatal er ist – bei einem Unternehmen mit dermaßen riesigen Ressourcen wie Facebook fast sechs Stunden dauert? Dazu schweigt der Softwarehersteller bisher, allerdings gibt es aus inoffiziellen Quellen einige Hinweise dazu. So hatte sich bei Reddit ein Nutzer zu Wort gemeldet, der offenbar mit Insiderwissen von einer eher chaotischen Situation berichtete. Der Ausfall hatte sich demnach nur direkt in den Rechenzentren von Facebook beheben lassen. Dort seien physisch aber nur Personen anwesend gewesen, die nicht das notwendige Wissen zum Umgang mit diesen Systemen hatten. Dazu passt auch, dass US-Medien später davon berichteten, dass Facebook-Techniker zu den Rechenzentren eilen mussten, um die Situation vor Ort zu bereinigen.

Erinnerung: Das Internet der Dinge gehört auch zum Internet

Die gesamte Episode hatte übrigens nicht nur Auswirkungen auf die öffentlichen Services von Facebook. So berichtete die "New York Times" unter Berufung auf Facebook-Mitarbeiter davon, dass bei dem Unternehmen die Zugangssysteme sowohl zu Gebäuden als auch zu Konferenzräumen ausgefallen seien – weil diese "dank" der Nutzung des Internets der Dinge auch von der Erreichbarkeit der Facebook-Server abhängen.

Alles wird langsamer – und zwar nicht nur bei Facebook

Gleichzeitig führten die Ausfälle bei Facebook auch zu allerlei Nebeneffekten im gesamten Internet. So berichtet Cloudflare davon, dass sich die Anfragen an die eigenen DNS-Server von einer Minute auf die andere um den Faktor 30 vergrößerten. Das wiederum habe dazu geführt, dass DNS-Abfragen länger brauchten, worunter auch die Internetgeschwindigkeit bei so ziemlich allen Internetnutzern litt. Zumal natürlich nicht nur die DNS von Cloudflare betroffen war, sondern so gut wie alle – selbst bei Google zeigte sich eine deutliche Verlangsamung bei entsprechenden Abfragen.

Auch dieser Effekt ist einfach zu erklären: In dem Moment, wo Facebook weg ist, versuchen nicht nur zahlreiche Nutzer dauernd, den Service abzufragen, es sind vor allem Apps, die dann einen Anfragesturm auslösen. Und zwar nicht nur jene von Facebook selbst, sondern auch die, die entsprechende Dienste integrieren. Erreichen sie den Server nicht, probieren sie es immer wieder, was natürlich auch die DNS-Dienste bald beeinträchtigt.

Ansturm auf Twitter und Co

Dass gleichzeitig auch andere populäre Dienste mit Problemen zu kämpfen hatten, hatte wiederum einen profaneren Grund: So hatte Twitter mit dem zu kämpfen, was man einen Ansturm des Zynismus nennen könnte. Alle, die Facebook und Instagram nicht erreichen konnten, schienen dies auf Twitter kundzutun, was dazu führte, dass der Service zum Teil Probleme beim Abschicken von Nachrichten hatte und auch die Ladezeiten sich verzögerten. Ähnliche Schwierigkeiten berichteten User vom Messenger Telegram, während sich Signal relativ gut gehalten zu haben scheint – und sich öffentlich über die hohe Zahl an Neuregistrierungen freute.

Finanzielle Auswirkungen?

Ein weiterer Aspekt des Vorfalls ist die Frage, was das Facebook eigentlich gekostet hat, immerhin entgehen dem Unternehmen damit auch Werbeeinnahmen. Bei Cnet veranschlagt man dabei anhand der Geschäftszahlen von Facebook einen Umsatzentgang von rund 60 Millionen US-Dollar. Eine Rechnung, die allerdings mit etwas Vorsicht zu genießen ist, immerhin kann es leicht sein, dass nach dem Ausfall die Zugriffe jetzt größer sind, womit man dann einen Teil wieder hereinholen würde. Und generell ist die Methodik eher grob gewählt.

Ebenfalls bemerkenswert ist, dass der Aktienkurs von Facebook am Dienstag um fast fünf Prozent eingebrochen ist. Doch auch das muss eingeordnet werden, um da nicht zu viel hineinzulesen. Einerseits haben die Aktien von Twitter und Snap parallel dazu ähnlich stark nachgegeben. Vor allem aber hat der Kurseinbruch schon vor dem Ausfall der Server begonnen. Insofern könnte er auch eher mit anderen aktuellen Negativschlagzeilen zu tun haben, soll doch am Dienstag eine Whistleblowerin vor dem US-Senat gegen Facebook aussagen, und diese hat schon vorab schwere Vorwürfe gegen das Unternehmen erhoben.

Was ist die Lehre?

Während die finanziellen Auswirkungen für Facebook also verkraftbar sein dürften, zeigt der Vorfall auch etwas anderes. "Die heutigen Ereignisse sind eine sanfte Erinnerung daran, welch komplexes und voneinander abhängiges System das Internet ist", bringt es Cloudflare recht neutral auf den Punkt. NSA-Whistleblower Edward Snowden bemüht da schon eine pointiertere Perspektive, nämlich dass all das auch zeige, wie problematisch die Dominanz einzelner großer Services im Internet sei und es an der Zeit sei, endlich auf freie, nicht profitorientierte Alternativen wie Signal zu wechseln. (Andreas Proschofsky, 5.10.2021)