Categories: CloudServer

Google informiert über Ausfall seiner Cloud

Google hat sich zu den Ursachen des großflächigen Ausfalls von Google Cloud geäußert, von dem ein Großteil der Google-Dienste sowie Services anderer Firmen wie Snapchat betroffen waren. In Mitleidenschaft gezogen wurde dabei vor allem der Osten der USA, aber auch europäische Nutzer konnten zeitweise nicht auf Gmail, YouTube und andere Dienste zugreifen.

Laut Google ermittelte eine Untersuchung als ursprüngliche Ursache eine Konfigurationsänderung, die für eine kleine Gruppe von Servern in einer Region geplant war, aber irrtümlich auf eine große Anzahl von Servern in mehreren benachbarten Regionen angewandt wurde. Dieser Fehler führte dazu, dass diese Regionen nicht mehr als die Hälfte ihrer verfügbaren Netzwerkkapazität nutzen konnten. Das wirkte sich besonders schwerwiegend für Plattformen wie YouTube aus, die auf eine hohe Bandbreite angewiesen sind – und weniger auf Dienste wie die Google-Suche, bei der es nur eine geringe Zunahme der Latenzzeit gab.

„Insgesamt musste YouTube während des Zwischenfalls einen 10-prozentigen Abfall bei den weltweiten Ansichten hinnehmen, während Google Cloud Storage eine 30-prozentige Verringerung des Traffics verzeichnete“, führt Benjamin Treynor Sloss in einem Blogeintrag aus, als Vice President of Engineering für die Google Cloud verantwortlich. „Rund ein Prozent der aktiven Gmail-Nutzer erlebten Probleme mit ihrem Konto. Während das einen kleinen Teil der Nutzer ausmacht, steht es doch für Millionen von Nutzern, die keine E-Mails senden oder empfangen konnten.“

Der Ausfall dauerte vier Stunden und konnte nicht schneller behoben werden, obwohl das Problem „innerhalb von Sekunden“ erkannt wurde und klar war, dass die verbleibende Netzwerkkapazität nicht für den Traffic von und zu den betroffenen Regionen ausreichte. „Das Netzwerk wurde überlastet, und unsere Netzwerksysteme begannen korrekt mit der Triagierung der Traffic-Überlastung und ließen größere, weniger latenzempfindlichen Traffic fallen, um kleinere und weniger latenzempfindliche Traffic-Flows zu erhalten“, erläutert Sloss – und vergleicht es mit dem Transport dringender Pakete mit Fahrradkurier während eines extremen Verkehrsstaus.

Die alarmierten Ingenieursteams identifizierten das Problem zwar innerhalb von Sekunden, konnten es aber nicht wie erwartet innerhalb von wenigen Minuten beheben. Denn „dieselbe Netzwerküberlastung, die die Serverleistung verschlechterte, behinderte auch die Ingenieursteams bei der Wiederherstellung der korrekten Konfigurationen, was die Ausfallzeit verlängerte“. Bei Hacker News berichtete ein Google-Cloud-Mitarbeiter zudem, dass auch die bei Ausfällen genutzten internen Kommunikationstools ausfielen.

Als abschließenden Schritt beschreibt der Google-Manager eine gründliche Nachuntersuchung, um sicher zu gehen, dass alle mitwirkenden Faktoren sowohl für die Netzwerkkapazität als auch für die langsame Wiederherstellung verstanden wurden. Daraus sollen Maßnahmen abgeleitet werden, um „sicher zu stellen, dass wir nicht nur die direkte Ursache des Problems behoben haben, sondern auch gegen die ganze Problemklasse geschützt sind, die dieser Zwischenfall verdeutlichte“.

Bernd Kling

Recent Posts

esmo AG integriert CAD-Systeme und PSIPenta mit PLM-Software PRO.FILE

Das Maschinenbauunternehmen esmo AG setzt auf die PLM-Software PRO.FILE von PROCAD sowie das Änderungsmanagement mit PRO.CEED. Datensicherheit und -qualität haben…

2 Stunden ago

Huawei und Komsa stellen Netzwerk-Management-Plattform vor

Der deutsche Distributor Komsa nutzt Huaweis CloudCampus-Lösung bei der Umsetzung und Implementierung von Cloud-basierten Netzwerk-Management-Services.

2 Stunden ago

Sudo-Bug erlaubt unbefugte Code-Ausführung mit Root-Rechten

Eine Schwachstelle erlaubt das Umgehen der Sicherheitsrichtlinie. Sudo verarbeitet bestimmte Werte für die User-ID fehlerhaft und interpretiert sie als Root.…

3 Stunden ago

Safe Browsing: Apple rechtfertig Zusammenarbeit mit Tencent

Tencent ersetzt Google als Safe-Browsing-Anbieter in China. Das Unternehmen erhält IP-Adressen der Nutzer, aber keine URLs besuchter Websites. Apple weist…

5 Stunden ago

Tamper Protection für Microsoft Defender ab sofort verfügbar

Der Manipulationsschutz verhindert Änderungen der Sicherheitseinstellungen. Die Funktion ist für den Unternehmenseinsatz optimiert, aber auch für Consumer verfügbar. Derzeit wird…

7 Stunden ago

Geringerer RAM-Verbrauch: Google testet Tab-Freeze-Funktion für Chrome

Sie friert Hintergrund-Tabs nach fünf Minuten automatisch ein. Chrome aktiviert solche Tabs auf Wunsch nach 15 Minuten wieder automatisch, um…

9 Stunden ago