Categories: CloudPAAS

Google erklärt App-Engine-Ausfall mit fehlgeschlagener Automatisierung

Google hat einen Ausfall seiner Platform-as-a-Service namens App Engine am 11. August aufgeklärt und die Ergebnisse veröffentlicht. An diesem Datum war etwa ein Fünftel aller in der Region US Central gehosteten Cloud-Applikationen für fast zwei Stunden ausgefallen.

Googles Erklärung zufolge waren exakt 18 Prozent der Cloud-Apps betroffen. Für sie lag die Fehlerquote zwischen 10 und 50 Prozent, „und drei Prozent aller Anwendungen sahen Fehlerraten über 50 Prozent.“ Für Endanwender resultierte dies in reduzierter Reaktionszeit: Die Latenz erhöhte sich für 37 Prozent aller Anwendungen in der Region auf etwas unter 0,8 Sekunden pro Anfrage. Die restlichen 63 Prozent der Apps waren nicht betroffen.

Google bittet für den Ausfall erneut um Entschuldigung und hat Maßnahmen ergriffen, um eine Wiederholung zu vermeiden. Die Schuld gibt es in seinem von vorbildlicher Transparenz geprägten Bericht sich selbst: Eine routinemäßige Lastverteilung zwischen seinen Rechenzentren war fehlgeschlagen, die Apps normalerweise automatisch zwischen Standorten migriert, um einseitige Überlastung zu vermeiden.

Während die migrierten Apps in solchen Fällen normalerweise auf frisch bereitgestellten Servern neu starten, geriet am 11. August ein Software-Update für seine Router in den Weg. „Dieses Update löste einen reihenweisen Neustart der Traffic-Router aus. Dies reduzierte zeitweise die verfügbare Routerkapazität.“

Dies wiederum erwies sich als besonderes Problem manuell skalierter Anwendungen. Diese senden über die Traffic-Router eine Start-Anfrage von Server. Da die Genehmigung verzögert erfolgte, wurde der Startvorgang wieder und wieder in Angriff genommen, was die Router-CPUs überlastete – und zum Verlust einiger eingehenden Anfragen führte.

Die Kapazität sei insgesamt ausreichend gewesen, schreibt Google. Dass sich die Router nicht sofort erholten, habe aber die Zahl der Anfragen vervielfacht. Als das technische Personal die Änderungen elf Minuten später rückgängig machen wollte, gelang es nicht, die CPU-Überlastung noch auszugleichen. Traffic musste daher teilweise manuell in andere Google-Rechenzentren umverteilt werden.

ANZEIGE

So lassen sich Risiken bei der Planung eines SAP S/4HANA-Projektes vermeiden

Ziel dieses Ratgebers ist es, SAP-Nutzern, die sich mit SAP S/4HANA auseinandersetzen, Denkanstöße zu liefern, wie sie Projektrisiken bei der Planung Ihres SAP S/4HANA-Projektes vermeiden können.

Während der Wiederherstellungsmaßnahmen fiel zusätzlich ein „Konfigurationsfehler“ auf, der „ein Ungleichgewicht des Traffics in den neuen Rechenzentren verursachte.“ Die Traffic-Routing-Kapazität wurde seither erhöht und die Zeitplanung des Automatisierungsprogramms verbessert.

„Wir wissen, dass Sie sich auf unsere Infrastruktur verlassen, um wichtige Arbeitslasten auszuführen, und dass dieser Zwischenfall nicht unseren Anspruch hinsichtlich der Zuverlässigkeit genügt. Dafür bitten wir um Entschuldigung“, schreibt Google.

Es war nicht der erste Ausfall der App Engine: Im Dezember wurde einer durch einen Umzug von Google Accounts auf neue Storage-Hardware ausgelöst. Er führte offenbar auch zu einer Störung des Google-Cloud-Kunden Snapchat. Im April lösten zudem zwei Softwarefehler einen 18-minütigen Ausfall der Compute Engine aus, also des Infrastructure-as-a-Service-Angebots.

[mit Material von Liam Tung, ZDNet.com]

Tipp: Wie gut kennen Sie Google? Testen Sie Ihr Wissen – mit dem Quiz auf silicon.de.

Florian Kalenda

Seit dem Palm Vx mit Klapp-Tastatur war Florian mit keinem elektronischen Gerät mehr vollkommen zufrieden. Er nutzt derzeit privat Android, Blackberry, iOS, Ubuntu und Windows 7. Die Themen Internetpolitik und China interessieren ihn besonders.

Recent Posts

Supercomputer Hawk mit 11.260 AMD-Prozessoren geht in Betrieb

Das Höchstleistungsrechenzentrum in Stuttgart (HLRS) hat heute offiziell den Supercomputer Hawk in Betrieb genommen. Der Großrechner stammt von Hewlett Packard…

1 Tag ago

BlackBerry: Automobilindustrie und Einzelhandel sollten sich auf mehr Bedrohungen einstellen

Der Anstieg von Angriffen in der Automobilindustrie werde durch die fortschreitende Vernetzung der PKWs begünstigt. Das ist das Ergebnis des…

1 Tag ago

Telekom blickt auf ein Rekordjahr zurück

Der Konzern erzielt 2019 einen Umsatz von 80,5 Milliarden Euro, was einem Anstieg gegenüber dem Vorjahr um 6.4 Prozent entspricht.…

1 Tag ago

Dell will RSA Security an Symphony Technology Group verkaufen

Dieser Schritt soll das Portfolio von Dell vereinfachen und der RSA ermöglichen, sich auf ihre Kernaufgabe im Bereich Sicherheit zu…

2 Tagen ago

Webinar: BlackBerry Intelligent Security – Flexible Sicherheitsrichtlinien für mobiles Arbeiten

Die meisten Unified Endpoint Management Produkte platzieren Richtlinien auf einem Gerät oder in einer Anwendung nach eng umrissenen Vorgaben. Entscheidend…

2 Tagen ago

Deutschland vor Hybrid-Cloud-Welle

Interessant sind die Ergebnisse des Enterprise Cloud Index 2019 für Deutschland. Denn die hiesigen Entwicklungen zeigen: Nicht jede App soll…

2 Tagen ago