Categories: CloudPAAS

Google erklärt App-Engine-Ausfall mit fehlgeschlagener Automatisierung

Google hat einen Ausfall seiner Platform-as-a-Service namens App Engine am 11. August aufgeklärt und die Ergebnisse veröffentlicht. An diesem Datum war etwa ein Fünftel aller in der Region US Central gehosteten Cloud-Applikationen für fast zwei Stunden ausgefallen.

Googles Erklärung zufolge waren exakt 18 Prozent der Cloud-Apps betroffen. Für sie lag die Fehlerquote zwischen 10 und 50 Prozent, „und drei Prozent aller Anwendungen sahen Fehlerraten über 50 Prozent.“ Für Endanwender resultierte dies in reduzierter Reaktionszeit: Die Latenz erhöhte sich für 37 Prozent aller Anwendungen in der Region auf etwas unter 0,8 Sekunden pro Anfrage. Die restlichen 63 Prozent der Apps waren nicht betroffen.

Google bittet für den Ausfall erneut um Entschuldigung und hat Maßnahmen ergriffen, um eine Wiederholung zu vermeiden. Die Schuld gibt es in seinem von vorbildlicher Transparenz geprägten Bericht sich selbst: Eine routinemäßige Lastverteilung zwischen seinen Rechenzentren war fehlgeschlagen, die Apps normalerweise automatisch zwischen Standorten migriert, um einseitige Überlastung zu vermeiden.

Während die migrierten Apps in solchen Fällen normalerweise auf frisch bereitgestellten Servern neu starten, geriet am 11. August ein Software-Update für seine Router in den Weg. „Dieses Update löste einen reihenweisen Neustart der Traffic-Router aus. Dies reduzierte zeitweise die verfügbare Routerkapazität.“

Dies wiederum erwies sich als besonderes Problem manuell skalierter Anwendungen. Diese senden über die Traffic-Router eine Start-Anfrage von Server. Da die Genehmigung verzögert erfolgte, wurde der Startvorgang wieder und wieder in Angriff genommen, was die Router-CPUs überlastete – und zum Verlust einiger eingehenden Anfragen führte.

Die Kapazität sei insgesamt ausreichend gewesen, schreibt Google. Dass sich die Router nicht sofort erholten, habe aber die Zahl der Anfragen vervielfacht. Als das technische Personal die Änderungen elf Minuten später rückgängig machen wollte, gelang es nicht, die CPU-Überlastung noch auszugleichen. Traffic musste daher teilweise manuell in andere Google-Rechenzentren umverteilt werden.

ANZEIGE

So lassen sich Risiken bei der Planung eines SAP S/4HANA-Projektes vermeiden

Ziel dieses Ratgebers ist es, SAP-Nutzern, die sich mit SAP S/4HANA auseinandersetzen, Denkanstöße zu liefern, wie sie Projektrisiken bei der Planung Ihres SAP S/4HANA-Projektes vermeiden können.

Während der Wiederherstellungsmaßnahmen fiel zusätzlich ein „Konfigurationsfehler“ auf, der „ein Ungleichgewicht des Traffics in den neuen Rechenzentren verursachte.“ Die Traffic-Routing-Kapazität wurde seither erhöht und die Zeitplanung des Automatisierungsprogramms verbessert.

„Wir wissen, dass Sie sich auf unsere Infrastruktur verlassen, um wichtige Arbeitslasten auszuführen, und dass dieser Zwischenfall nicht unseren Anspruch hinsichtlich der Zuverlässigkeit genügt. Dafür bitten wir um Entschuldigung“, schreibt Google.

Es war nicht der erste Ausfall der App Engine: Im Dezember wurde einer durch einen Umzug von Google Accounts auf neue Storage-Hardware ausgelöst. Er führte offenbar auch zu einer Störung des Google-Cloud-Kunden Snapchat. Im April lösten zudem zwei Softwarefehler einen 18-minütigen Ausfall der Compute Engine aus, also des Infrastructure-as-a-Service-Angebots.

[mit Material von Liam Tung, ZDNet.com]

Tipp: Wie gut kennen Sie Google? Testen Sie Ihr Wissen – mit dem Quiz auf silicon.de.

Florian Kalenda

Seit dem Palm Vx mit Klapp-Tastatur war Florian mit keinem elektronischen Gerät mehr vollkommen zufrieden. Er nutzt derzeit privat Android, Blackberry, iOS, Ubuntu und Windows 7. Die Themen Internetpolitik und China interessieren ihn besonders.

Recent Posts

Gefahren im Foxit PDF-Reader

Check Point warnt vor offener Schwachstelle, die derzeit von Hackern für Phishing ausgenutzt wird.

4 Tagen ago

Bitdefender entdeckt Sicherheitslücken in Überwachungskameras

Video-Babyphones sind ebenfalls betroffen. Cyberkriminelle nehmen vermehrt IoT-Hardware ins Visier.

4 Tagen ago

Top-Malware in Deutschland: CloudEye zurück an der Spitze

Der Downloader hat hierzulande im April einen Anteil von 18,58 Prozent. Im Bereich Ransomware ist…

4 Tagen ago

Podcast: „Die Zero Trust-Architektur ist gekommen, um zu bleiben“

Unternehmen greifen von überall aus auf die Cloud und Applikationen zu. Dementsprechend reicht das Burg-Prinzip…

4 Tagen ago

Google schließt weitere Zero-Day-Lücke in Chrome

Hacker nutzen eine jetzt gepatchte Schwachstelle im Google-Browser bereits aktiv aus. Die neue Chrome-Version stopft…

4 Tagen ago

Hacker greifen Zero-Day-Lücke in Windows mit Banking-Trojaner QakBot an

Microsoft bietet seit Anfang der Woche einen Patch für die Lücke. Kaspersky-Forscher gehen davon aus,…

4 Tagen ago