Google erklärt App-Engine-Ausfall mit fehlgeschlagener Automatisierung

Ein Router-Update sorgte am 11. August dafür, dass eine Umverteilung von Apps zwischen Rechenzentren nicht ordnungsgemäß funktionierte. Es ließ sich nach elf Minuten nicht mehr rückgängig machen. Lasten mussten teilweise manuell migriert werden.

Google hat einen Ausfall seiner Platform-as-a-Service namens App Engine am 11. August aufgeklärt und die Ergebnisse veröffentlicht. An diesem Datum war etwa ein Fünftel aller in der Region US Central gehosteten Cloud-Applikationen für fast zwei Stunden ausgefallen.

Logo der Google App EngineGoogles Erklärung zufolge waren exakt 18 Prozent der Cloud-Apps betroffen. Für sie lag die Fehlerquote zwischen 10 und 50 Prozent, „und drei Prozent aller Anwendungen sahen Fehlerraten über 50 Prozent.“ Für Endanwender resultierte dies in reduzierter Reaktionszeit: Die Latenz erhöhte sich für 37 Prozent aller Anwendungen in der Region auf etwas unter 0,8 Sekunden pro Anfrage. Die restlichen 63 Prozent der Apps waren nicht betroffen.

Google bittet für den Ausfall erneut um Entschuldigung und hat Maßnahmen ergriffen, um eine Wiederholung zu vermeiden. Die Schuld gibt es in seinem von vorbildlicher Transparenz geprägten Bericht sich selbst: Eine routinemäßige Lastverteilung zwischen seinen Rechenzentren war fehlgeschlagen, die Apps normalerweise automatisch zwischen Standorten migriert, um einseitige Überlastung zu vermeiden.

Während die migrierten Apps in solchen Fällen normalerweise auf frisch bereitgestellten Servern neu starten, geriet am 11. August ein Software-Update für seine Router in den Weg. „Dieses Update löste einen reihenweisen Neustart der Traffic-Router aus. Dies reduzierte zeitweise die verfügbare Routerkapazität.“

Dies wiederum erwies sich als besonderes Problem manuell skalierter Anwendungen. Diese senden über die Traffic-Router eine Start-Anfrage von Server. Da die Genehmigung verzögert erfolgte, wurde der Startvorgang wieder und wieder in Angriff genommen, was die Router-CPUs überlastete – und zum Verlust einiger eingehenden Anfragen führte.

Die Kapazität sei insgesamt ausreichend gewesen, schreibt Google. Dass sich die Router nicht sofort erholten, habe aber die Zahl der Anfragen vervielfacht. Als das technische Personal die Änderungen elf Minuten später rückgängig machen wollte, gelang es nicht, die CPU-Überlastung noch auszugleichen. Traffic musste daher teilweise manuell in andere Google-Rechenzentren umverteilt werden.

ANZEIGE

SAS Viya: Analytics dort hinbringen, wo sie gebraucht wird

Die digitale Transformation ist heute Realität. Und krempelt Unternehmen und ganze Branchen um, die sich komplett neue Geschäftsmodelle überlegen müssen. Bei Analytics, der Kerntechnologie der digitalen Transformation, ist deshalb maximale Flexibilität gefragt. Und höchstes Tempo. Starre Architekturen stehen der Innovation immer öfter im Weg. Mit SAS Viya geht SAS einen neuen Weg: Analytics flexibel, zugänglich und offen in der Cloud.

Während der Wiederherstellungsmaßnahmen fiel zusätzlich ein „Konfigurationsfehler“ auf, der „ein Ungleichgewicht des Traffics in den neuen Rechenzentren verursachte.“ Die Traffic-Routing-Kapazität wurde seither erhöht und die Zeitplanung des Automatisierungsprogramms verbessert.

„Wir wissen, dass Sie sich auf unsere Infrastruktur verlassen, um wichtige Arbeitslasten auszuführen, und dass dieser Zwischenfall nicht unseren Anspruch hinsichtlich der Zuverlässigkeit genügt. Dafür bitten wir um Entschuldigung“, schreibt Google.

Es war nicht der erste Ausfall der App Engine: Im Dezember wurde einer durch einen Umzug von Google Accounts auf neue Storage-Hardware ausgelöst. Er führte offenbar auch zu einer Störung des Google-Cloud-Kunden Snapchat. Im April lösten zudem zwei Softwarefehler einen 18-minütigen Ausfall der Compute Engine aus, also des Infrastructure-as-a-Service-Angebots.

[mit Material von Liam Tung, ZDNet.com]

Tipp: Wie gut kennen Sie Google? Testen Sie Ihr Wissen – mit 15 Fragen auf ITespresso.de.

Neueste Kommentare 

Noch keine Kommentare zu Google erklärt App-Engine-Ausfall mit fehlgeschlagener Automatisierung

Kommentar hinzufügen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *