Google hat einen Ausfall seiner Platform-as-a-Service namens App Engine am 11. August aufgeklärt und die Ergebnisse veröffentlicht. An diesem Datum war etwa ein Fünftel aller in der Region US Central gehosteten Cloud-Applikationen für fast zwei Stunden ausgefallen.
Google bittet für den Ausfall erneut um Entschuldigung und hat Maßnahmen ergriffen, um eine Wiederholung zu vermeiden. Die Schuld gibt es in seinem von vorbildlicher Transparenz geprägten Bericht sich selbst: Eine routinemäßige Lastverteilung zwischen seinen Rechenzentren war fehlgeschlagen, die Apps normalerweise automatisch zwischen Standorten migriert, um einseitige Überlastung zu vermeiden.
Während die migrierten Apps in solchen Fällen normalerweise auf frisch bereitgestellten Servern neu starten, geriet am 11. August ein Software-Update für seine Router in den Weg. „Dieses Update löste einen reihenweisen Neustart der Traffic-Router aus. Dies reduzierte zeitweise die verfügbare Routerkapazität.“
Dies wiederum erwies sich als besonderes Problem manuell skalierter Anwendungen. Diese senden über die Traffic-Router eine Start-Anfrage von Server. Da die Genehmigung verzögert erfolgte, wurde der Startvorgang wieder und wieder in Angriff genommen, was die Router-CPUs überlastete – und zum Verlust einiger eingehenden Anfragen führte.
Die Kapazität sei insgesamt ausreichend gewesen, schreibt Google. Dass sich die Router nicht sofort erholten, habe aber die Zahl der Anfragen vervielfacht. Als das technische Personal die Änderungen elf Minuten später rückgängig machen wollte, gelang es nicht, die CPU-Überlastung noch auszugleichen. Traffic musste daher teilweise manuell in andere Google-Rechenzentren umverteilt werden.
Ziel dieses Ratgebers ist es, SAP-Nutzern, die sich mit SAP S/4HANA auseinandersetzen, Denkanstöße zu liefern, wie sie Projektrisiken bei der Planung Ihres SAP S/4HANA-Projektes vermeiden können.
Während der Wiederherstellungsmaßnahmen fiel zusätzlich ein „Konfigurationsfehler“ auf, der „ein Ungleichgewicht des Traffics in den neuen Rechenzentren verursachte.“ Die Traffic-Routing-Kapazität wurde seither erhöht und die Zeitplanung des Automatisierungsprogramms verbessert.
„Wir wissen, dass Sie sich auf unsere Infrastruktur verlassen, um wichtige Arbeitslasten auszuführen, und dass dieser Zwischenfall nicht unseren Anspruch hinsichtlich der Zuverlässigkeit genügt. Dafür bitten wir um Entschuldigung“, schreibt Google.
Es war nicht der erste Ausfall der App Engine: Im Dezember wurde einer durch einen Umzug von Google Accounts auf neue Storage-Hardware ausgelöst. Er führte offenbar auch zu einer Störung des Google-Cloud-Kunden Snapchat. Im April lösten zudem zwei Softwarefehler einen 18-minütigen Ausfall der Compute Engine aus, also des Infrastructure-as-a-Service-Angebots.
[mit Material von Liam Tung, ZDNet.com]
Tipp: Wie gut kennen Sie Google? Testen Sie Ihr Wissen – mit dem Quiz auf silicon.de.
Check Point warnt vor offener Schwachstelle, die derzeit von Hackern für Phishing ausgenutzt wird.
Video-Babyphones sind ebenfalls betroffen. Cyberkriminelle nehmen vermehrt IoT-Hardware ins Visier.
Der Downloader hat hierzulande im April einen Anteil von 18,58 Prozent. Im Bereich Ransomware ist…
Unternehmen greifen von überall aus auf die Cloud und Applikationen zu. Dementsprechend reicht das Burg-Prinzip…
Hacker nutzen eine jetzt gepatchte Schwachstelle im Google-Browser bereits aktiv aus. Die neue Chrome-Version stopft…
Microsoft bietet seit Anfang der Woche einen Patch für die Lücke. Kaspersky-Forscher gehen davon aus,…