Bericht: Alterndes Rechenzentrum sorgt für stundenlangen Ausfall bei Delta

Nach einem Stromausfall bewältigten nicht alle Systeme die Umstellung auf die Notfallversorgung. Laut WSJ stammt so manche Hardware noch aus den Neunzigerjahren. Mindestens 650 von rund 6000 Flügen fielen gestern aus.

Der gestrige umfangreiche Ausfall von Computersystemen der US-Fluggesellschaft Delta Air Lines wurde auf ein Rechenzentrumsproblem in Atlanta zurückgeführt. Laut Wall Street Journal handelt es sich um einen typischen Fall von „Problemen mit alternder Technologie.“

Laut einer Erklärung von Delta sind gestern mindestens 650 Flüge ausgefallen – gut 10 Prozent der geplanten 6000 Passagiere wurden gewarnt, dass es noch bis 12. August zu Problemen mit Delta-Flügen kommen könnte. Der Fluggesellschaft drohen Millionenverluste durch entgangene Umsätze und eventuell auch durch Klagen.

Die IT von Delta ist unter anderem durch Übernahmen zusammengekommen. So erfolgte vor acht Jahren ein Zusammenschluss mit Northwest Airlines. Laut WSJ finden sich im Rechenzentrum noch Systeme aus den Neunzigerjahren. Es habe zwar Aktualisierungen gegeben, die Systeme seien insgesamt aber immer noch anfällig, zitiert die Zeitung einen Informanten.

Flugzeuge am Boden (Bild: Delta)

Der Stromversorger von Delta, Georgia Power, berichtet, er habe am Montagmorgen Techniker für den Fall abgestellt. Ursache sei der „Ausfall einer Schaltanlage“ oder eines Stromverteilers gewesen. Delta selbst berichtet, nach dem Stromausfall hätten „einige kritische Systeme und Netzwerkhardware“ die Umstellung auf die Notfallsysteme nicht korrekt bewältigt. Der genaue Grund werde noch erforscht.

ANZEIGE

Sie haben Optimierungsbedarf bei Ihren Logistikprozessen?

Die Lösung lautet: Dokumentenmanagement. Erfahren Sie im kostenlosen E-Book, wie ein Dokumentenmanagement-System (DMS) Ihnen helfen kann, Ihre Logistikprozesse zu verbessern – von der Artikelnummer bis zur Zustellung. Lesen Sie außerdem, wie Sie ein DMS auch im laufenden Betrieb zeit- und kostensparend implementieren können.

Delta hat über 80.000 Mitarbeiter und 800 Flugzeuge. Die Gesellschaft transportiert jährlich über 180 Millionen Passagiere zwischen 335 Flughäfen. Die meisten Flüge gehen von Atlanta aus, wo es seine Zentrale hat, nämlich täglich über 1000 Abflüge zu 223 Zielen.

Probleme mit der Stromversorgung stören immer wieder Rechenzentren – trotz vorhandener Notstromversorgung. So verlor die Google-Cloud im August 2015 erstmals Kundendaten, nachdem ein Blitzeinschlag einen belgischen Stromversorger getroffen hatte. In den meisten Fällen gelang eine Datenwiederherstellung, auch wenn Google-Mitarbeiter von Hand eingreifen mussten. Weniger als 0,000001 Prozent des Permanentspeichers in der Anlage gingen unrettbar verloren.

[mit Material von Steven Ranger, ZDNet.com]

Tipp: Sind Sie ein Fachmann in Sachen Cloud Computing? Testen Sie Ihr Wissen – mit dem Quiz auf silicon.de.

Themenseiten: Ausfall, Nutanix Hyperconverged Infrastructure, Rechenzentrum, Server

Fanden Sie diesen Artikel nützlich?
Content Loading ...
Whitepaper

Artikel empfehlen:

Neueste Kommentare 

5 Kommentare zu Bericht: Alterndes Rechenzentrum sorgt für stundenlangen Ausfall bei Delta

Kommentar hinzufügen
  • Am 10. August 2016 um 2:52 von C

    Die DELTA Air Line IT-Verantwortlichen haben wohl was zu vertuschen?

    Der Strom fällt aus – und „einige kritische Systeme und Netzwerkhardware“ hatten die Umstellung auf die Notfallsysteme nicht korrekt bewältigt.

    Und deshalb ist die alte (Server-)HW/SW daran Schuld? Was für ein Unsinn!
    Da hat jemand seine Hausaufgaben im Strom-Versorgungs-, Redundanz- und Notfall-Konzept-Bereich nicht gemacht – und sucht verzweifelt nach einer wirklich dummen Ausrede…

    Dieses Ereignis fordert gerade zu eine „Punk Slip“ Welle für die IT-Verantwortlichen heraus. Für Jahre lange Versäumnisse.

    Als Ich 1993/1994 Novell SFT III auf Compaq SystemPro (Dual-Socket) demonstrierte, funktionierte ein nicht abgesicherter Strom-Ausfall so wie er sollte: der andere Server (Heartbeat noch über 100 MBit/Sek ArcNet TCNS angebunden) übernahm verzögerungsfrei & ohne Probleme.
    Diese Lösung (24×7 File-Service), allerdings MIT USV-Absicherung, funktionierte dann bei einer Bank sowie einer Hafen-Gesellschaft jahrelang störungsfrei.
    Einen baugleichen SystemPro habe Ich heute noch aktiv im Einsatz. Die Batterie mosert lediglich und muss getauscht werden. Sonst: einwandfreier Betrieb!

    Eine andere Lösung (MS GEO-Cluster) hat ebenso File-Service im Versicherungsbereich jahrelang einwandfrei geliefert. „Alte“ Lösungen funktionieren, wenn man sie richtig macht.
    Bei der aktuellen SW-Entwicklung (Bananen-SW) wäre Ich mir da nicht so sicher.

    Wäre der Strom richtig konfiguriert gewesen (Ersatz-Versorger, schaltschnelle USV-Anlage, Redundanz-Versorgung der Strom-Kreise, ausreichende USV-Kapazität, Spitzen-Filterung, 2. Strom-Kreis, etc.) wäre der Strom-Ausfall nie bis zu den Servern oder Netz-Komponenten gelangt. Selbst wenn – mit Redundanz-Netzteilen am 2. Strom-Kreis überhaupt gar kein Problem! Und hätte man eine regelmäßige Notfall-Übung betrieben, wären anfällige Komponenten aufgefallen und ausgetauscht worden. Und – sein wann betreibt man kritische Business-Systeme auf 30 Jahre alte HW/SW? Das allein ist doch schon ein Affront…zumal der Support (HW, SW, Know-How) heute nicht mehr gesichert ist.

    Da kann man nur noch mit dem Kopf schütteln… und diese Typen transportieren 180 Mio. Passagiere jährlich. Und die Bilanz-Buchhaltung erfolgt auf einem „Unter-Tisch-Desktop“ im Sekretariat…bei einem börsennotierten US-Unternehmen mit 80.000 MA, oder wie…

    • Am 10. August 2016 um 10:04 von PeerH

      Letztendlich wie immer eine Kosten-Nutzen Rechnung: ein Ausfall in 50 Jahren, und dafür in fünfzig Jahren etliche Investitionen eingespart.

      Ich wäre auch eher für eine höhere Ausfallsichrrheit, aber die letzten Promille abzudecken, das kann ordentlich ins Geld gehen.

      Und da muss dann eben jemand entscheiden, wo die Grenze zwischen Machbarem und Nötigem ist. Und eben wieviel man auszugeben bereit ist.

      Muss man nicht so sehen, aber es ist legitim.

      Na ja: und nun werden sie eben sehen, wieviel sie dieser Ausfall gekostet hat.

      Denn: ‚alternde Technologie‘ ist ein sehr dehnbarer Begriff.

      (Beispiel am Rande: vor 30 Jahren begannen alle weg von Zentralen Rechensystemen zu dezentralen Arbeitsstationen zu wechseln – überwiegend Windows-getrieben.
      Bis man vor 15 Jahren feststellte, dass in vielen Bereichen dieses absolut kontraproduktiv sein kann – und dann haben Firmen wie Citrix mit ‚Terminalservern‘ versucht die Rechenleistung wieder zu zentralisieren, und Anwendungen einmalig auf einem Server zu installieren, und dennoch x Anwender ihr eigenes Programm nutzen zu lassen. Als Arbeitsplatzsystem genügte dann ein 08/15 System ohne explizite Rechenperformance.
      Der Weg weg und wieder hin zu zentraler Rechnerkapazität war nicht nur extrem teuer (in beide Richtungen), sondern bedurfte Umschulungen, viel Personal, und, und, und.
      Andere Unternehmen haben das Großrechner Konzept hingegen nie aufgegeben, und ihre Anwendungen gleich weiter nach dem Terminal Konzept betrieben. Sicher nicht für alle Arbeitssysteme – in Zentealbereichen gab es Ausnahmen – aber eben überwiegend.
      Die haben sich dann den Hin-und Rückweg nebst sonstigen Kosten und Aufwänden gespart – und hatten eine sehr schlanke IT Infrastruktur
      Kurz: hätte man vor 20 Jahren verantwortliche IT’ler gefragt, welches das bessere oder moderne System ist – sie hätten zweifellos Client-Server Architekturen gesagt. Zehn Jahre später wäre die Antwort, je nach Unternehmen, vielleicht anders ausgefallen.
      Und nun: das Urteil ‚alternde Technologie‘ kann alles und nichts bedeuten.

      Trotz aller Sicherung kann auch mal was schiefgehen, es gibt keine 100% Ausfallsicherheit – falsch gemacht hat man erst dann etwas, wenn sich Fehler wiederholen. Und wenn der Strom erst mal weg ist, ist das wiederanfahren bei komplexen Systemen (Rechenzentren sind komplex) recht anspruchsvoll.
      Früher war man gut beraten alle Systeme vor der Beseitigung der Strompannr auszuschalten, und kontrolliert hochzufahren. Und das dauert.
      Auch mit ’nicht-alternder Technologie“. ;-)

  • Am 10. August 2016 um 8:06 von Admin

    Man könnte auch sagen ausgelagert und kaputt gespart!

  • Am 10. August 2016 um 8:14 von Mathias

    Und warum arbeitest du Super Schlau Schlau nicht für Delta Airlines?.
    Immer das selbe in deinen Kommentaren ,alle sind dumm und du der Gipfel der Weisheit .
    Einfach nur lächerlich

    • Am 10. August 2016 um 20:31 von C

      Ich habe nur Basic-Standards im RZ aufgeführt. Wenn das für Dich „super schlau“ ist… dann such mal nach „Follow the Sun“.

      Die IT-Verantwortlichen gehören sofort gefeuert – ob mit alter oder neuer HW/SW.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *