Categories: Unternehmen

Warum Rechner ausfallen

Aussagekräftige Statistiken darüber zu finden, warum PCs ausfallen, ist sehr schwer. Wer weiß schon, wie oft PC-Anwender Windows neu installieren? Für große Clustersystem dagegen haben Bianca Schroeder und Garth Gibson von der Carnegie Mellon University jetzt interessante Ergebnisse vorgelegt. Sie beobachteten dazu über zehn Jahre lang Ausfälle der Großrechner der Los Alamos National Laboratories (LANL) – mit teilweise überraschenden Ergebnissen.

Eine der Überraschungen ist, dass neue Hardware nicht zuverlässiger ist als alte. Wenig überraschend dagegen, dass sich auch bei einem von so hochqualifizierten Spezialisten betreuten System nicht für alle Ausfälle vernünftige Erklärungen finden lassen. Wenigstens ist die Zahl der durch die Anwender verursachten Fehler vergleichsweise gering – aber nicht in jedem Unternehmen kann man es sich leisten, nur promovierte Mitarbeiter an die Rechner  zu lassen.

Trotz der unglaublichen Leistungsfähigkeit des von den LANL betriebenen Supercomputers Roadrunner benötigt er für manche Aufgaben mehrere Monate. Bei über 3000 Computing Nodes sind Fehler und Ausfälle unvermeidlich. Die LANL-Experten stoppen in so einem Fall den Rechenjob und setzen einen Kontrollpunkt. Fällt ein Knoten aus, können sie zum letzten Kontrollpunkt zurückgehen und einen Neustart vornehmen. Die bis zum Kontrollzeitpunkt bereits erledigte Arbeit bleibt so zwar erhalten, die nachfolgenden Berechnungen allerdings gehen verloren.

Hardware ist in der Untersuchung der größte Fehlerfaktor und für rund die Hälfte aller Ausfälle verantwortlich. Software wurde nur in 20 Prozent der Fälle als Ursache ausgemacht. Aufschlussreich ist, das die Fehlerrate eines Systems proportional zur Zahl der in dem System verwendeten Prozessoren ansteigt. Für große Multiprozessorsysteme, wie sie auch in Supercomputern genutzt werden, ist das natürlich ein ernstes Problem.

Was last sich daraus für den Desktop-PC ableiten? Man sollte zum Beispiel nicht erwarten, dass neue Komponenten zuverlässiger arbeiten als alte. Nicht zu leugnende Verbesserungen werden wohl durch den Zuwachs an Komplexität wieder zunichte gemacht. Außerdem sollten sich Nutzer von Multiprozessorsystemen darauf einstellen, dass dadurch zwar die Leistung, nicht aber die Zuverlässigkeit besser wird. Auch wenn die negativen Auswirkungen sich wahrscheinlich in Grenzen halten, da sich Effekte der 3000-Prozessor-Systeme nicht in gleichem Maße bei Systemen mit zwei oder vier Prozessorkernen bemerkbar machen werden.

In einem Punkt allerdings unterscheidet sich der Desktop gewaltig vom Superrechner: Die meisten Ausfälle lassen sich nach wie vor auf Software zurückführen. Und das wird sich so schnell auch nicht ändern.

ZDNet.de Redaktion

Recent Posts

Chips bescheren Samsung deutlichen Gewinnzuwachs

Das operative Ergebnis wächst um fast 6 Billionen Won auf 6,64 Billionen Won. Die Gewinne…

6 Stunden ago

Chrome: Google verschiebt das Aus für Drittanbietercookies

Ab Werk blockiert Chrome Cookies von Dritten nun frühestens ab Anfang 2025. Unter anderem gibt…

22 Stunden ago

BAUMLINK: Wir sind Partner und Aussteller bei der Frankfurt Tech Show 2024

Die Vorfreude steigt, denn BAUMLINK wird als Partner und Aussteller bei der Tech Show 2024…

1 Tag ago

Business GPT: Generative KI für den Unternehmenseinsatz

Nutzung einer unternehmenseigenen GPT-Umgebung für sicheren und datenschutzkonformen Zugriff.

1 Tag ago

Alphabet übertrifft die Erwartungen im ersten Quartal

Der Umsatz steigt um 15 Prozent, der Nettogewinn um 57 Prozent. Im nachbörslichen Handel kassiert…

4 Tagen ago

Microsoft steigert Umsatz und Gewinn im dritten Fiskalquartal

Aus 61,9 Milliarden Dollar generiert das Unternehmen einen Nettoprofit von 21,9 Milliarden Dollar. Das größte…

4 Tagen ago