Warum Rechner ausfallen

Aussagekräftige Statistiken darüber zu finden, warum PCs ausfallen, ist sehr schwer. Wer weiß schon, wie oft PC-Anwender Windows neu installieren? Für große Clustersystem dagegen haben Bianca Schroeder und Garth Gibson von der Carnegie Mellon University jetzt interessante Ergebnisse vorgelegt. Sie beobachteten dazu über zehn Jahre lang Ausfälle der Großrechner der Los Alamos National Laboratories (LANL) - mit teilweise überraschenden Ergebnissen. Eine der Überraschungen ist, ...

Aussagekräftige Statistiken darüber zu finden, warum PCs ausfallen, ist sehr schwer. Wer weiß schon, wie oft PC-Anwender Windows neu installieren? Für große Clustersystem dagegen haben Bianca Schroeder und Garth Gibson von der Carnegie Mellon University jetzt interessante Ergebnisse vorgelegt. Sie beobachteten dazu über zehn Jahre lang Ausfälle der Großrechner der Los Alamos National Laboratories (LANL) – mit teilweise überraschenden Ergebnissen.

Eine der Überraschungen ist, dass neue Hardware nicht zuverlässiger ist als alte. Wenig überraschend dagegen, dass sich auch bei einem von so hochqualifizierten Spezialisten betreuten System nicht für alle Ausfälle vernünftige Erklärungen finden lassen. Wenigstens ist die Zahl der durch die Anwender verursachten Fehler vergleichsweise gering – aber nicht in jedem Unternehmen kann man es sich leisten, nur promovierte Mitarbeiter an die Rechner  zu lassen.

Trotz der unglaublichen Leistungsfähigkeit des von den LANL betriebenen Supercomputers Roadrunner benötigt er für manche Aufgaben mehrere Monate. Bei über 3000 Computing Nodes sind Fehler und Ausfälle unvermeidlich. Die LANL-Experten stoppen in so einem Fall den Rechenjob und setzen einen Kontrollpunkt. Fällt ein Knoten aus, können sie zum letzten Kontrollpunkt zurückgehen und einen Neustart vornehmen. Die bis zum Kontrollzeitpunkt bereits erledigte Arbeit bleibt so zwar erhalten, die nachfolgenden Berechnungen allerdings gehen verloren.

Hardware ist in der Untersuchung der größte Fehlerfaktor und für rund die Hälfte aller Ausfälle verantwortlich. Software wurde nur in 20 Prozent der Fälle als Ursache ausgemacht. Aufschlussreich ist, das die Fehlerrate eines Systems proportional zur Zahl der in dem System verwendeten Prozessoren ansteigt. Für große Multiprozessorsysteme, wie sie auch in Supercomputern genutzt werden, ist das natürlich ein ernstes Problem.

Was last sich daraus für den Desktop-PC ableiten? Man sollte zum Beispiel nicht erwarten, dass neue Komponenten zuverlässiger arbeiten als alte. Nicht zu leugnende Verbesserungen werden wohl durch den Zuwachs an Komplexität wieder zunichte gemacht. Außerdem sollten sich Nutzer von Multiprozessorsystemen darauf einstellen, dass dadurch zwar die Leistung, nicht aber die Zuverlässigkeit besser wird. Auch wenn die negativen Auswirkungen sich wahrscheinlich in Grenzen halten, da sich Effekte der 3000-Prozessor-Systeme nicht in gleichem Maße bei Systemen mit zwei oder vier Prozessorkernen bemerkbar machen werden.

In einem Punkt allerdings unterscheidet sich der Desktop gewaltig vom Superrechner: Die meisten Ausfälle lassen sich nach wie vor auf Software zurückführen. Und das wird sich so schnell auch nicht ändern.

Themenseiten: Analysen & Kommentare, IT-Business

Fanden Sie diesen Artikel nützlich?
Content Loading ...
Whitepaper

Artikel empfehlen:

Neueste Kommentare 

Noch keine Kommentare zu Warum Rechner ausfallen

Kommentar hinzufügen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *