Studie: DRAM-Fehler sind weit häufiger als bisher bekannt

Eine groß angelegte Feldstudie der Universität Toronto mit zehntausenden von Google-Servern hat eine vielfach höhere Fehlerhäufigkeit bei Speicherriegeln festgestellt, als die Industrie angibt. Sie brachte aber auch andere interessante Erkenntnisse.

von Peter Marwan und Robin Harris am 7. Oktober 2009 , 13:51 Uhr

Bianca Schroeder von der Universität Toronto hat gemeinsam mit den Google-Mitarbeitern Eduardo Pinheiro und Wolf-Dietrich Weber eine über zweieinhalb Jahre angelegt Studie zu den Fehlerraten von DRAM durchgeführt (PDF). Grundlage waren zehntausende von Google-Servern. Das Ergebnis: Im Durchschnitt traten 3,751 korrigierbare Fehler pro DIMM pro Jahr auf. Das klingt nicht nach viel, ist aber zwischen hundert- und tausendmal mehr als bisher angenommen.

Schroeder, Pinheiro und Weber haben mit ihrer Arbeit die erste breit angelegte Untersuchung von RAM-Fehlern in der Praxis vorgelegt. Ausgewertet haben sie Speicher unterschiedlicher Hersteller, Dichte und Bauart, einschließlich DDR1, DDR2 und FB-DIMM. Die untersuchten Google-Server nutzen in der Regel Speicher mit Error Correction Code (ECC), wodurch einfache Bitfehler automatisch korrigiert werden und mehrfache Bitfehler eine Meldung auslösen.

Bei kleineren Servern, Notebooks oder Desktops wird EEC aufgrund der deutlich höheren Kosten kaum verbaut. Es könnte also gut sein, dass Anwender mit Bitfehlern zu kämpfen haben, das aber nicht einmal wissen, weil es das von ihnen benutzte System auch nicht weiß.

Das ist so lange nicht dramatisch, bis die fehlerhaften Daten zu einer falschen Speicherzuweisung, einem falschen Wert oder einem verkehrten Bit beim Schreiben auf die Platte führen. Dann macht sich das Problem entweder mit Meldungen wie „file not found“ oder „file not readable“ bemerkbar. Möglich sind auch die nicht festzustellende Korrumpierung der Daten oder ein unerklärlicher Systemabsturz. Auf den Hinweis „memory error“, der die wahre Ursache aufdecken würde, wartet der Anwender aber vergeblich.

Bisher wurde diese Fehlerquelle für vernachlässigbar gehalten. Die Branche war sich darin einig, dass sogenannte Hard Errors ausgesprochen selten seien. Man machte sich eher Gedanken über die „häufiger“ auftretenden Soft Errors.

IBM etwa gibt bisher an, dass bei einem konstanten Serverbetrieb auf Meereshöhe solch ein Fehler bei einem 128-MByte-PC100-SDRAM-Modul im Durchschnitt einmal im Monat vorkomme. Micron erklärt sogar, es sei lediglich einmal in sechs Monaten mit solch einem Fehler zu rechnen. Die neue Studie zeigt jedoch, dass Hardware- und nicht Softwarefehler die häufigste Fehlerursache sind – und wirft damit die Lehrmeinung über den Haufen.

Ein weiteres Ergebnis der Studie ist, dass die Fehlerrate nicht in erster Linie vom DIMM-Typ oder dem Hersteller abhängt, sondern vom Motherboard. Daraus lässt sich schließen, dass beim Design einiger gängiger Mainboards in Bezug auf elektromagnetische Interferenzen geschlampt wurde – etwa, indem eine Leiterbahn zu nahe an einer störenden Komponente vorbeiführt.

Die Untersuchung hat jedoch auch einige positive Ergebnisse gebracht:

Die Temperatur spielt für Fehlerraten nur eine geringe Rolle. Das hat Google übrigens auch für Festplatten festgestellt. So gesehen gibt es also keinen Grund, es bei der Kühlung zu übertreiben.
Das Problem wird nicht schlimmer, obwohl die neueste Generation von DRAM näher an die physikalischen Grenzen geht als ihre Vorgänger.
Bei sehr intensiv genutzten Systemen treten Fehler häufiger auf, Durchschnittsnutzer müssen sich also weniger Sorgen machen.
Es wurden keine signifikanten Unterschiede zwischen DIMM-Arten (DDR1, DDR2 oder FB-DIMM) oder Anbietern festgestellt. Käufer können sich also nach dem Preis richten – zumindest bei den DIMMS mit ECC, die untersucht wurden.
Insgesamt hatten pro Jahr acht Prozent aller DIMMs Fehler. Wer weniger DIMMs nutzt, hat also auch seltener Fehler.
ECC-DIMMs kosten nicht nur mehr, sie sind auch etwas langsamer. Da die Leistungseinbuße nur zwischen drei und fünf Prozent beträgt, dürften die meisten Anwender das nicht einmal bemerken. Gamern könnte es jedoch schon auffallen.

Nachdenklich stimmen dürften die Ergebnisse Betreiber von Servern mit großem Speicher, etwa für In-Memory-Datenbanken. Und nachdenklich stimmen sollten sie auch die Unternehmen, die sich bisher auf die Aussagen der Industrie verlassen haben, dass DRAM zuverlässig arbeitet.

Schließlich müssten den großen Systemanbietern eine Unmenge von Daten über Ausfallraten und Support-Anrufe vorliegen, sei es nun hinsichtlich Laufwerken, DRAM, Netzwerkkarten, Betriebssystemen oder Dateisystemen. Keiner hielt es aber bisher für notwendig, die Öffentlichkeit darüber zu informieren – und wenn, dann höchstens zu Marketingzwecken. Hut ab also vor Google, das diese wissenschaftlich ermittelten Daten in einem Maßstab zugänglich gemacht hat, der valide Aussagen zulässt und mit dem nicht viele dienen können.

ZDNet-Autor Robin Harris, stolzer Besitzer eines mit EEC-DIMMS vollgestopften Apple-Rechners, war übrigens nicht wenig erstaunt, als er nach Lektüre der Studie den Memory-Bereich in „About this Mac“ prüfte und entdeckte, dass eines der sechs verbauten 2-GByte-DIMMs korrigierbare Memoryfehler meldete. Er prüft jetzt im Selbstversuch, ob die Garantiebestimmungen eingehalten werden.

Die harten Fakten der Studie „DRAM Errors in the Wild: A Large-Scale Field Study“ von Bianca Schroeder, Eduardo Pinheiro und Wolf-Dietrich Weber im Überblick.

Studie: DRAM-Fehler sind weit häufiger als bisher bekannt

Neueste Kommentare

Noch keine Kommentare zu Studie: DRAM-Fehler sind weit häufiger als bisher bekannt

Vielen Dank für Ihren Kommentar.
Ihr Kommentar wurde gespeichert und wartet auf Moderation.

Schreibe einen Kommentar Antworten abbrechen

Neueste Kommentare

Noch keine Kommentare zu Studie: DRAM-Fehler sind weit häufiger als bisher bekannt

Vielen Dank für Ihren Kommentar.Ihr Kommentar wurde gespeichert und wartet auf Moderation.

Schreibe einen Kommentar Antworten abbrechen

Vielen Dank für Ihren Kommentar.
Ihr Kommentar wurde gespeichert und wartet auf Moderation.