Studie: DRAM-Fehler sind weit häufiger als bisher bekannt

Eine groß angelegte Feldstudie der Universität Toronto mit zehntausenden von Google-Servern hat eine vielfach höhere Fehlerhäufigkeit bei Speicherriegeln festgestellt, als die Industrie angibt. Sie brachte aber auch andere interessante Erkenntnisse.

Bianca Schroeder von der Universität Toronto hat gemeinsam mit den Google-Mitarbeitern Eduardo Pinheiro und Wolf-Dietrich Weber eine über zweieinhalb Jahre angelegt Studie zu den Fehlerraten von DRAM durchgeführt (PDF). Grundlage waren zehntausende von Google-Servern. Das Ergebnis: Im Durchschnitt traten 3,751 korrigierbare Fehler pro DIMM pro Jahr auf. Das klingt nicht nach viel, ist aber zwischen hundert- und tausendmal mehr als bisher angenommen.

Schroeder, Pinheiro und Weber haben mit ihrer Arbeit die erste breit angelegte Untersuchung von RAM-Fehlern in der Praxis vorgelegt. Ausgewertet haben sie Speicher unterschiedlicher Hersteller, Dichte und Bauart, einschließlich DDR1, DDR2 und FB-DIMM. Die untersuchten Google-Server nutzen in der Regel Speicher mit Error Correction Code (ECC), wodurch einfache Bitfehler automatisch korrigiert werden und mehrfache Bitfehler eine Meldung auslösen.

Bei kleineren Servern, Notebooks oder Desktops wird EEC aufgrund der deutlich höheren Kosten kaum verbaut. Es könnte also gut sein, dass Anwender mit Bitfehlern zu kämpfen haben, das aber nicht einmal wissen, weil es das von ihnen benutzte System auch nicht weiß.

Das ist so lange nicht dramatisch, bis die fehlerhaften Daten zu einer falschen Speicherzuweisung, einem falschen Wert oder einem verkehrten Bit beim Schreiben auf die Platte führen. Dann macht sich das Problem entweder mit Meldungen wie "file not found" oder "file not readable" bemerkbar. Möglich sind auch die nicht festzustellende Korrumpierung der Daten oder ein unerklärlicher Systemabsturz. Auf den Hinweis "memory error", der die wahre Ursache aufdecken würde, wartet der Anwender aber vergeblich.

Bisher wurde diese Fehlerquelle für vernachlässigbar gehalten. Die Branche war sich darin einig, dass sogenannte Hard Errors ausgesprochen selten seien. Man machte sich eher Gedanken über die "häufiger" auftretenden Soft Errors.

IBM etwa gibt bisher an, dass bei einem konstanten Serverbetrieb auf Meereshöhe solch ein Fehler bei einem 128-MByte-PC100-SDRAM-Modul im Durchschnitt einmal im Monat vorkomme. Micron erklärt sogar, es sei lediglich einmal in sechs Monaten mit solch einem Fehler zu rechnen. Die neue Studie zeigt jedoch, dass Hardware- und nicht Softwarefehler die häufigste Fehlerursache sind - und wirft damit die Lehrmeinung über den Haufen.

Ein weiteres Ergebnis der Studie ist, dass die Fehlerrate nicht in erster Linie vom DIMM-Typ oder dem Hersteller abhängt, sondern vom Motherboard. Daraus lässt sich schließen, dass beim Design einiger gängiger Mainboards in Bezug auf elektromagnetische Interferenzen geschlampt wurde - etwa, indem eine Leiterbahn zu nahe an einer störenden Komponente vorbeiführt.

Die Untersuchung hat jedoch auch einige positive Ergebnisse gebracht:

  • Die Temperatur spielt für Fehlerraten nur eine geringe Rolle. Das hat Google übrigens auch für Festplatten festgestellt. So gesehen gibt es also keinen Grund, es bei der Kühlung zu übertreiben.
  • Das Problem wird nicht schlimmer, obwohl die neueste Generation von DRAM näher an die physikalischen Grenzen geht als ihre Vorgänger.
  • Bei sehr intensiv genutzten Systemen treten Fehler häufiger auf, Durchschnittsnutzer müssen sich also weniger Sorgen machen.
  • Es wurden keine signifikanten Unterschiede zwischen DIMM-Arten (DDR1, DDR2 oder FB-DIMM) oder Anbietern festgestellt. Käufer können sich also nach dem Preis richten – zumindest bei den DIMMS mit ECC, die untersucht wurden.
  • Insgesamt hatten pro Jahr acht Prozent aller DIMMs Fehler. Wer weniger DIMMs nutzt, hat also auch seltener Fehler.
  • ECC-DIMMs kosten nicht nur mehr, sie sind auch etwas langsamer. Da die Leistungseinbuße nur zwischen drei und fünf Prozent beträgt, dürften die meisten Anwender das nicht einmal bemerken. Gamern könnte es jedoch schon auffallen.

Nachdenklich stimmen dürften die Ergebnisse Betreiber von Servern mit großem Speicher, etwa für In-Memory-Datenbanken. Und nachdenklich stimmen sollten sie auch die Unternehmen, die sich bisher auf die Aussagen der Industrie verlassen haben, dass DRAM zuverlässig arbeitet.

Schließlich müssten den großen Systemanbietern eine Unmenge von Daten über Ausfallraten und Support-Anrufe vorliegen, sei es nun hinsichtlich Laufwerken, DRAM, Netzwerkkarten, Betriebssystemen oder Dateisystemen. Keiner hielt es aber bisher für notwendig, die Öffentlichkeit darüber zu informieren - und wenn, dann höchstens zu Marketingzwecken. Hut ab also vor Google, das diese wissenschaftlich ermittelten Daten in einem Maßstab zugänglich gemacht hat, der valide Aussagen zulässt und mit dem nicht viele dienen können.

ZDNet-Autor Robin Harris, stolzer Besitzer eines mit EEC-DIMMS vollgestopften Apple-Rechners, war übrigens nicht wenig erstaunt, als er nach Lektüre der Studie den Memory-Bereich in "About this Mac" prüfte und entdeckte, dass eines der sechs verbauten 2-GByte-DIMMs korrigierbare Memoryfehler meldete. Er prüft jetzt im Selbstversuch, ob die Garantiebestimmungen eingehalten werden.

Die harten Fakten der Studie DRAM Errors in the Wild: A Large-Scale Field Study von Bianca Schroeder, Eduardo Pinheiro und Wolf-Dietrich Weber im Überblick.
Die harten Fakten der Studie "DRAM Errors in the Wild: A Large-Scale Field Study" von Bianca Schroeder, Eduardo Pinheiro und Wolf-Dietrich Weber im Überblick.

Fanden Sie diesen Artikel nützlich?
27 von 27 Lesern fanden diesen Artikel nützlich.

Aktuelle Job-Angebote

Specials

Mit dem iPhone hat Apple den Smartphone-Markt revolutioniert.

Der Themenschwerpunkt bietet Tests und Hintergrundartikel rund um das Thema Android.

Tests, Nachrichten und Praxis-Tipps informieren über die Windows-Mobilplattform.

ZDNet.de Live

Motor ...

Motorola: Android-Updates verzögern sich wegen der Hardware-Vielfalt t.co/...

10.02.12, 20:00 von zdnet_de
Aktie ...

Aktienkurse dort wo man sie am liebsten sieht: auf dem Mülleimer! t.co/...

10.02.12, 19:50 von coke4all
Faceb ...

Facebook details Zuckerberg's $500,000 salary, 45% bonus t.co/...

10.02.12, 19:45 von ZDNet
New ...

New Microsoft Office University product comes with tougher verification rules t.co/...

10.02.12, 19:35 von ZDNet
#Prad ...

#Prada Phone by #LG 3.0 ausgepackt und ausprobiert - #smartphone #android t.co/...

10.02.12, 19:30 von cnet_de
Schon ...

Schon im Test: Prada Phone by LG 3.0 mit Android und superhellem Display t.co/...

10.02.12, 19:30 von cnet_de
Beta ...

Beta von Chrome 18 erweitert Hardwarebeschleunigung t.co/...

10.02.12, 19:30 von zdnet_de
Sage ...

Sage helps chocolate business manage seasonality t.co/...

10.02.12, 19:20 von ZDNet
Colum ...

Columbia University excludes Google Docs t.co/...

10.02.12, 19:20 von ZDNet
Benq ...

Benq bringt XGA-Projektor mit 4000 ANSI-Lumen t.co/...

10.02.12, 19:00 von zdnet_de
Germa ...

Germany postpones ACTA signing in wake of protests t.co/...

10.02.12, 18:45 von ZDNet
Iran ...

Iran cuts off access to popular Web sites t.co/...

10.02.12, 18:40 von ZDNet
Makin ...

Making lame excuses for Microsoft's decision to drop the Start button in Windows 8 t.co/...

10.02.12, 18:40 von ZDNet
Did ...

Did Mark Zuckerberg just Like Mitt Romney on Facebook? t.co/...

10.02.12, 18:35 von ZDNet
Flood ...

Flooding in Thailand will deter hard drive market through Q3 t.co/...

10.02.12, 18:35 von ZDNet
Lenov ...

Lenovo verspricht Android 4.0 für Thinkpad Tablet binnen drei Monaten t.co/...

10.02.12, 18:30 von zdnet_de
Pakis ...

Pakistan sperrt 13.000 "obszöne" Websites t.co/...

10.02.12, 18:10 von zdnet_de
Win 8 ...

Win 8 kurz vor der Consumer Preview: Oberfläche und Apps t.co/...

10.02.12, 18:10 von zdnet_de
#Gadg ...

#Gadget der Woche: #Augmented-Reality-Gewehr AppToy #AppBlaster zu #gewinnen - #ar t.co/...

10.02.12, 18:10 von cnet_de
Iran ...

Iran schaltet Zugriff auf Webmailer und Facebook ab t.co/...

10.02.12, 17:40 von zdnet_de