Categories: Data & StorageStorage

Stille Datenverluste aufspüren

Daten altern. Bit Rot oder stille Datenkorruption (Silent Data Corruption, SDC)  ist die langsame Verschlechterung der Leistung und Integrität von Daten, die auf Speichermedien gespeichert sind. Das liegt daran, dass eine Festplatte oder ein anderes Speichermedium einen sehr präzisen Stromstoß an einen sehr kleinen Bereich der Platte abgibt, der die gespeicherte Ladung verändert, um die gespeicherten Daten zu kennzeichnen.

Allerdings verlieren diese Bereiche manchmal ihre Ladung oder ändern sie automatisch. Dieses Phänomen wird als „Flipping“ bezeichnet. Sobald der Bereich auf der Festplatte umkippt, werden die Daten in diesem Bereich gelöscht, beschädigt oder unlesbar. Deshalb verlieren Videos oder Fotos auf Speichermedien nach einigen Jahren an Qualität und werden irgendwann unlesbar. Das ist für Privatleute ärgerlich, kann für Unternehmen aber zu einem echten Problem werden.

SDCs sind Datenfehler, die keine Aufzeichnungen oder Spuren in den Systemprotokollen hinterlassen. Zu den Quellen von SDCs gehören unter anderem Datenpfadabhängigkeiten, Temperaturschwankungen und das Alter des Siliziums. Da diese Datenfehler unauffällig sind, können sie innerhalb von Workloads unentdeckt bleiben und sich über mehrere Dienste ausbreiten.

Der Datenfehler kann sich auf den Arbeitsspeicher, den Speicher, das Netzwerk und die Computer-CPUs auswirken und zu Datenverlust und -beschädigung führen.

Die Meta-Ingenieure begannen vor drei Jahren mit den Tests, da es ihnen schwer fiel, SDCs zu erkennen, nachdem die Komponenten bereits in eine ihrer Produktionsrechenzentrumsflotten eingebaut worden waren.

„Wir [brauchten] neuartige Erkennungsansätze, um den Zustand von Anwendungen und die Ausfallsicherheit der Flotte zu erhalten, indem wir SDCs erkennen und in großem Umfang abmildern“, so Meta-Ingenieur Harish Dattatraya Dixit in einem Blogbeitrag.

Laut Tests hat Meta herausgefunden, dass die bevorzugte Methode zur Erkennung von SDCs sowohl Out-of-Production- als auch Ripple-Tests sind.

Out-of-Production-Tests sind eine Methode zur Erkennung von SDCs, die bei Wartungsereignissen wie Systemneustarts, Kernel-Upgrades und Host-Provisioning zum Einsatz kommen. Diese Art von Tests greift auf diese Ereignisse zurück, um längere Laufzeiten zu ermöglichen und so eine „intrusivere Art der Erkennung“ zu ermöglichen.

Beim Ripple-Testing wird eine stille Fehlererkennung in Verbindung mit aktiven Workloads durchgeführt. Dies geschieht durch Schattentests mit Arbeitslasten und durch das zeitweise Einfügen von Bitmustern mit erwarteten Ergebnissen in Flotten und Arbeitslasten, was laut Meta eine schnellere SDC-Erkennung ermöglicht als Tests außerhalb der Produktion.

Diese schnellere Art des Testens zieht sich wie ein roter Faden durch die Infrastruktur von Meta und ermöglicht Testzeiten, die bis zu 1.000 Mal kürzer sind als die Laufzeiten von Out-of-Production-Tests.

Die Meta-Ingenieure stellten jedoch fest, dass bei den Ripple-Tests nur 70 % der Beschädigungen von Flottendaten erkannt wurden, obwohl sie innerhalb von 15 Tagen aufgedeckt werden konnten. Im Vergleich dazu dauerten Out-of-Production-Tests sechs Monate, um die gleichen und andere Fehler zu entdecken.

Bei der Erläuterung dieser Vorteile und Kompromisse empfahl Dattatraya Dixit, dass Unternehmen mit einer großen Infrastruktur beide Ansätze zur Erkennung von SDCs verwenden sollten. „Wir empfehlen die Verwendung und den Einsatz beider Ansätze in einer großen Flotte“, so Dattatraya Dixit.

„Während die Erkennung von SDCs ein schwieriges Problem für große Infrastrukturen ist, haben uns jahrelange Tests gezeigt, dass [Out-of-Production] und Ripple-Tests eine neuartige Lösung für die schnellstmögliche Erkennung von SDCs im großen Maßstab bieten können.“

Als die Meta-Ingenieure beide Tests zur Erkennung von SDCs einsetzten, stellten sie fest, dass alle SDCs letztendlich erkannt werden konnten. Meta sagte, dass 70 % der SDCs nach 15 Tagen durch Ripple-Tests gefunden wurden, Out-of-Production-Tests fingen bis zu 23 % der verbleibenden SDCs in sechs Monaten auf, während die restlichen 7 % durch wiederholte Ripple-Instanzen innerhalb seiner Rechenzentrumsflotten gefunden wurden.

Um weitere Innovationen bei der Erkennung von SDCs voranzutreiben, hat Meta außerdem angekündigt, fünf Stipendien im Wert von jeweils rund 50.000 Dollar für akademische Einrichtungen bereitzustellen, die Forschungsvorschläge in diesem Bereich erarbeiten sollen.

ZDNet.de Redaktion

Recent Posts

Chips bescheren Samsung deutlichen Gewinnzuwachs

Das operative Ergebnis wächst um fast 6 Billionen Won auf 6,64 Billionen Won. Die Gewinne…

58 Minuten ago

Chrome: Google verschiebt das Aus für Drittanbietercookies

Ab Werk blockiert Chrome Cookies von Dritten nun frühestens ab Anfang 2025. Unter anderem gibt…

17 Stunden ago

BAUMLINK: Wir sind Partner und Aussteller bei der Frankfurt Tech Show 2024

Die Vorfreude steigt, denn BAUMLINK wird als Partner und Aussteller bei der Tech Show 2024…

19 Stunden ago

Business GPT: Generative KI für den Unternehmenseinsatz

Nutzung einer unternehmenseigenen GPT-Umgebung für sicheren und datenschutzkonformen Zugriff.

23 Stunden ago

Alphabet übertrifft die Erwartungen im ersten Quartal

Der Umsatz steigt um 15 Prozent, der Nettogewinn um 57 Prozent. Im nachbörslichen Handel kassiert…

4 Tagen ago

Microsoft steigert Umsatz und Gewinn im dritten Fiskalquartal

Aus 61,9 Milliarden Dollar generiert das Unternehmen einen Nettoprofit von 21,9 Milliarden Dollar. Das größte…

4 Tagen ago