Categories: Data & StorageStorage

Stille Datenverluste aufspüren

Daten altern. Bit Rot oder stille Datenkorruption (Silent Data Corruption, SDC)  ist die langsame Verschlechterung der Leistung und Integrität von Daten, die auf Speichermedien gespeichert sind. Das liegt daran, dass eine Festplatte oder ein anderes Speichermedium einen sehr präzisen Stromstoß an einen sehr kleinen Bereich der Platte abgibt, der die gespeicherte Ladung verändert, um die gespeicherten Daten zu kennzeichnen.

Allerdings verlieren diese Bereiche manchmal ihre Ladung oder ändern sie automatisch. Dieses Phänomen wird als „Flipping“ bezeichnet. Sobald der Bereich auf der Festplatte umkippt, werden die Daten in diesem Bereich gelöscht, beschädigt oder unlesbar. Deshalb verlieren Videos oder Fotos auf Speichermedien nach einigen Jahren an Qualität und werden irgendwann unlesbar. Das ist für Privatleute ärgerlich, kann für Unternehmen aber zu einem echten Problem werden.

SDCs sind Datenfehler, die keine Aufzeichnungen oder Spuren in den Systemprotokollen hinterlassen. Zu den Quellen von SDCs gehören unter anderem Datenpfadabhängigkeiten, Temperaturschwankungen und das Alter des Siliziums. Da diese Datenfehler unauffällig sind, können sie innerhalb von Workloads unentdeckt bleiben und sich über mehrere Dienste ausbreiten.

Der Datenfehler kann sich auf den Arbeitsspeicher, den Speicher, das Netzwerk und die Computer-CPUs auswirken und zu Datenverlust und -beschädigung führen.

Die Meta-Ingenieure begannen vor drei Jahren mit den Tests, da es ihnen schwer fiel, SDCs zu erkennen, nachdem die Komponenten bereits in eine ihrer Produktionsrechenzentrumsflotten eingebaut worden waren.

„Wir [brauchten] neuartige Erkennungsansätze, um den Zustand von Anwendungen und die Ausfallsicherheit der Flotte zu erhalten, indem wir SDCs erkennen und in großem Umfang abmildern“, so Meta-Ingenieur Harish Dattatraya Dixit in einem Blogbeitrag.

Laut Tests hat Meta herausgefunden, dass die bevorzugte Methode zur Erkennung von SDCs sowohl Out-of-Production- als auch Ripple-Tests sind.

Out-of-Production-Tests sind eine Methode zur Erkennung von SDCs, die bei Wartungsereignissen wie Systemneustarts, Kernel-Upgrades und Host-Provisioning zum Einsatz kommen. Diese Art von Tests greift auf diese Ereignisse zurück, um längere Laufzeiten zu ermöglichen und so eine „intrusivere Art der Erkennung“ zu ermöglichen.

Beim Ripple-Testing wird eine stille Fehlererkennung in Verbindung mit aktiven Workloads durchgeführt. Dies geschieht durch Schattentests mit Arbeitslasten und durch das zeitweise Einfügen von Bitmustern mit erwarteten Ergebnissen in Flotten und Arbeitslasten, was laut Meta eine schnellere SDC-Erkennung ermöglicht als Tests außerhalb der Produktion.

Diese schnellere Art des Testens zieht sich wie ein roter Faden durch die Infrastruktur von Meta und ermöglicht Testzeiten, die bis zu 1.000 Mal kürzer sind als die Laufzeiten von Out-of-Production-Tests.

Die Meta-Ingenieure stellten jedoch fest, dass bei den Ripple-Tests nur 70 % der Beschädigungen von Flottendaten erkannt wurden, obwohl sie innerhalb von 15 Tagen aufgedeckt werden konnten. Im Vergleich dazu dauerten Out-of-Production-Tests sechs Monate, um die gleichen und andere Fehler zu entdecken.

Bei der Erläuterung dieser Vorteile und Kompromisse empfahl Dattatraya Dixit, dass Unternehmen mit einer großen Infrastruktur beide Ansätze zur Erkennung von SDCs verwenden sollten. „Wir empfehlen die Verwendung und den Einsatz beider Ansätze in einer großen Flotte“, so Dattatraya Dixit.

„Während die Erkennung von SDCs ein schwieriges Problem für große Infrastrukturen ist, haben uns jahrelange Tests gezeigt, dass [Out-of-Production] und Ripple-Tests eine neuartige Lösung für die schnellstmögliche Erkennung von SDCs im großen Maßstab bieten können.“

Als die Meta-Ingenieure beide Tests zur Erkennung von SDCs einsetzten, stellten sie fest, dass alle SDCs letztendlich erkannt werden konnten. Meta sagte, dass 70 % der SDCs nach 15 Tagen durch Ripple-Tests gefunden wurden, Out-of-Production-Tests fingen bis zu 23 % der verbleibenden SDCs in sechs Monaten auf, während die restlichen 7 % durch wiederholte Ripple-Instanzen innerhalb seiner Rechenzentrumsflotten gefunden wurden.

Um weitere Innovationen bei der Erkennung von SDCs voranzutreiben, hat Meta außerdem angekündigt, fünf Stipendien im Wert von jeweils rund 50.000 Dollar für akademische Einrichtungen bereitzustellen, die Forschungsvorschläge in diesem Bereich erarbeiten sollen.

ZDNet.de Redaktion

Recent Posts

Gefahren im Foxit PDF-Reader

Check Point warnt vor offener Schwachstelle, die derzeit von Hackern für Phishing ausgenutzt wird.

2 Tagen ago

Bitdefender entdeckt Sicherheitslücken in Überwachungskameras

Video-Babyphones sind ebenfalls betroffen. Cyberkriminelle nehmen vermehrt IoT-Hardware ins Visier.

2 Tagen ago

Top-Malware in Deutschland: CloudEye zurück an der Spitze

Der Downloader hat hierzulande im April einen Anteil von 18,58 Prozent. Im Bereich Ransomware ist…

2 Tagen ago

Podcast: „Die Zero Trust-Architektur ist gekommen, um zu bleiben“

Unternehmen greifen von überall aus auf die Cloud und Applikationen zu. Dementsprechend reicht das Burg-Prinzip…

3 Tagen ago

Google schließt weitere Zero-Day-Lücke in Chrome

Hacker nutzen eine jetzt gepatchte Schwachstelle im Google-Browser bereits aktiv aus. Die neue Chrome-Version stopft…

3 Tagen ago

Hacker greifen Zero-Day-Lücke in Windows mit Banking-Trojaner QakBot an

Microsoft bietet seit Anfang der Woche einen Patch für die Lücke. Kaspersky-Forscher gehen davon aus,…

3 Tagen ago