Deduplizierung: Funktionsweise und Einsatzszenarien

Das Datenaufkommen in Firmen steigt nach wie vor rasant. Mit Deduplizierung lassen sich Neuinvestition vermeiden sowie Zeit und Geld beim unternehmensweiten Speichermanagement einsparen. Details erklärt Andreas Bechter, Produktmanager bei Symantec, im Gastbeitrag für ZDNet.

von Andreas Bechter am 20. April 2011 , 14:30 Uhr

Der Bedarf an Speicherplatz nimmt in der IT immer weiter zu. Einer Studie des Marktforschungsinstituts IDC zufolge steigt die Speicherkapazität in Unternehmen jährlich um 48 bis 50 Prozent. Üblicherweise reagieren IT-Verantwortliche darauf mit dem Zukauf neuer Speicherkapazitäten – und manövrieren sich damit langfristig ins Abseits: Rund 70 Prozent aller Daten sind redundant, im Durchschnitt greifen Anwender mehr als 90 Tage nicht auf sie zu, so IDC weiter.

Etwa die Hälfte aller elektronisch gesicherten Informationen wird sogar nie wieder benötigt. Oft wandern nämlich neben wichtigen Files auch jede Menge bedeutungsloser Daten auf die Backup-Medien. Es mangelt an einer Indizierung der gesicherten Informationen und somit an Transparenz darüber, welche Inhalte geschäftsrelevanten Charakter besitzen und welche Daten schlichtweg obsolet für die Unternehmenszukunft sind. Hinzu kommt, dass ein und dieselben Daten doppelt und dreifach in den Storage-Systemen gesichert werden. Gespeichert wird vorsorglich, Bit für Bit.

Der Autor dieses Gastbeitrags für ZDNet, Andreas Bechter, ist Regional Product Manager EMEA der Information Management Group von Symantec (Bild: Symantec).

Das Prinzip „doppelt hält besser“ greift in diesem Fall allerdings nicht. Vielmehr führt das halbherzig verfolgte Speichermanagement zu einer zusätzlichen Steigerung der IT-Kosten – trotz sinkender Hardware-Preise. Schließlich fehlt es häufig an einer klaren Strategie, welche Daten für das Backup bestimmt sein sollen und welche eigentlich in ein Archiv gehören. Zu all dem passt eine weitere Studie von IDC, wonach die durchschnittliche Auslastung existierender Speichersysteme in einem SAN bei mageren 35 bis 40 Prozent liegt. Mit anderen Worten: Mindestens 60 Prozent des verfügbaren Speicherplatzes liegen brach.

Deduplizierung: Das Grundprinzip

Einen Ausweg aus der Kostenspirale bilden Storage-Management-Strategien auf Basis von Deduplizierungs-Technologien. Dabei handelt es sich – einfach ausgedrückt – darum, mehrfach vorhandene Informationen zu identifizieren und nur ein einziges Mal zu speichern oder zu sichern. Im Zusammenhang mit einer Backup- und Recovery-Strategie ermöglicht es Deduplizierung, Sicherungen und Wiederherstellungen deutlich zu beschleunigen und die Effizienz von Anwendungen zu erhöhen.

Konkret versteht sich Deduplizierung als ein Prozess, der Dateien in einzelne Segmente herunterbricht und anschließend sicherstellt, dass lediglich eine Kopie des jeweiligen Datenabschnitts auf den entsprechenden Media Servern gespeichert wird. Dabei spielt es keine Rolle, wie viele Clients am Backup-Prozess beteiligt sind. Bei einem Backup von fünf Clients beispielsweise wird lediglich eine Kopie eines Segments auf dem Server abgelegt, auch wenn dieselbe Information auf mehreren Arbeitsstationen vorhanden ist.

Eine Tracking-Datenbank fungiert als Kontrollinstanz: Sie enthält die Informationen darüber, welche Segmente von welchen Rechnern sich bereits auf dem Sicherungsmedium befinden, welche Daten erstmalig gespeichert werden und welche Files verändert wurden. Bei einem Recovery erfolgt die Rekonstruktion der Datei anhand der Informationen in der Tracking-Datenbank bevor ein Transfer an den Zielort stattfindet.

Erstmaliges Backup: Neue Datenblöcke (rot) werden auf dem Sicherungsmedium gespeichert. Redundante Informationen (blau) werden vom Backup ausgeschlossen, weil sie bereits vorhanden sind (Grafik: Symantec).

Bei der Datensicherung von Festplatte auf Bandmedien ist das Verhältnis von neuen beziehungsweise veränderten zu unveränderten Daten zwischen zwei Vollsicherungen meist nur relativ gering. Zwei Vollsicherungen belegen bei der klassischen Datensicherung mindestens die doppelte Speicherkapazität auf Band. Deduplizierung erkennt die identischen Datenbestandteile.

In einer Liste werden dazu eindeutige Segmente festgehalten und beim erneuten Auftreten dieses Datenteils werden Zeitpunkt und Ort im Datenstrom notiert, so dass letztlich die Originaldaten wiederhergestellt werden können. Diese Zeiger beanspruchen wesentlich weniger Platz als die referenzierte Bitfolge. Wird die Datei später wieder aufgerufen, lässt sie sich sowohl aus ihren einzigartigen Bestandteilen als auch aus den Teilen, die sie mit anderen Dateien gemein hat, zusammenfügen. Der Index bestimmt genau, welche Teile das sind und wie sie mit den einzigartigen Bestandteilen verbunden werden müssen, um wieder die Ursprungsdatei zu ergeben.

Folge-Backup: Der Speicherplatz für das Backup sowie die Zeit für die Sicherung reduzieren sich mit Deduplizierung deutlich. Auch hier sind neue Datenblöcke rot, bereits gesicherte Daten blau dargestellt (Grafik: Symantec).

Allerdings handelt es sich damit nicht mehr um voneinander unabhängige Vollsicherungen. Das bedeutet, dass der Verlust eines Versionsstandes zu unwiederbringlichem Datenverlust führt. Deduplizierung ist somit ähnlich inkrementellen Sicherungen ein Verfahren, das einen Kompromiss zwischen Datensicherheit und Speicherbedarf macht.

Technische Funktionsweise

Deduplizierungs-Lösungen zielen also darauf ab, Daten nur einmal auf das Speichermedium zu bringen und bereits gespeicherte, redundante Informationen vom Backup-Prozess auszuschließen beziehungsweise zu indizieren. Zur einfachsten Form der Deduplizierung gehört die Erkennung mehrfach vorhandener Dateien: Identische Dateien werden dabei anhand ihres gleichen Hash-Wertes erkannt. Für die anderen identischen Dateien werden lediglich Referenzen angelegt. Single Instance Storage (SIS) ist ein Vertreter dieser Form.

Andreas Bechter ...

... ist Regional Product Manager EMEA der Information Management Group von Symantec. Das Unternehmen bietet Lösung zur Archivierung, Datensicherung für Rechenzentren, Datensicherung und Wiederherstellung für Windows-Server sowie Komplettlösung für Backup und Recovery an, in denen Deduplizierungstechnologien integriert sind.

Tiefgehender und somit effizienter arbeiten Reduktionsverfahren auf dem Block- beziehungsweise Bit-Level. Als typisches Beispiel lässt sich eine Powerpoint-Datei heranziehen: Ändert der Autor der Datei nur eine Zahl auf seinem Slide, speichern Block- und Bit-basierte Techniken lediglich diese Änderung ab. Die Datei wird also später aus mehreren Bestandteilen zusammengesetzt, die für sich genommen die Änderungen seit der ersten Version widerspiegeln.

Deduplizierungs-Systeme arbeiten also auf Blocklevel und somit anders als klassische Kompressionsverfahren, die nur wenige Vergleichsmuster benutzen. Dadurch grenzen sie sich auch zum Single Instance Storage ab, das identische Dateien eliminiert (siehe auch inhaltsadressierte Speichersysteme, CAS).

Eine wichtige Funktion der Deduplizierung ist das sogenannte Fingerprinting. Hier werden Dateien in so genannte Chunks (Datenblöcke) zerlegt. Auf Byte-Ebene wird dann analysiert, welche Segmente die höchste Wiederholrate bieten, um durch Referenzierung (Pointer) auf das Ursprungselement größtmögliche Datenreduzierung zu ermöglichen.

Inhalt

Deduplizierung: Funktionsweise und Einsatzszenarien

Andreas Bechter ...

Neueste Kommentare

1 Kommentar zu Deduplizierung: Funktionsweise und Einsatzszenarien

Vielen Dank für Ihren Kommentar.
Ihr Kommentar wurde gespeichert und wartet auf Moderation.

Schreibe einen Kommentar Antworten abbrechen

Andreas Bechter ...

Neueste Kommentare

1 Kommentar zu Deduplizierung: Funktionsweise und Einsatzszenarien

Vielen Dank für Ihren Kommentar.Ihr Kommentar wurde gespeichert und wartet auf Moderation.

Schreibe einen Kommentar Antworten abbrechen

Vielen Dank für Ihren Kommentar.
Ihr Kommentar wurde gespeichert und wartet auf Moderation.