Deduplizierung: Storagekosten schnell und nachhaltig senken

(http://www.zdnet.de/magazin/41006460/deduplizierung-storagekosten-schnell-und-nachhaltig-senken.htm)

von Peter Marwan, 13. Juli 2009

Der Kampf zwischen den Storage-Giganten EMC und NetApp um Data Domain hat den Begriff "Deduplizierung" ins Rampenlicht gerückt. ZDNet zeigt, was die Technologie Firmen bringt, sowie welche Strategien und Angebote es gibt.

"Doppelt hält besser", heißt es landläufig, wenn man denkt, dass etwas außerordentlich gründlich erledigt wurde. Gerade in schwierigen Zeiten stellt sich aber schnell die Frage, ob das wirklich wahr ist: Reicht einmal gut gemacht nicht doch aus? Und ist "doppelt" vielleicht einfach auch doppelt so teuer? Im Zusammenhang mit Datenspeicherung stellen sich diese Fragen derzeit besonders viele IT-Verantwortliche.

Das Zauberwort, das eine Antwort verspricht, ist "Deduplizierung". Wie wichtig das eigentlich schon lange im Markt diskutierte Thema aktuell ist, zeigt die Übernahmeschlacht um Data Domain zwischen NetApp und EMC: Die beiden Firmen haben in den vergangenen Wochen erbittert[1] um die Übernahme des Deduplizierungsspezialisten gekämpft[2] - obwohl beide entsprechende Funktionen schon länger selbst anbieten. Offenbar lassen diese sich aber mit den Technologien von Data Domain noch erheblich verbessern, denn schließlich bezahlt[3] EMC für den Anbieter rund 2,1 Milliarden Dollar.

Ein ganz schöner Batzen Geld, wenn man bedenkt, dass Data Domain 2008 gerade mal einen Umsatz[4] 274,1 Millionen und einen Gewinn von 8,4 Millionen (nach GAAP) erwirtschaften konnte. Allerdings konnte der Umsatz im Vergleich zum Vorjahr mehr als verdoppelt werden (plus 122 Prozent), was zeigt, dass die Nachfrage nach Deduplizierung rasant steigt. Was hat es aber genau damit auf sich?

Deduplizierung[5] hat viel mit der Komprimierung von Daten gemeinsam. Man könnte jedoch sagen, dass im Vergleich zu Komprimierung, wo im übertragenen Sinne mit der Nagelfeile gearbeitet wird, Deduplizierung mit dem Hobel zu Werke geht. Deduplizierung sucht nach langen, gleichen Byte-Sequenzen und ersetzt diese wenn möglich durch einen Verweis, statt sie nochmals zu speichern. Der Clou dabei ist, dass dies für Anwendungen und Anwender vollkommen transparent geschieht. Sie greifen wie gewohnt auf die Dateien zu.

Besonders augenfällig sind die Vorteile der Deduplizierung beim Backup: Wird beispielsweise von einem Laufwerk jede Woche eine Sicherungskopie erstellt, entsteht dadurch eine riesige Menge an mehrfach vorhandenen Daten. Mit Algorithmen für die Deduplizierung lassen sich dagegen nur die tatsächlich veränderten Bereiche neu sichern, auf bereits vorhandene wird lediglich verwiesen. Dadurch lassen sich Speicherkapazitäten in großem Umfang einsparen. Wie viel genau, ist jedoch stark davon abhängig, um welche Art von Daten es sich handelt. Data Domain wirbt damit, dass sich mit Deduplizierung zwischen die zehn- bis dreißigfache Datenmenge sichern lässt. Das würde bedeuten, dass Firmen für ihr Backup statt zehn oder 30 Teraybte nur ein Terabyte Festplattenkapazität benötigen. Das senkt nicht nur die Kosten für die Hardware, auch die Aufwendungen für Strom und Verwaltung reduzieren sich erheblich. Für viele Firmen ist außerdem interessant, dass sich die Backup-Zeiten und die dafür benötigte Bandbreite erheblich verringern - was wiederum hilft, Kosten einzudämmen.

Ein konkretes Praxisbeispiel zu den Einsparmöglichkeiten mit Deduplizierung hat erst kürzlich EMC[6] präsentiert: Der Anbieter konnte die Informationsverarbeitung Leverkusen (IVL[7]) als Referenzkunden gewinnen. IVL bedient Kunden aus der öffentlichen Verwaltung, Energieversorgung und Industrie unter anderem mit Netzwerk Services, Client Desktop Services und SAP-Consulting. Seit März 2009 nutzt IVL als einer der ersten Firmen in Deutschland die Deduplizierungstechnologie in den Disk-Library-Systemen 1500 und 3000 von EMC.

"Die Deduplizierung mit einem Reduktionsfaktor von 19:1 übertrifft unsere Erwartungen bei weitem. Damit sind die erhofften Kosteneinsparungen deutlich höher als ursprünglich kalkuliert", erläutert Dirk Herzog, Leiter Central IT-Services der IVL. Angestrebt war zunächst die Verringerung um den Faktor zehn. Ein weiterer Pluspunkt der Deduplizierung ist, dass die riesigen Datenmengen der anfallenden Kundendaten jetzt auch online vorgehalten werden können, was mit dem vorherigen Backup-Konzept nicht machbar gewesen wäre. Außerdem kommt die deduplizierte Backup-Infrastruktur nun ohne Tape-Medien aus.

Dass dem Storageriesen das Thema Deduplizierung wichtig ist, zeigt aber nicht nur die Übernahme von Data Domain. Auf seiner Hausmesse Ende Mai in Orlando wurden auch neue Funktionen für die Backup-Software EMC NetWorker[8] angekündigt. Durch anwendungsnahe Deduplizierung sollen sich bis zu 98 Prozent des Speicherplatzes einsparen und Backup-Prozesse um bis zu 90 Prozent beschleunigen lassen. Außerdem bietet EMC Global Services nun Assessments für Deduplizierung an, um Firmen die möglichem Einsparpotenziale aufzuzeigen.

Hewlett-Packard[9] beackert das Feld schon etwas länger. Der Konzern hatte sich aber unter dem Stichwort "Information Lifecycle Management" zunächst auf Kunden mit hohem E-Mail-Aufkommen oder umfangreichen Dokumenten-Management-Systemen spezialisiert. Gerade erst vorgestellte Einsteiger-NAS-Systeme richten sich nun jedoch auch an kleine und mittlere Unternehmen.

HP StorageWorks X1000[10] und X3000 fassen File- und Applikationsspeicher in einem System zusammen und bieten ebenfalls integrierte Deduplizierung. Laut Hersteller sollen sich damit rund 35 Prozent des Speichers einsparen und die Leistung um 30 Prozent steigern lassen. Mit diesen Angaben ist HP also vergelcihsweise bescheiden. X1000 ist für 10 bis 200 gleichzeitige Benutzer ausgelegt und kostet mit einer Kapazität von vier Terabyte rund 5100 Euro.

Eine Etage höher angesiedelt, aber ebenfalls noch für den Mittelstand konzipiert, sind die Produkte der Serie FAS2000[11] von NetApp[12]. Sie bieten 68 oder 104 Terabyte Speicherplatz und auf einer Plattform den Datenservice für sämtliche Geschäftsanwendungen sowie den Datenzugriff über Windows, Linux und Unix.

Den Ressourcenverbrauch reduzieren sie durch Deduplizierung laut NetApp um bis zu 95 Prozent. Der Hersteller hält sich zugute, dass er Deduplizierung für Applikationen auf jeder Speicherebene beherrscht, sowohl für Primär-, Backup- als auch Archivspeicher. Außerdem kommt mit dem sogenannten Thin Provisioning die Möglichkeit hinzu, die Speicherauslastung zu steigern - laut NetApp um bis zu 50 Prozent.

So wichtig das Thema also auch zu sein beziehungsweise zu werden scheint - richtig freuen kann sich darüber keiner der oben genannten Hersteller. Schließlich haben alle in der Vergangenheit nicht schlecht daran verdient, indem sie ihren Kunden möglichst große Kisten mit möglichst vielen Festplatten hinstellten und möglichst umfassende Lizenzen für die zu deren Verwaltung notwendige Software verkauften. Durch die aggressive Vermarktung von Deduplizierung nehmen sie sich also selbst Geschäft weg – kommen aber offenbar aufgrund der Wettbewerbssituation inzwischen nicht mehr darum herum.

Eine etwas komfortablere Ausgangssituation hat Symantec[13]. Schließlich hat der Softwarespezialist noch nie Storage-Hardware verkauft. Er ist zudem der Meinung, dass Firmen trotz Datenwachstum in der Regel bereits ausreichend damit versorgt sind. Die aktuelle Marketingkampagne "Stop buying Storage" bringt diese Argumentationslinie auf den Punkt.

Nach Ansicht des Symantec-Managements gewinnt zudem Thin Provisioning an Bedeutung, weil es hilft, die eigentlich reichlich vorhandenen Ressourcen besser zu nutzen. Damit ließe sich auch der in einer Symantec-Kundenumfrage deutlich gewordenen Zwickmühle entgehen: Demnach rechnen 52 Prozent der Unternehmen damit, 2009 wesentlich mehr in Speicherkapazitäten investieren zu müssen. Und das, obwohl fast 90 Prozent der Befragten über ein deutlich reduziertes Budget verfügen.

Mit seiner Kampagne will der Softwareanbieter der aus seiner Sicht bei den Verantwortlichen weit verbreiteten Ansicht entgegenwirken, dass Storagekosten Fixkosten seien, an denen nicht zu rütteln ist. Man wolle den Firmen durch geeignete Software helfen, ihre oft ungeordnete und Großteils brachliegende Infrastruktur zu nutzen, und damit konkret und kurzfristig Kosten zu senken, beziehungsweise zu vermeiden.

Schnell Geld zu sparen verspricht auch die gerade von symantec vorgestellte Version der Plattform Net Backup[14]. Zusammen mit den unter den Marken Backup Exec[15] und Enterprise Vault[16] vertriebenen Angeboten soll sie durch zentral gesteuerte Deduplizierung den Speicherbedarf reduzieren. "Symantec Enterprise Vault" leitet Dateien direkt aus Anwendungen (etwa Exchange, Sharepoint oder Windows) in ein Deduplizierungs-Archiv. Net Backup und Backup Exec sollen doppelte Backups vermeiden. Damit können Firmen laut Symantec den erforderlichen Speicherplatz für Backups um bis zu 95 Prozent reduzieren.

Außerdem beschleunige sich die Wiederherstellung im Falle eines Datenverlustes. Denn - auch das habe die Kundenumfrage gezeigt - bei fast einem Drittel der Recovery-Szenarien würden die Ziele nicht erfüllt. Das gelte insbesondere für virtualisierte Umgebungen.

Die aktuelle Version von Net Backup unterstützt die Open-Storage-API, um die Datendeduplizierungstechnologien von Data Domain, EMC, Falconstor und Quantum einzubinden. Noch 2009 soll mit Net Backup Pure Disk 6.6 eine Lösung bereitstehen, die 50 Prozent weniger Serverhardware benötigt und den Backup-Datenspeicher auf bis zu 16 Terabyte pro Backup-Server erweitert.

Ebenfalls im Lauf des Jahres soll Backup Exec 2010 auf den Markt kommen. Es verfügt dann über Deduplizierungs-Funktionalität in Backup-Clients und dem Backup Exec Media Server. Auch dafür will Symantec über die Open-Storage-Schnittstelle Deduplizierungstechnologien von Partnern einbinden.

Wem das zu komplex erscheint, der sollte sich Backup & Recovery 10[17] von Acronis[18] genauer anschauen. Die Lösung bietet ein optionales Zusatzmodul, dass laut Hersteller Deduplizierung auch für kleine Firmen erschwinglich macht. Laut Acronis reduziert sich der Speicherbedarf um bis zu 90 Prozent. Außerdem bietet auch diese Lösung die erweiterte Unterstützung virtueller Umgebungen.

Die Software hilft, Windows- und Linux-Server sowie Arbeitsplatzrechner zu sichern, und samt Betriebssystem, Anwendungen, Updates, Einstellungen sowie Dateien wiederherzustellen. Das Zusatzmodul "Acronis Universal Restore" erlaubt die Systemwiederherstellung auch auf anderer Hardware. "Backup & Recovery 10 Workstation" kostet gut 80 Euro, die Vollversion "Backup & Recovery 10 Advanced Server" etwas über 1000 Euro. "Backup & Recovery 10 Deduplication" liegt bei rund 230 Euro pro Server.

URLs in diesem Artikel:
[1] = http://www.zdnet.de/news/wirtschaft_unternehmen_business_bieterwettstreit_emc_erhoeht_kaufangebot_fuer_data_domain_story-39001020-41006254-1.htm
[2] = http://www.zdnet.de/news/wirtschaft_unternehmen_business_netapp_haelt_an_uebernahme_von_data_domain_fest_story-39001020-41006315-1.htm
[3] = http://www.zdnet.de/news/wirtschaft_unternehmen_business_data_domain_geht_nun_doch_an_emc_story-39001020-41006379-1.htm
[4] = http://www.datadomain.com/news/press_rel_012909.html
[5] = http://de.wikipedia.org/wiki/Deduplizierung
[6] = http://germany.emc.com/
[7] = http://www.ivl.de/
[8] = http://germany.emc.com/products/family/networker-family.htm
[9] = http://www.hp.com/de
[10] = http://h10010.www1.hp.com/wwpc/de/de/sm/WF05a/12169-3798502-3954626-3954626-3954626-3954714.html
[11] = http://www.netapp.com/de/products/storage-systems/fas2000/
[12] = http://www.netapp.com/de/
[13] = http://www.symantec.de
[14] = http://www.symantec.com/de/de/business/products/family.jsp?familyid=netbackup
[15] = http://www.symantec.com/de/de/business/products/family.jsp?familyid=backupexec
[16] = http://www.symantec.com/de/de/business/enterprise-vault
[17] = http://www.acronis.de/backup-recovery/
[18] = http://www.acronis.de/