Lakehouse ersetzt Hadoop

Hadoop ist schon seit 15 Jahren im Einsatz und nicht mehr zeitgemäß. Unternehmen sollten jetzt zu Lakehouse migrieren, erklärt Toby Balfre, VP Field Engineering EMEA bei Databricks, in einem Gastbeitrag.

Um große Datenmengen zu analysieren, arbeiten Unternehmen weltweit seit 15 Jahren mit Apache Hadoop. Inzwischen ist die Software jedoch nicht mehr zeitgemäß. Einfach ausgedrückt: Es ist schwierig und kostspielig, Hadoop zu verwalten. Zudem ist es unglaublich ressourcenintensiv und erfordert hochqualifizierte Mitarbeiter für die Verwaltung und den Betrieb der Umgebung. Angesichts des exponentiellen Datenwachstums in vielen Unternehmen und des Bedarfs an fortgeschrittenen Analysen wie maschinellem Lernen (ML) und künstlicher Intelligenz (KI), lässt sich die Aussage treffen, dass weniger fortgeschrittene Analyseprojekte auf Hadoop umgesetzt werden als bislang.

Wie können Unternehmen also eine neue, zweckmäßige Datenarchitektur aufbauen und wo können sie überhaupt anfangen? In dem Beitrag werden die wichtigsten Punkte beleuchtet, die Unternehmen beachten müssen, damit sie sich von Hadoop lösen können.

CIOs verstehen, dass eine Migration notwendig ist, sehen aber auch die Herausforderungen. Laut einer weltweiten Studie von Databricks und dem MIT, in der Chief Data Officers (CDOs), Chief Analytics Officers und Chief Information Officers (CIOs) befragt wurden, gaben 50 Prozent davon an, dass sie derzeit eine neue Datenplattform evaluieren oder implementieren, um ihre aktuellen Datenprobleme zu lösen. Der Appetit auf Veränderungen ist eindeutig vorhanden. Das häufigste Problem besteht jedoch darin, die alternativen Datenarchitekturen zu evaluieren und herauszufinden, wie CIOs die Migration so nahtlos und einfach wie möglich gestalten können. Der erste Schritt weg von On-Premise kann eine entmutigende Aufgabe sein. Sie birgt das Risiko, dass wenn die Migration erfolglos, zu langsam oder zu kostspielig wird, sich der CIO bzw. CDO dafür rechtfertigen muss. Es stellt sich also die Frage, ob eine neue Datenarchitektur auch das hält, was sich die Verantwortlichen davon versprechen.

Die Zukunft liegt in einer modernen Daten- und KI-Architektur, die nahtlos skaliert werden kann und mit der Cloud Hand in Hand geht. Außerdem muss sie kosteneffizient und einfach zu verwalten sein, damit sich die Datenteams auf die Entwicklung von Anwendungsfällen und nicht auf die Verwaltung der Infrastruktur konzentrieren können. Entscheidend ist, dass die Architektur einen zuverlässigen Weg bietet, mit allen Arten von Daten umzugehen, um prädiktive und Echtzeit-Analyseanwendungen zu ermöglichen.

Eine Lakehouse-Plattform wird zunehmend zur Architektur der Wahl. Sie bietet eine strukturierte Transaktionsschicht für einen Data Lake, um eine Data Warehouse-ähnliche Leistung, Zuverlässigkeit, Qualität und Skalierbarkeit für alle Daten zu erreichen. Viele der Anwendungsfälle, für die traditionell ein Data Warehouse erforderlich gewesen wäre, lassen sich mit einem Data Lake allein bewältigen. Und schließlich müssen Unternehmen ihre Daten nicht an ein bestimmtes System oder Format binden, da es auf einem offenen Standardformat basiert.

Die Migration zu einer Lakehouse-Plattform klingt also schön und gut, aber viele CIOs fragen sich, ob das der Wirklichkeit entspricht. Sehen wir uns einige der einfachen Schritte an, die bei der Migration von Hadoop zu beachten sind.

 

  1. Intensive Gespräche

Vor jeder erfolgreichen Migration müssen Datenteams, CIOs und CDOs über deren Ziele sprechen. Einige logische Einstiegsfragen drehen sich naturgemäß um den Ist- und den Soll-Stand der bisherigen Datenarchitektur. Anschließend können die Teams den Zustand der aktuellen Infrastruktur bewerten und eine neue planen. In dieser frühen Phase gilt es zu experimentieren und neue Erkenntnisse zu gewinnen. Unternehmen, die eine erfolgreiche Migration durchführen wollen, müssen intern die richtigen Gespräche führen, um zu verstehen, warum das Unternehmen migrieren will, wer beteiligt werden muss und wie die Migration in eine allgemeine Cloud-Strategie passt, um nur einige Punkte zu nennen.

 

  1. Migrationsbewertung durchführen

Bei einem Migrationsprojekt wird der Funke nicht sofort überspringen. Der realistischste Ansatz für die meisten wird darin bestehen, Stück für Stück, Projekt für Projekt zu migrieren. Die Unternehmen müssen verstehen, welche Aufgaben ausgeführt werden und wie der Code aussieht. In den meisten Szenarien müssen Unternehmen auch einen Business Case für jede Migration erstellen.

 

  1. Technischen Bausteine

Bei der Hadoop-Migration ist die technische Phase am wichtigsten. In dieser Phase müssen die Unternehmen ihre Zielarchitektur durchdenken und sicherstellen, dass sie den Geschäftsanforderungen langfristig gerecht wird. In den meisten Fällen geht es darum, ältere Technologien auf neue abzubilden oder sie einfach zu optimieren. Schließlich müssen sich die Unternehmen auch Gedanken darüber machen, wie sie ihre Daten zusammen mit den Workloads in die Cloud verlagern können.

 

  1. Bewertungszyklen einbauen

Unternehmen müssen im nächsten Schritt eine Form der Evaluierung verschiedener Lösungsansätze durchführen. Dies gelingt beispielsweise durch Demos, Workshops und Pilotprojekte mit anschließender Produktionsphase mit Livedaten. Erst danach kann die neue Datenarchitektur validiert werden.

 

  1. Durchführung der Migration

Der letzte Punkt, den es zu berücksichtigen gilt, ist die eigentliche Ausführungsphase. Eine Migration wird nie einfach sein, wenn sie aber gleich beim ersten Mal richtig durchgeführt wird, sorgt das für eine höhere Akzeptanz. Der erste Versuch ist entscheidend dafür, wie schnell das Unternehmen seine Analyseverfahren skalieren, Kosten senken und die Produktivität des Datenteams steigern kann. Zur Gewährleistung der Kontinuität sollten Unternehmen Workloads sowohl auf Hadoop als auch auf der neuen Datenarchitektur laufen lassen. Damit stellen sie sicher, dass in der neuen Umgebung alles identisch ist. Nach einiger Zeit lässt sich dann die Entscheidung treffen, vollständig auf die neue Datenarchitektur umzusteigen und den Anwendungsfall vollständig von Hadoop zu trennen.

 

Fazit

Hadoop ist die Innovation anzurechnen, die es bei seiner Einführung ausgelöst hat, und auch für die Dynamik, die es auf dem Markt hatte. Unternehmen streben jedoch danach, ihre Teams zu skalieren und zu befähigen, mehr mit Daten und KI zu arbeiten. Unternehmen ist es deshalb an der Zeit, nicht mehr nur über die Trennung von Hadoop nachzudenken, sondern diesen Schritt auch mit dem nötigen Vertrauen zu gehen. Je länger Unternehmen damit warten, desto schmerzhafter wird es, wenn sie mit den wachsenden Erwartungen auf Kundenseite und dem Wettbewerbsdruck der Konkurrenz nicht Schritt halten können.

Themenseiten: Databricks, Hadoop

Fanden Sie diesen Artikel nützlich?
Content Loading ...
Whitepaper

Artikel empfehlen:

Neueste Kommentare 

Noch keine Kommentare zu Lakehouse ersetzt Hadoop

Kommentar hinzufügen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *