Doug Cutting: Big Data ist keine Blase

Der Mitschöpfer von Hadoop und Systemarchitekt von Cloudera stellt sich einem ausführlichen Interview. Er hält den Siegeszug von Big Data für unaufhaltsam. Im Einschwenken der großen Softwarehersteller sieht er sich bestätigt.

Als Mitgründer von Hadoop und heutiger Sytemarchitekt von Cloudera ist Doug Cutting eng mit Big Data verbunden. Durch Abkommen mit Microsoft, Oracle, IBM und anderen kann sich Cloudera rühmen, mit CDH die führende Hadoop-Distribution im Angebot zu haben.

Doug Cutting

Hadoop ist ein in Java geschriebenes Open-Source-Projekt der Apache Software Foundation, das insbesondere von Yahoo und Google gefördert wurde. Diese Big-Data-Lösung erlaubt die Verarbeitung und Analyse großer Datenmengen auf Computerclustern. Zu den Nutzern dieses Frameworks zur Ausführung verteilter Computerprozesse gehören unter anderem Facebook, Baidu, AOL, Dell, IBM und Apple. IDC erwartet für 2016 einen Umsatz mit Hadoop-Projekten in Höhe von 800 Millionen Dollar.

Doug Cutting ist außerdem Vorsitzender der Apache Foundation, die neben Hadoop weitere Open-Source-Projekte wie OpenOffice und Apache Server verwaltet. ZDNets Schwestersite TechWeekEurope konnte während einer Konferenz in London ein längeres Gespräch mit ihm führen.

Was Hadoop alles kann

Der Big-Data-Macher führte dabei zunächst aus, was Hadoop leistet und warum. Das verteilte Dateisystem von Hadoop kann mit verschiedenen Dateitypen in großen Mengen umgehen, indem es die Verarbeitung auf Cluster kostengünstiger Server verteilt – die Grundlage von Big Data. Clouderas CDH-Distribution umfasst Hadoop, die Datenbank HBase, Sprachtools einschließlich Hive und das von Google entwickelte MapReduce.

“Ich sehe Big Data als diese Art von Computing, die in einer integrierten Plattform die Vorteile breit verfügbarer Hardware und Software nutzt, dazu die Verfügbarkeit großer Speicherkapazität – und dann kommt die Verarbeitung der Daten“, erklärt Cutting. “Man beginnt mit Hardware, einer Anzahl von Knoten, alle im gleichen Hochgeschwindigkeitsnetzwerk, baut darauf eine Softwareplattform, die alles wie einen großen Computer erscheinen lässt. Es ist ein anderes Modell von Computing.”

Ist er angesichts seiner spezifischen Vorstellung von Big Data beunruhigt über den zunehmenden Hype – und die damit verbundene Verwirrung – rund um Big Data? “Stört mich der Begriff Big Data?” fragt er zurück. “Nein, wir müssen es irgendwie benennen.”

“Macht es mich besorgt, dass es eine Blase ist?” fährt er fort. “Ich habe die Zyklen von Auf- und Abschwung viele Jahre lang erlebt, und in Boomzeiten sagen die meisten: ‘Ah, diesmal ist es anders!’ Aber ich glaube wirklich, dass die hier zugrundeliegenden Trends langfristige Trends sind. Das Mooresche Gesetz sagt uns, dass es Jahr um Jahr günstigere und schnellere Hardware geben wird. Und es gibt einen Trend zu größerer Automatisierung in der Industrie, was vorrangig das wirtschaftliche Wachstum beflügelt.”

In allen Geschäftsbereichen seien es Software und Automatisierung, die für Wachstum sorgen – und Big Data dabei die treibende Kraft. “Die von Google vorgegebene Roadmap lässt mich hoffen, dass es kein Zirkuspony ist, das nur für eine Nummer taugt. Wir haben eine Software-Grundlage, auf der wir mit einer unglaublichen Vielfalt von Anwendungen aufbauen können. Ich sehe keinen Grund, warum es nicht zur Hauptstütze des Enterprise-Computing werden sollte.

Die Ankunft von Big Data ist laut Doug Cutting vergleichbar mit der Ankunft des PCs oder der Datenbank. Etwas Neues wurde geschaffen, es wird sich transformierend auswirken und verändern, wie bestehende Technologie genutzt wird.

Besteht nicht die Gefahr, dass der Hype Big Data seine Stärken entzieht? Bei so viel gleichzeitig gestarteten Big-Data-Projekten kann es doch gar nicht genug Experten geben, um sie alle durchzuführen?

“Fehlende Qualifikationen behindern das Wachstum”, stimmt er zu. Es sei aber zugleich eine Chance für Cloudera, das rund 1500 Menschen monatlich ausbildet, teilweise in ihren eigenen Organisationen oder durch Veranstaltungen in ihren Städten. “Dieses Geschäft wächst – wir stellen mehr Ausbilder ein.”

Die Software kann auch vieles einfacher machen, sagt er. “Sie können alles automatisieren, aber es ist noch ein langer Weg.” Und er glaubt, dass die Tools von Cloudera genau dafür gut sind.

Der Big-Data-Ansatz entlastet laut Cutting außerdem die Hardware-Administratoren, da er die Wiederherstellung von Daten automatisiert, wenn ein Laufwerk ausfällt. “Einmal monatlich ersetzen Sie alle ausgefallenen Laufwerke. In der herkömmlichen Welt – selbst mit RAID (Redundant Array of Inexpensive Disks) – müssen Sie bei einem Laufwerksausfall noch ziemlich schnell reagieren. In der Hadoop-Welt geht es einfach mit ausgefallenen Laufwerken weiter.”

Das Geschäftsmodell von Cloudera

Dank der Apache-Lizenz sei es einfach, mit Apache Hadoop gewinnbringend zu arbeiten. Cloudera folge dabei einem bewährten Open-Source-Modell: “Cloudera verkauft Abonnements, die zwei Dinge beinhalten: Support und die Management-Suite.”

Wie andere Open-Source-Software kann auch CDH kostenlos benutzt werden, aber wer Support haben möchte, muss Cloudera bezahlen – und die Suite installieren. “Wir verkaufen nicht à la carte, weil die Management-Suite für uns den Support der Software erleichtert. Wenn Sie unser Tool einsetzen, um die Dinge zu konfigurieren, setzt das Grenzen für das, was zu echten Problemen führen kann.”

Geschäftszahlen nennt er nicht, spricht aber von jährlich wachsenden Einnahmen und rund 300 Kunden des Unternehmens. Die Hälfte von ihnen gehört offenbar zu den Fortune 50, obwohl sie das selbst nicht offenlegen, Cutting zufolge aus Wettbewerbsgründen. Nicht so bedeckt hält sich Games-Anbieter King.com als Referenzkunde.

Weit besser sei das als das alte Modell der Lizenzgebühren: “Einmal schreiben und für immer kassieren? Das wäre wie in der Musikbranche, und das Modell funktioniert auch dort nicht gut.”

Natürlich nutzen viele CDH, ohne dafür zu bezahlen, aber “es bringt nichts, ihnen das übelzunehmen”. Wie bei allen Open-Source-Projekten geht es um Verbreitung und Akzeptanz – und CDH ist Cutting zufolge die anerkannteste Distribution mit Apache Hadoop. Er macht aber auch seinen Respekt für die Community-Distribution Bigtop deutlich, die ebenfalls von Apache kommt und “ungefähr ähnlich zu sehen ist wie Fedora in Beziehung zu Red Hat”. Bigtop wagt sich demnach zu aktuellsten Entwicklungen vor – aber CDH ist mit einer vertraglichen Verpflichtung für langfristigen Support verbunden.

Die Großen bei der Stange halten

Als große Bestätigung darf gelten, dass Oracle inzwischen offen ist für Big Data und Hadoop. Cuttings Keynote auf der IP Expo wurde im letzten Monat begeistert angekündigt von Mike Connaughton, bei Oracle für Big Data in der EMEA-Region verantwortlich. Und später lobte Oracles Chief Operation Officer Mark Hurd sowohl Hadoop als auch Big Data. Er versprach seinen Kunden sogar ausdrücklich Unterstützung für die Open-Source-Lösung Hadoop.

Cutting wirkt fast verlegen angesichts dieses Durchbruchs.”Vor ein paar Jahren waren wir etwas beunruhigt. Was wird mit Oracle werden, was mit Microsoft und IBM?” Cutting zufolge erwartete die Hadoop-Community von ihnen, dass sie die Bedeutung von Big Data erkennen und dann mit ihrer eigenen proprietären Version kommen würden.

“Wir erwarteten, mit Argumenten aufwarten zu müssen, um sie aus dem Markt zu halten, und dass es schwierig sein würde”, sagt er. “Aber schließlich haben sie alle Hadoop als die Plattform der Wahl unterstützt. Einige von ihnen wurden Partner von Cloudera, einige gingen ihren Weg allein, andere wählten einen Mittelweg. Aber sie alle nutzen die gleiche Open-Source-Plattform – was mich überrascht hat.”

“Es ist einerseits eine echte Befürwortung der Plattform”, freut er sich, “beweist aber auch die Reife, die Oracle erreicht hat. Sie versuchen es nicht zu leugnen, und sie versuchen es auch nicht vollständig zu kontrollieren – jedenfalls nicht zu diesem Zeitpunkt. Sie verstehen, dass das etwas ist, an dem sie sich beteiligen müssen.”

“Für mich sieht das nach einer ehrlichen Würdigung aus, weil sie erkannt haben, dass sie dabei sein müssen und das der effizienteste Weg ist”, fährt er fort. “Ich glaube, durch das Open-Source-Modell ist es weniger ängstigend, denn sollten sie mit unserer Beziehung unzufrieden sein, dann müssten sie ihre Kunden nicht aufgeben, die Hadoop nutzen. Sie könnten vielmehr mit eigenen proprietären Tools darauf aufsetzen – das ist nicht verboten.”

Nachdem Microsoft, IBM, Dell und andere an Bord sind, sieht Cutting einen “beispiellosen” Konsens rund um eine Plattform. “Sie haben das in der Vergangenheit nicht geschafft. Ihre Cloud-Anstrengungen sind durchweg inkompatibel. Es gibt keine Cloud-API und keine für Virtualisierung.”

Aber ist es keine Herausforderung für Oracles RDBMS-basierte, lizenzbasierte Welt? “Denken Sie an die Alternativen”, sagt Cutting. “Wenn sie es einfach leugnen und der Rest der Welt erkennt, dass RDBMS nicht alles ist, dann schwimmen ihnen die Felle davon. Die Alternative war klar. Sie mussten sich beteiligen, und das ist ein effektiver Weg.”

Wie auch immer, auch Cutting glaubt nicht, dass relationale Datenbanken verschwinden werden. Big Data könnte relationale Datenbankmanagementsysteme bei einigen Einsatzzwecken ersetzen, aber Big Data “ergänzt RDBMS”, indem es andere und zuvor unmögliche Dinge leistet.

NoSQL-Datenbanken

Was ist mit den Rivalen? Es gibt diese anderen NoSQL-Ansätze, räumt er ein – obwohl ihm der Begriff “NoSQL” nicht zusagt. In Tools wie MongoDB und Couchbase sieht er “punktuelle Angebote verglichen mit CDH, weil das Cloudera-Paket alles beinhaltet mit HBase, MapReduce, Pig und Hive” – und weitere Tools sollen noch hinzukommen.

“Wenn Ihre Daten im Hadoop Distributed File System (HDFS) sind, dann sind all diese Tools verfügbar, ohne sie bewegen zu müssen”, sagt er. “Und wenn Sie ein Petabyte Daten haben, dann ist die Datenübertragung kostspielig. Wenn Sie nur einen Key-Value-Speicher brauchen, dann könnten Sie hingehen und einen NoSQL-Speicher kaufen oder eine Open-Source-Version nehmen. Aber wenn Sie auch etwas Analytik vorhaben und die Daten nicht mit zu vielen Prozessen belasten wollen, oder Organisationen, die Daten teilen wollen – dann müssen Sie auf eine vielseitigere Plattform mit einer Suite von Tools setzen.”

Hadoop sieht Cutting mehr wie ein ganzes Betriebssystem. “Sie sind nicht an ein OS gebunden, das nur ein Feature hat – das wäre kein besonders nützliches OS.” Die Datenbank HBase habe sich vom Start weg als Erfolg erwiesen. “Wir hatten letztes Jahr den ersten HBase-Con, und es war großartig. Wir hatten 600 Leute, und das zur ersten Konferenz um eine einzelne Technologie.”

Werden MongoDB, Couchbase also wie einst Progress und Ingres in der Versenkung verschwinden, die von Oracle überrollt wurden? Werden sie im Schatten der großen Erfolgsgeschichte von Hadoop verblassen? “Ich äußere mich nicht gerne so scharf, aber das scheint mir keine unvernünftige Analyse zu sein. Ich kann mir nur schwer vorstellen, dass sie auf Dauer erfolgreich sind und wachsen.”

Wie die Datenbank-Giganten der 1980er könnten aber auch die konkurrierenden NoSQL-Anbieter noch längere Zeit eine Rolle spielen: “Leute, die in eine bestimmte Technologie investiert haben, könnten ein Jahrzehnt lang dabei verharren.”

Häuptling von Apache

Doug Cutting spielt aber nicht nur bei Cloudera, sondern auch bei der gemeinnützigen Apache Foundation eine herausragende Rolle. Ist er dort der große Boss?

“Das hört sich nach mehr an, als es ist”, wehrt er ab. “Es ist mehr wie eine Elternrolle. Ich bin Vorsitzender des Verwaltungsrats. Es ist eine Organisation von Freiwilligen, und wir haben nur ein paar Teilzeitmitarbeiter. Es gibt keine Kontrolle von oben nach unten, es gibt nur etwas Disziplin. Wir haben lediglich bestimmte Vorgaben, an die sich die Projekte halten sollten. Es gibt daher keine Mitwirkenden mit besonderen Privilegien.”

Für ihn bedeutet es, dass er sich monatlich mit jeweils rund 40 der über 100 Apache-Projekte zu beschäftigen hat, deren Revision alle drei Monate ansteht. “Ich stelle die Tagesordnung auf und versuche dafür zu sorgen, dass die Sitzungen pünktlich stattfinden”, erklärt er. Internen Streit möchte er nicht in den Medien ausbreiten, auch nicht die Auseinandersetzungen um Oracle und Java vor einigen Jahren.

Intensiv verfolgt er jedoch, was sich in der Technologiebranche an Patentstreitigkeiten entwickelt. Wer Software zu einem Apache-Projekt beiträgt, muss daher über eine Lizenz für jedmögliche Patente verfügen. “Die Apache-Lizenz darf nicht benutzt werden, um ein Patent-U-Boot zu den Nutzern zu schleusen.”

Den besten Schutz für die Organisation könnte jedoch die anerkannt nutzbringende Rolle von Apache darstellen. Wollte sich jemand leichtfertig mit der Apache Software Foundation anlegen wollen, müsste er mit Missbilligung von allen Seiten rechnen.

[Das Interview führte Peter Judge von ZDNets Schwesterpublikation TechWeekEurope. Es wurde ins Deutsche übertragen von Bernd Kling.]

Neueste Kommentare 

Noch keine Kommentare zu Doug Cutting: Big Data ist keine Blase

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *