Google macht quelloffenes Cloud-Dataflow-SDK für Java verfügbar

Cloud Dataflow wurde zur Google I/O im Juni öffentlich vorgestellt. Auf der Google Cloud Platform steht es als Lösung für Big-Data-Analyse im Streaming- oder Batch-Modus bereit. Das Software Development Kit erlaubt aber auch lokale Anwendungen oder den Einsatz in anderen Clouds.

Google hat ein Cloud-Dataflow-SDK für Java als Open Source freigegeben. Cloud Dataflow wurde im Juni zur Entwicklerkonferenz Google I/O öffentlich vorgestellt und dient der Big-Data-Analyse. Google sieht es als eine „Plattform zur Demokratisierung der Datenverarbeitung im großen Maßstab, indem Datenforscher, Datenanalysten und datenzentrierte Entwickler einfacheren und besser skalierbaren Zugang zu Informationen erhalten“.

(Logo: Google)

Dataflow ist ein Cloud-Dienst, der aus der Java-Bibliothek Flume und dem Framework MillWheel entstand, die intern von Google-Entwicklern genutzt wurden. „Wir haben viel darüber gelernt, wie aus Daten Einsichten entstehen, während die ursprünglichen Programmiermodelle von FlumeJava (Grundlage für Cloud Dataflow) sich intern bei Google entwickelten“, schreibt Softwareentwickler Sam McVeety im Google Cloud Platform Blog. Schon im Juni berichtete Urs Hölzle, Senior Vice President for Technical Infrastructure bei Google, Dataflow habe intern das zuvor im Unternehmen entwickelte MapReduce ersetzt, das lange als unverzichtbar bei der Verarbeitung großer Datenmengen auf Computerclustern galt.

Mit Cloud Dataflow als Lösung für Big-Data-Analyse tritt Google in Konkurrenz zu Angeboten wie dem Data-Warehouse-Dienst AWS Redshift und dem Hadoop-Dienst AWS Elastic MapReduce. Die Dataflow-Anwendungen können auf der Google Cloud Platform laufen, die dafür die gesamte benötigte Infrastruktur bereitstellt. Ein Managed Service sorgt für die Verarbeitung im Streaming- oder im Batch-Modus.

Das quelloffene Software Development Kit für Cloud Dataflow erlaubt aber auch lokale Anwendungen oder den Einsatz in anderen Clouds. Das Programmiermodell ist zudem nicht an eine bestimmte Sprache gebunden. „Wir arbeiten derzeit an einer Python-3-Version des SDKs, um Entwicklern noch mehr Wahlmöglichkeiten zu geben und Dataflow für weitere Anwendungen verfügbar zu machen“, schreibt McVeety weiter.

Das Google-Dataflow-SDK für Java ist auf GitHub verfügbar.

[mit Material von Rachel King, ZDNet.com]

Themenseiten: Big Data, Cloud-Computing, Google, Open Source, Software

Fanden Sie diesen Artikel nützlich?
Content Loading ...
Whitepaper

Artikel empfehlen:

Neueste Kommentare 

Noch keine Kommentare zu Google macht quelloffenes Cloud-Dataflow-SDK für Java verfügbar

Kommentar hinzufügen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *