Apache Spark integriert R und wird von IBM gefördert

Apache Spark ist auf Version 1.4 aktualisiert worden, die erstmals Unterstützung der Statistik-Programmiersprache R mitbringt. Dazu dient die so bezeichnete „SparkR API“. Die quelloffene In-memory-Datenverarbeitungs-Engine erhält parallel zusätzlichen Schwung durch eine Zusage von IBM: In diesem Unternehmen sollen sich künftig 3500 Entwickler mit Projekten befassen, die mit Spark zu tun haben.

Spark 1.4 führt zugleich Unterstützung für Python 3 ein. Und mit einer Dataframe API werden Spark SQL und die DataFrame-Library auch um Fensterfunktionen erweitert, um Statistiken auszuwerten.

SparkR ist ein ursprünglich von der Unversität Berkeley entwickeltes R-Frontend für Spark. Entwickler Patrick Wendell von Databricks erklärt, damit lasse sich Sparks Engine von einer R-Shell aus nutzen. „Weil SparkR die darunter liegende parallele Engine von Spark verwendet, können Operationen mehrere Maschinen oder Kerne nutzen und so auf Größen skalieren, die reine R-Programme nicht erreichen.“

Wendell zufolge ist die Benutzerstelle (API) für Maschinelles Lernen nun zudem stabil und kann in der Produktion eingesetzt werden. Sie war mit Spart 1.2 eingeführt worden. Zudem werden in Spark 1.4 auch Utilities für visuelles Debugging und Monitoring eingeführt, die Entwicklern einen Eindruck vermitteln, wie Spark-Apps ablaufen und wann bestimmte Abschnitte und Aufgaben erledigt sind. Damit lassen sich auch Durchsätze und Latenzen beobachten.

Der Release 1.4 ebenso wie IBMs Ankündigung, in großem Maßstab auf Spark zu setzen, kommen im Zusammenhang mit der Konferenz Spark Summit in San Francisco diese Woche. IBM will Spark in seine Plattformen für Analytics und E-Commerce integrieren, aber auch als gehosteten Clouddienst anbieten. In der Watson Health Cloud soll es künftig ebenfalls eine Rolle spielen.

IBM teilt mit, im Zeitalter mobiler Apps und des Internets der Dinge sehe es zwei herausragende Vorteile von Spark. Zum einen verbessere es die Leistung datenbasierter Anwendungen dramatisch. Zum anderen habe man beobachtet, dass es die Entwicklung aus Daten lernender „intelligenter“ Apps radikal vereinfache.

Spark war 2009 an der Universität Berkeley als Forschungsprojekt gestartet worden, um ein Cluster-Computing-Framework für Arbeitslasten zu schaffen, für die Hadoop schlecht geeignet ist. Es wurde 2010 quelloffen. 2014 trugen mehr als 450 Unterstützer Quelltext bei. Die Erfinder von Spark haben inzwischen das Unternehmen Databricks gegründet, das als Distributor von Spark eine Komplettlösung für Datenwissenschaftler und Entwickler verspricht.

[mit Material von Toby Wolpe, ZDNet.com]

Tipp: Was haben Sie über Datenbanken gespeichert? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.

Florian Kalenda

Seit dem Palm Vx mit Klapp-Tastatur war Florian mit keinem elektronischen Gerät mehr vollkommen zufrieden. Er nutzt derzeit privat Android, Blackberry, iOS, Ubuntu und Windows 7. Die Themen Internetpolitik und China interessieren ihn besonders.

Recent Posts

Supercomputer Hawk mit 11.260 AMD-Prozessoren geht in Betrieb

Das Höchstleistungsrechenzentrum in Stuttgart (HLRS) hat heute offiziell den Supercomputer Hawk in Betrieb genommen. Der Großrechner stammt von Hewlett Packard…

1 Tag ago

BlackBerry: Automobilindustrie und Einzelhandel sollten sich auf mehr Bedrohungen einstellen

Der Anstieg von Angriffen in der Automobilindustrie werde durch die fortschreitende Vernetzung der PKWs begünstigt. Das ist das Ergebnis des…

1 Tag ago

Telekom blickt auf ein Rekordjahr zurück

Der Konzern erzielt 2019 einen Umsatz von 80,5 Milliarden Euro, was einem Anstieg gegenüber dem Vorjahr um 6.4 Prozent entspricht.…

1 Tag ago

Dell will RSA Security an Symphony Technology Group verkaufen

Dieser Schritt soll das Portfolio von Dell vereinfachen und der RSA ermöglichen, sich auf ihre Kernaufgabe im Bereich Sicherheit zu…

2 Tagen ago

Webinar: BlackBerry Intelligent Security – Flexible Sicherheitsrichtlinien für mobiles Arbeiten

Die meisten Unified Endpoint Management Produkte platzieren Richtlinien auf einem Gerät oder in einer Anwendung nach eng umrissenen Vorgaben. Entscheidend…

2 Tagen ago

Deutschland vor Hybrid-Cloud-Welle

Interessant sind die Ergebnisse des Enterprise Cloud Index 2019 für Deutschland. Denn die hiesigen Entwicklungen zeigen: Nicht jede App soll…

2 Tagen ago