Datenintegration: Stolperstein für verlässliche Analysen

Sechs Anbieter berichten von ihren Konzepten und Problemen mit der Business Intelligence

von Ulrike Ostler am 10. Dezember 2002 , 19:57 Uhr

Gestern trafen sich sechs Anbieter von Business Intelligence (BI) in München mit Analysten, um ihre Konzepte und Produkte vorzustellen: Informatica, Hyperion, Seebeyond, Evoke, I2 und das Projekthaus Softlab. Mit von der Partie war BARC-Vertreter Bange, dessen Institut unter anderem Marktübersichten über Softwareprodukte herausgibt, die für den deutschen Markt Relevanz besitzen. Er wies auf die Lücken im Markt für BI-Intelligence-Angebote hin.

Noch immer scheitern Projekte in Sachen BI an der Datenintegration. Unter anderem fehle ein automatisiertes Qualitäts-Management, behauptet Carsten Bange, geschäftsführender Gesellschafter des Business Research Centers (BARC). Außerdem gibt es bisher nur Ansätze, einen Standard für BI-Produkte zu etablieren.

Keine Frage, die Technik für Business Intelligence (BI) hat sich weiterentwickelt, seit der Erfindung des Data Warehouse. Vor schon fast zehn Jahren etablierte sich der Begriff für die Datensammlungen, die ausschließlich für ein Reporting und weitergehende Analysen zur Verfügung stehen. Bis dahin war Datenhaltung an operative Systeme gekoppelt, die etwa Produktionen, Buchhaltungen und den Handel unterstützten. Vor allem was die Verarbeitung von Datenmengen und die Erreichbarkeit über Online-Abfragen angeht, hat sich seither einiges getan.

Bange unterscheidet heute fünf Ebenen für BI-Komponenten. Zunächst gibt es die Vorsysteme mit ihrer Datenhaltung, die zumeist der Transaktionsabwicklung dient, sowie externe Quellen. Sodann existiert in den meisten größeren Betrieben ein Data-Warehouse oder auch kleinere, abteilungsspezifische Data-Marts. Auch hier benötigt das Unternehmen Systeme zur Datenhaltung, zumeist relationale Datenbanksysteme, und Tools für die Administration.

Nicht alle Abteilungen eines Unternehmens brauchen alle Daten in der gleichen Form. Der Vertrieb muss wissen, welcher Artikel sich wo gut verkauft. Der Einkauf sollte ebenfalls wissen, welcher Artikel sich gut verkauft; denn er muss unter Umständen Material nachordern. Der Einkauf hat jedoch kaum Interesse daran, in welcher Region der Absatz besonders gut ist.

Diese verschiedenen Sichten auf die Daten bilden so genannte multidimensionale Würfel ab. Diese können virtuell auf relationalen Datenbanken eingerichtet werden, aber auch in eigens dafür geschaffenen Datenbanksystemen. Mit Hilfe dieser Würfel für das Online Analytical Processing (Olap) lassen sich die Daten nach unterschiedlichen Kriterien etwa Zeit und Raum ordnen und auswerten in diverser Granularität. Um die Würfel zu erstellen, sind Tools für die multidimensionale Aufbereitung und Informationsmodellierung erforderlich.

Standardberichte, Management-Informationssysteme und Analysen schließlich ist das, womit ein Anwender zu tun hat. Es gibt dementsprechend Tools fürs Planen, für die Suche nach Mustern (Data Mining), für die Erstellung von Reports und von Detailauswertungen.

Die jüngste eigenständige Werkzeugkategorie ist jedoch auf der Ebene Datenintegration angesiedelt: ETL-Tools. Das Akronym ETL steht für Extraction, Transformation und Loading. Solche Tools übernehmen die Datenextraktion aus den operativen Systemen, wandeln sie in Formate um, die das jeweilige Data Warehouse benötigt, und lädt die Daten in diesen Datenpool. Noch basteln viele Unternehmen die Programme zur Datenaufbereitung selbst, so dass sich die Werkzeuge noch weithin durchsetzen müssen.

Doch selbst wenn solche Tools zum Einsatz gelangen, können sie nur für einen formalen Abgleich sorgen. Sie harmonisieren einzig die Formate. Es fehlt eine inhaltliche Datenbereinigung. So fällt in den Stammdaten häufig nicht einmal auf, dass E. Hoffmann mit Erwin Hoffmann identisch ist, selbst wenn die Namen mit derselben Adresse verknüpft sind. Andererseits können Name und Anschrift vollständig korrekt und unverwechselbar hinterlegt sein, Erwin Hoffmann aber längst verzogen.

Softwareanbieter Evoke Software, hierzulande in Hallbergmoos vertreten, bietet zwar ein System an, mit dem sich Inkonsistenzen entdecken lassen. Doch versteht der Hersteller darunter ein „Profiling“. Dieses ist eine nahezu einmalige Angelegenheit. Profiling findet statt, wenn eine neue Datenquelle für ein Data Warehouse erschlossen werden soll. Es handelt sich um eine Bestandsaufnahme.

„Was aber im Qualitäts-Management fehlt“, sagt BARC-Geschäftsführer Bange, „ist eine fortlaufende automatisierte Überprüfung der Daten“. Nur so könne auffallen, wenn es einen Kunden unter der geführten Adresse nicht mehr gebe. Ein Profiling dürfe nur die Basis für eine ständige Qualitätsverbesserung sein.

Anbieter von BI-Werkzeugen scheinen zumindest diesen Bedarf registriert zu haben. So ist Ascential nun im Besitzt des Profiling-Software-Herstellers Vality Technology Inc. SAS Institute hat den Hersteller Dataflux gekauft. „Doch zumeist“, so Bange „konzentrieren sich die wenigen Anbieter von Qualitätssicherungs-Tools auf die Bereinigung von Adressinformationen“: Dubletten werden beseitigt und die Daten konsolidiert. Doch für alle anderen Daten fehlen solche Programme“. Weitere Hersteller, die Bange in den Qualitäts-Management-Sektor einreiht sind Trillium und First Logic.

SAS Institute stellte in einem BI-Projekt bei der Deutschen Bahn fest, dass dort 16 verschiedene Definitionen von „Zug“ existieren. Diese mögen ihre Berechtigung haben

Datenintegration: Stolperstein für verlässliche Analysen

Neueste Kommentare

Noch keine Kommentare zu Datenintegration: Stolperstein für verlässliche Analysen

Vielen Dank für Ihren Kommentar.
Ihr Kommentar wurde gespeichert und wartet auf Moderation.

Schreibe einen Kommentar Antworten abbrechen

Neueste Kommentare

Noch keine Kommentare zu Datenintegration: Stolperstein für verlässliche Analysen

Vielen Dank für Ihren Kommentar.Ihr Kommentar wurde gespeichert und wartet auf Moderation.

Schreibe einen Kommentar Antworten abbrechen

Vielen Dank für Ihren Kommentar.
Ihr Kommentar wurde gespeichert und wartet auf Moderation.