Data Warehouse und Big Data –
Grundpfeiler eines modernen Data Hubs - Teil 3

Unter dem Motto – „Data Warehouse und Big Data – Grundpfeiler eines modernen Data Hubs“ – stellen wir Ihnen hier diese beiden Lösungen vor. Neben einer Gegenüberstellung der Unterschiede beider Welten, erhalten Sie auch eine Nutzendarstellung. Ziel ist es, das „Warum“ und „Wofür brauche ich welche Ansätze“, zu liefern.

Dies ist der dritte Teil der Serie. In diesem Artikel geht es um den Nutzen und die Zielrichtung von Data Warehouse und Big Data.

Die Entscheidung zur Nutzung einer klassischen DWH-Welt oder einer modernen Big Data-Welt hängt maßgeblich von der Zielrichtung ab (vgl. Abbildung 4). Im Folgenden werden unterschiedliche Zielrichtungen von beiden Welten aus dem praktischen Erfahrungsschatz vieler Kundenprojekte der Autoren diskutiert.

Zielrichtung von Data Warehouse und Big Data

 

Motivation

Sowohl im DWH als auch in der Big Data-Welt können dem Endbenutzer Daten zur Verfügung gestellt werden.

Im DWH sind folgende Zielrichtungen optimal umsetzbar:

  • Standardisierte Auswertungen über Zeitreihen, d.h. es können x-beliebige Historien abgebildet werden
  • Drillfunktionalitäten, um mittels Slice & Dice in Daten hinein bzw. heraus zu drillen, d.h. die Granularität der Daten kann per Knopfdruck geändert werden
  • Harmonisierte Datenbestände mit sehr hoher Datenqualität, d.h. mittels eines sauberen Daten-Glossars sind alle Attribute und Metriken unternehmensweit eindeutig und die Kommunikation der Stakeholder wird signifikant verbessert
  • Planungen können auf verlässlichen Datenbeständen durchgeführt werden

Im Gegenzug ist das Big Data-Umfeld auf folgende Zielrichtungen ausgerichtet:

  • Anforderungen der Künstlichen Intelligenz und des Machine Learning sind einfacher produzier- und abbildbar
  • X-beliebige Daten können flexibel und simpel im Data Lake ergänzt werden
  • Data Mining und Mustererkennung sind nicht nur auf harmonisierte Daten, sondern flexibel auf jegliche zugänglichen Daten möglich
  • Data Science wird optimal unterstützt

 

Gesetzliche Motivation

Im DWH sind grundsätzlich regulatorische und gesetzliche Anforderungen und Vorschriften umsetzbar, z.B. die Vorschrift BCBS239 im Bankensektor. Darin geforderte Stresstests im Risikobereich mit unterschiedlichen Parametern für Szenarien sind über Zeitreihen darstell- und vergleichbar und zu beliebigen Zeitpunkten in der Zukunft mit gleichen Ergebnissen reproduzierbar.

Ebenso ist die allgemeingültige Datenschutz-Grundverordnung (DSGVO) umsetzbar. So können eine Anonymisierung von Daten automatisiert gewährleistet sowie die entsprechenden Verpflichtungen zur Datenkorrektur bzw. Löschung sichergestellt werden.

Diese Anforderungen können derzeit in einer reinen Big Data-Lösung nicht vollständig abgebildet werden.

Technische Nutzung

Klassische DWHs haben jahrelang technische Lösungen über die gesamte Wertschöpfungskette von der allgemeinen Datenhaltung über die Datentransformation bis hin zur Datenvisualisierung perfektioniert und standardisiert. Bei der Datenhaltung sind vor allem relationale Datenbanken und In-Memory-Datenbanken im Fokus. Die Datentransformation läuft mittels ausgereifter ETL-Tools. Die Visualisierung wird mittels Frontend-Tools spezialisiert auf Abteilungs- bzw. Enterprise-Anforderungen erfüllt.

Big Data-Lösungen unterliegen derzeit noch einem starken Wandel und diverser Innovationen. Aktuell sind in der Datenhaltung Lösungen von NoSQL-Datenbanken, zum Beispiel Graphdatenbanken oder Dokumentenbasierten Datenbanken, im Fokus. Der Datentransfer wird mittels ELT- bzw. Streamingdiensten vorgenommen. Eine Visualisierung wird entweder mit Frontendwerkzeugen des DWH-Bereichs bzw. mit speziellen Werkzeugen für die genannten fachlichen Zielrichtungen vorgenommen. Diese Werkzeuge sind auf Programmiersprachen wie R, PMML bzw. Python optimiert. Hierdurch wird eine maximale Flexibilität erzielt.

Sicherheit und Berechtigungen

DWHs sind aufgrund ihrer jahrelangen Erprobung auf Stabilität, Ausfallsicherheit und Benutzerberechtigungen mittlerweile sehr ausgefeilt. Es können nahezu alle Anforderungen abgebildet und sichergestellt werden.

Moderne Big Data-Lösungen unterliegen derzeit hinsichtlich Infrastruktur, Architektur und Software einem rapiden Wandel. Lösungsansätze sind zu vielen Punkten vorhanden aber bisher nicht ausgereift. Sie liegen noch hinter dem Stand bewährter DWH-Lösungen, bieten aber in puncto Flexibilität und Veränderungsmöglichkeit wesentlich mehr Spielraum.

 

Maximaler Mehrwert durch DWH und Big Data

Im Vergleich der beiden Lösungsansätze lassen sich folgende Punkte zusammenfassen: Alle Anforderungen eines Geschäftsbetriebs, die harmonisierte, standardisierte, automatisierte und revisionssichere Lösungen erfordern, sind mittels DWH umzusetzen. Dies sind zum Beispiel Controlling-, Planungs- und Steuerungsanforderungen. Anforderungen, die einen empirischen Charakter aufweisen, sind eher mittels Big Data zu realisieren. Use Cases sind hier verstärkt im Marketing und der Produktqualität vorzufinden.

Data Warehouse und Big Data

 

Nach aktuellem Stand sind DWH und Big Data-Lösungen nicht in der Lage sich gegenseitig zu ersetzen. Die naheliegende Frage, ob ein Unternehmen lieber auf DWH oder Big Data setzen sollte, greift allerdings zu kurz. Beide Systeme bieten, wie skizziert, je nach vorliegenden Voraussetzungen und konkreter Zielrichtung ihre Vor- bzw. Nachteile. Ein Unternehmen wird deshalb seine Daten nur dann optimal für alle geschäftlichen Belange nutzen können, wenn es sowohl auf DWH als auch auf Big-Data Lösungen setzt. Im Zuge der Digitalisierung sind somit alle Unternehmen gefordert, eine Koexistenz beider Lösungen aufzubauen, um weiterhin am Markt konkurrenzfähig und erfolgreich agieren zu können. Die Kombination der beiden Welten schafft aus Daten und dem daraus zu ziehendem Wissen den maximalen Mehrwert, der durch ein „entweder oder“ nicht erreichbar ist. 

 

Fazit

Im Jahr 2014 schrieb William Inmon einen Blog-Eintrag "Big Data or Data Warehouse? Turbocharge your Porsche - buy an Elephant". Hier bemängelte er unter anderem die Vermischung von Architektur (Data Warehouse) und Technologie (Big Data). Ralph Kimball hingegen sprach sich für den Einsatz von Hadoop als Data Warehouse Plattform aus [Wel15]. Die unterschiedliche Haltung der beiden Data Warehouse Päpste sowie ihre dogmatische Haltung zu ihren Ansätzen ist aus Sicht der Autoren hier zu kurz gesprungen.

In der heutigen Welt geht es im Grunde schon gar nicht mehr um Dogmas wie Data Warehouse, Big Data oder Data Science. Es geht vielmehr um eine Enterprise Data Intelligence! Hiermit ist gemeint, das sämtliche verfügbare Daten innerhalb eines Unternehmens sowie externe Daten, ja selbst Prozessmanagement- und Anforderungsmanagementdaten, einen Mehrwert darstellen. Somit sind zwar alle Ansätze der Päpste eine Hilfestellung für Unternehmen; Wie diese Daten in Wissen verwandelt werden können, dass „Warum“ und „Wie“, ist aber auf die speziellen Bedürfnisse eines jeden Unternehmens anzupassen. Je nach Use Case sind somit der eine oder andere Ansatz beziehungsweise eine Mischung die passende Lösung. Unter innovativen Gesichtspunkten kann somit nur festgehalten werden: Es lebe die Koexistenz und man darf gespannt sein, unter welchem Begriff dieser disruptive Umgang mit Daten zukünftig Einzug in die Unternehmen und Literatur hält.

 


Vorangegangener Beitrag:

Was ist Data Warehouse? Was ist Big Data?
Data Warehouse und Big Data – Grundpfeiler eines modernen Data Hubs– Teil 1

Was ist der Unterschied zwischen Data Warehouse und Big Data?
Data Warehouse und Big Data – Grundpfeiler eines modernen Data Hubs– Teil 2

 

MID Blog Newsletter abonnieren

Mehr lesen

Popup Image
stagNames-> |||
counterPost-> [1, 2, 3]
Zurück zum Blog