MID GmbH

              Leistungen          Kundenservice          Downloads            Unternehmen

Was ist Data Warehouse? Was ist Big Data?

 Boris Vogt

 14 Aug 2019

BI/DWH, DWH

Data Warehouse und Big Data –
Grundpfeiler eines modernen Data Hubs – Teil 1

Unter dem Motto – „Data Warehouse und Big Data – Grundpfeiler eines modernen Data Hubs“ – stellen wir Ihnen hier diese beiden Lösungen vor. Neben einer Gegenüberstellung der Unterschiede beider Welten, erhalten Sie auch eine Nutzendarstellung. Ziel ist es, das „Warum“ und „Wofür brauche ich welche Ansätze“, zu liefern.
In dieser 3-teiligen Blogserie starten wir heute mit der Definition von Data Warehouse und Big Data. Im zweiten Blogbeitrag erwartet Sie dann die Gegenüberstellung der Beiden sowie in Teil 3 eine Nutzendarstellung und möglicher Ausblick auf zukünftige Lösungsansätze.

Data Warehouse versus Big Data

Daten sind in Unternehmen mittlerweile ein anerkannter Vermögenswert. Um diesen Vermögenswert intelligent zu nutzen, haben sich in der Praxis konventionelle Data-Warehouse (DWH)- und moderne Big-Data-Ansätze entwickelt. Da Daten die Grundlage dieser beiden Ansätze bilden, werden sie aus einer Makroperspektive häufig gleichgesetzt. Tatsächlich nehmen sie jedoch unterschiedliche technische, fachliche und rechtliche Parameter in den Blick: Ein klassisches DWH und Big-Data-Technologien bieten also Lösungen für ganz unterschiedliche Aufgabenstellungen und Zielrichtungen eines Unternehmens. Für eine optimale Ausschöpfung der Daten und Steigerung der Konkurrenzfähigkeit ist für Unternehmen eine zielgerichtete Symbiose der Ansätze eines DWH sowie von Big Data Lösungen umzusetzen. Die Koexistenz beider Ansätze schafft eine maximale Wertschöpfung.

Definition Data Warehouse

In einem Data Warehouse werden Daten aus gleich- und verschiedenartigen Datenquellen extrahiert, transformiert und geladen Also vereinfach dargestellt, werden die Daten für eine dauerhafte Analyse gespeichert. Die so im DWH historisch gespeicherten Daten bilden den Single Point of Dataund unterstützen die Berichts- und Analysesysteme eines Unternehmens. Die ist ein zentraler Bestandteil von heutigen Business Intelligence und Business Analytics Umgebungen.

Charakteristischen Eigenschaften, die ein DWH erfüllen muss:

Data Warehouse


1. Subject-Oriented
(Themenorientierung)

Während sich in operativen Systemen die Daten an den Prozessen des Unternehmens ausrichten, orientieren sich die Daten im DWH an fachlichen Themen – sogenannten Subjects. Die Konzentration auf solche Themen (Kunde, Produkt, …) ist für eine Entscheidungsfindung sehr hilfreich. Die Themenorientierung hilft auch allen Stakeholdern, Daten schnell zu finden und auszuwerten sowie interdisziplinär mittels eines einheitlichen Datenglossars zu diskutieren. Grundlage hierfür ist der themenorientierte, sachlogische Bezug der Daten.

2. Integrated (Vereinheitlichung)

Die Daten in einem DWH sind integriert. Das bedeutet, dass die Datenbestände aus den vielen unterschiedlichen Datenquellen zusammengeführt und Inkonsistenzen entfernt bzw. korrigiert werden. Auch einheitliche Namenskonventionen, Referenzdaten und physische Datentypen sowie klare Definitionen von Regeln zur Berechnung von KPIs erhöhen den Grad der Integration. Der Datenhaushalt wird somit harmonisiert und ermöglicht zusätzlich zu den obigen Punkten einen höheren Grad der Automatisierung.

3. Time-Variant (Zeitorientierung)

In einem DWH werden Daten über größere Zeiträume gespeichert als in operativen Systemen. Es ist möglich für fachliche Themen den historischen Verlauf nachzuvollziehen. Hiermit werden Analysen bzgl. Entwicklungen, Mustern und Vorhersagen unterstützt. Abfragen sind somit über aktuelle Daten (as-is) und über jeden beliebigen Zeitraum in der Vergangenheit (as-was) problemlos möglich.

4. Non-Volatile (Beständigkeit)

Daten, die einmal ihren Weg ins DWH gefunden haben, werden nicht mehr (zum Beispiel vom Anwender) verändert oder gelöscht. In einem operativen System ist dieses möglich, wenn nicht sogar notwendig. Somit sind in einem DWH per Definition alle Änderungen von Daten zu jeder Zeit nachvollzieh- und reproduzierbar.

 

Definition Big Data

Big Data bezeichnet eine Lösung zur Verarbeitung von sehr großen, komplexen und teilweise semistrukturierten bzw. unstrukturierten sowie schnelllebigen Datenmengen. Die gesammelten Daten können dabei aus verschiedensten Quellen stammen, werden größtenteils in Rohform gespeichert und zum Zweck der Visualisierung, Analyse und Data Mining bzw. Machine Learning verwendet.

In der ursprünglichen Definition von Big Data bezieht sich das „Big“ auf die drei V‘s:

Big Data


1. Volume
(Datenvolumen)

Sehr große Datenmengen können verarbeitet und gespeichert werden.

2. Velocity (Geschwindigkeit)

Daten werden in kürzester Zeit und mit hoher Geschwindigkeit, nahezu in Echtzeit, verarbeitet.

3. Variety (Bandbreite der Datentypen und -quellen)

Daten unterschiedlichster Typen und Herkunft werden verarbeitet. Sie können strukturiert (relationale Datenbanken), semi-strukturiert (CSV, Logs, XML, JSON), unstrukturiert (zum Beispiel Mails, Dokumente wie PDF, DOCX) und binär (Bilder, Video, Audio) sein. Somit ist auch die Anbindung von Systemen wie Social Media, Web Tracker und Web-Suche möglich.

 

In einem folgenden Beitrag gehen wir auf die Unterschiede und Gemeinsamkeiten beider Welten ein.

Der Unterschied zwischen Data Warehouse und Big Data
Data Warehouse und Big Data – Grundpfeiler eines modernen Data Hubs– Teil 2

 

Boris Vogt

geschrieben von Boris Vogt

Boris Vogt verantwortet den Bereich Business Intelligence & Data Analytics bei der MID GmbH. Er ist seit fast 20 Jahren in IT-Projekten im Allgemeinen und seit ca. 15 Jahren im Speziellen mit den Schwerpunkten Datenintegration, -migration und -transformation sowie der Modellierung und Architektur von Data Warehouse Lösungen und deren Visualisierung tätig.

<< Zurück

Relevante Posts:

MID Blog

Hier bloggen Mitarbeiter der MID und eingeladene Gastautoren zu Themen rund um die Modellierung. Bleiben Sie auf dem Laufenden und lassen Sie sich per Email über neue Blogbeiträge informieren.

Neue Beiträge per Mail

Autoren

Interessieren Sie sich für ein Thema, dass wir bisher noch nicht behandelt haben? Oder haben Sie Fragen oder Anmerkungen zu einem bestimmten Beitrag?

Schreiben Sie uns gerne einen Kommentar, wir werden das Thema in der Zukunft aufgreifen.

Die neuesten Posts

MID Newsletter abonnieren