Data Warehouse [Diplomarbeit Risikomanagement und Business Intelligence]

Den Begriff „Data Warehouse“ hat Inmon im Jahre 1994 geprägt. Darunter versteht er eine themenorientierte, integrierte, dauerhafte und zeitorientierte Datensammlung zur Unterstützung von Managemententscheidungen.52 Das Data Warehouse ist kein Produkt sondern vielmehr ein Konzept. Die Realisierung eines Data Warehouse ist ein langjähriger kontinuierlicher Prozeß, der auch als „Datawarehousing“ bezeichnet wird. Im folgenden wird der Begriff „Data Warehouse“ näher spezifiziert, sowie Anforderungen an ein Data Warehouse beschrieben.

Unter einem Data Warehouse kann ein großes Lagerhaus verstanden werden, welches große Mengen an Daten speichert und verwaltet. Dies können jedoch auch OLTP bewerkstelligen. Der Unterschied zu den OLTP besteht in Aufbereitung der operativen internen und externen Daten im Data Warehouse zu einem vollständigen, konsistenten Datenbestand. Damit soll erreicht werden, daß die Unternehmung mit dem Produktionsfaktor Information bzw. Daten besser versorgt wird. Auf dieses Data Warehouse wird mit analytischen und managementunterstützenden Tools von den Anwendern zugegriffen (z.B. OLAP). Anwender können hierbei sowohl Fachkräfte aus den unternehmensinternen Abteilungen z.B. aus dem Controlling oder Marketing, als auch Führungskräfte sein. Als zentrales Erfolgskriterium beim Aufbau von Data Warehouse-Konzepten gilt der Nutzen für den Anwender.53 Um den Anwendern einen möglichst problemlosen Zugang zu den Daten zu gewährleisten, ist besonderes Augenmerk auf hohe Flexibilität und Zugriffsschnelligkeit bei der Bearbeitung von Endbenutzerabfragen zu legen. Hierbei handelt es sich weniger um eine transaktionsorientierte Informationsverarbeitung, als viel mehr um eine analytische Informationsverarbeitung, die für Management Support Systeme (MSS) Voraussetzung ist. Daraus ergeben sich zwangsläufig unterschiedliche Anforderung an ein Data Warehouse als an eine operative Datenbank. Diese Anforderungen beruhen auf der Abstimmung von betriebswirtschaftlichen und fachlichen Anforderungen. Als wesentliche Charakteristika eines Data Warehouse-Datenbestandes werden Themenorientierung, Integration, Dauerhaftigkeit und Zeitorientierung aufgeführt.54

4.2.2 Komponenten und Architektur eines Data Warehouse

Abbildung 4-3 Architektur des Data Warehouse

Ein Data Warehouse besteht aus einem Zentralen Data Warehouse (ZDW), einem Meta-Datenbanksystem, den Data Marts, dem Transformationssystem und den unternehmensinternen und -externen Datenbanken. Das ZDW ist die Datenbasis und wird auch als Data Warehouse i.e.S. bezeichnet. Dieses ZDW wird durch geeignete Transformationsprogramme aus den unternehmensinternen und -externen Datenquellen gebildet. Unternehmensinterne Quellen sind Daten aus den internen operativen Informationssystemen die zumeist als Datenbanken in den verschiedenen Unternehmensbereichen historisch entstanden sind. Aber auch nicht in den internen Datenbanken abgelegte Daten werden in das Data Warehouse importiert, so z.B. externe Daten aus Fachzeitschriften, Online-Datenbanken, Börsenkurse aus dem Internet und Sonstige. Im Idealfall gibt es in der Unternehmung ein einheitliches Informationssystem, so daß ein Großteil der Datenbankheterogenität im Unternehmen aufgehoben ist. Dies vereinfacht die Transformation der Daten aus den unternehmensinternen Datenquellen.

4.2.2.1 Zentrales Data Warehouse (ZDW)

Das ZDW stellt das eigentliche Data Warehouse dar. Dieses ZDW ist eine Sammlung von Informationen aus allen eingebundenen internen Unternehmensbereichen und externen Informationen. Diese Informationen werden in verschiedenen Verdichtungsstufen gespeichert.

Die Grundlage des ZDW ist ein Datenmodell. In diesem Datenmodell werden alle Daten und ihre Beziehungen zueinander dargestellt. Für dieses Datenmodell eignen sich je nach Anwendungsorientierung relationale, objektorientierte wie auch mehrdimensionale Datenmodelle.

Die Wahl der Software und Hardware des ZDW ist auch eine wichtige Entscheidung. Nachdem man ein entsprechendes Datenmodell gewählt hat, welches sehr anwendungsbezogen ausgewählt werden sollte, muß man noch die entsprechende Soft- und Hardware wählen. Dabei ist auch die entsprechende Abstimmung zwischen Hard- und Software entscheidend. Die Hardware sollte so gewählt werden, daß sie jederzeit erweiterbar ist. Dabei kommen parallele und seriellisierte Mehrprozessorsysteme zum Einsatz. Bei der Software ist auch die Erweiterbarkeit und damit zusammenhängend die Performance bei großen Datenvolumen entscheidend.

4.2.2.2 Das Transformationssystem und die Datengewinnung

In der Generierung entscheidungsrelevanter Informationen aus komplexen heterogenen Datenbeständen liegen die Stärken des Data Warehouse-Konzeptes. Bevor Daten aus dem operativen (Produktions-) DBS in das Data Warehouse übernommen werden, müssen sie extrahiert bzw. zusammengefaßt werden. Hierfür werden unternehmens- und datenbankindividuelle Transformationstools verwendet. Diese Transformationstools extrahieren bzw. fassen die operativen Daten zusammen, wodurch eine Reduzierung der Datenmenge erreicht wird. Trotzdem erfüllen die Daten im Data Warehouse die Informationsanforderungen. Beim neusten Stand der Datenbanktechnik sind nicht nur kodierte Daten speicher- und auswertbar, sondern auch Dokumente, Grafiken und Videosequenzen.55 Um den Anforderungen des Data Warehouse gerecht zu werden, entstehen bei der Transformation verschiedene Ebenen der Datenaggregation. Die Beschreibung der verschiedenen Ebenen und Verdichtungsstufen werden im Meta-DBS gespeichert.

Die Aufgabe der Transformationstools ist die Konvertierung der operativen Datenbestände in themenorientierte Datenbestände, die im Data Warehouse Verwendung finden. Diese Konvertierung geschieht mit Hilfe von Datenmanipulations- und Formatierungstools, wie z.B. 4GL-Entwicklungssprachen.56 Aus dieser Hauptaufgabe ergeben sich folgende Teilaufgaben der Transformationstools.

Normierung der Daten (z.B. Wertebereich, Bezeichnung, Detailierungsgrad, usw.)
Daten themenorientiert aufbereiten
Daten in verschiedene Aggregationsstufen formatieren
Konsolidierung von Daten
Regelmäßige Datengewinnung aus externen und internen operativen Datenquellen

Damit diese Aufgaben erfüllt werden können, muß im Vorfeld geprüft werden, auf welche interne operativen DB bzw. externen DB wie und wann zugriffen werden kann. Eine entscheidende Rolle bei der Transformation stellt somit der Migrationsprozeß dar. Da die Daten aus verschiedenen Quellen stammen, wie z.B. RDBS, OODBS, Internet, Multimedia-DB bzw. -Quellen, Textdokumente, usw., müssen die Transformationstools auch verschiedenartige Leistungen erbringen. Dieses Problem kann auf verschiedenen Wegen gelöst werden. Die eine Möglichkeit besteht darin, für jede verschiedenartige Quelle ein Transformationstool zu verwenden. Hierbei besteht das Problem, daß bei jeder Veränderung der operativen Datenbasis, sei es das Hinzufügen einer zusätzlichen externen Datenquelle oder der Austausch einer internen DB, das Transformationstool auch geändert bzw. ein neues hinzugefügt werden muß. Eine weitere Möglichkeit besteht darin, via Middleware die Datenbasis für die Anwender auf einen gemeinsamen Standard zu bringen. Damit erreicht man, daß der Anwender zugleich Daten in verschiedenen Datenbanken suchen kann, ohne zu wissen, in welcher Datenbank die gesuchten Daten gespeichert sind. Dies gilt natürlich auch für die Transformationstools.

Je homogener die Datenbasis des unternehmensinternen Informationssystems ist, desto einfacher ist die Transformation der operativen Daten in das Data Warehouse.

Abbildung 4-4 Transformationstool

Zur Erfüllung dieser Aufgaben, müssen die Daten in den operativen (Herkunftsdaten), wie auch in den analytischen Systemen (transformierte Daten) gut beschrieben sein. Für diesen Zweck wird ein Meta-DBS eingerichtet. Über dieses Meta-DBS wird die Transformation gesteuert.

Für die regelmäßige Datengewinnung, gibt es zwei verschiedene technische Möglichkeiten. Entweder man füllt das ZDW regelmäßig mit aktuellen Daten oder man löscht die ganze Datenbasis des ZDW und füllt die Datenbasis mit allen Daten (einschließlich den aktuellen Daten) wieder auf. Bei der zweiten Variante fehlt der Vergangenheitsbezug, so daß die gespeicherten Daten die Analyse-Eigenschaften verlieren. Die erste Variante ist zwar schwieriger durchführbar, jedoch erfüllt diese alle Anforderungen an das Data Warehouse, speziell die des Zeitbezuges.

4.2.2.3 Die Data Marts

Data Marts werden auch als dezentrale Data Warehouse bezeichnet, die sich durch ihren kleineren Fokus und dadurch deutlich kleineren Datenvolumen vom ZDW unterscheiden. Data Marts sind auf die sie nutzende Organisationseinheit abgestimmt. Dadurch erreicht man einen spezifischeren Dateninhalt, als im ZDW. Die Folge ist ein geringeres Datenvolumen des Data Warehouse, auf das die Endbenutzerwerkzeuge zugreifen. Hierdurch erreicht man schnellere Zugriffszeiten sowie eine leichtere spezifische Pflege der Datenbasis. Data Marts werden als dezentral bezeichnet, weil diese in der genaueren Umgebung der Organisationseinheit aufgebaut, verwaltet und verwendet werden können. Die Data Marts werden ausschließlich durch das ZDW und nicht durch das OLTP mit Daten gefüllt. Durch dieses Vorgehen wird die Integrität der Datenbasis beibehalten. Die Datenbasis erreicht dadurch eine große Flexibilität und Skalierbarkeit. Allerdings steigt durch dieses Vorgehen der Aufwand beim Aufbau eines Data Warehouse im Vergleich zum Aufbau vieler kleiner Data Marts, die jeweils mit Daten aus dem OLTP gefüllt werden (siehe Kapitel „Klassifikation von Data Warehouse“).

4.2.2.4 Meta-Datenbanksystem

Bei der Meta-Datenbank des Data Warehouse handelt es sich nicht um ein Data-Dictionary bekannter Machart. Über die Beschreibung eines operativen Data-Dictionary hinaus enthält die Meta-Datenbank Informationen über Verwaltung, Bearbeitung und Zugriff.57 Die Meta-Datenbank stellt somit dem Anwender eine Art Inhaltsverzeichnis der Data Warehouse-Daten zur Verfügung. Außerdem hat es die Aufgabe, die Transformation der Daten von den operativen System in das ZDW zu steuern. Meta-Daten können in verschiedenster Form auftreten, so z.B. als Datensatzbeschreibung in einem COBOL-Programm, in einem CREATE-Befehl bei SQL oder aber auch als Darstellungsmodell wie z.B. das EERM, Funktionsbäume und Petri-Netze.58

Im Data Warehouse werden neben der Meta-Datenverwaltungsfunktion folgende vier Funktionen identifiziert.59

Source: Beschreibung der identifizierten Datenquellen für die benötigten Data Warehouse-Daten.
Load: Beschreibung des Migrations- und Datentransferprozesses
Storage: Beschreibung der Speicherung der Daten, hierzu zählen auch alle Fragestellungen zur Integration der diversen Views, die Wahl des DBMS, Probleme der Verteilten Datenhaltung (siehe hierzu die 12 Anforderungen im Kapitel „Verteilte Datenbanksysteme“) und Fragen zur Datenarchivierung
Query: Beschreibung der Abfrage und Auswertungfunktionen, dabei wird auf die eingesetzten Data Mining-Techniken, Simulationstechniken, WEB-Browser und OLAP-Tools eingegangen.

Bei der Verwaltungsfunktion handelt es sich um die Speicherung von Meta-Daten über das zugrundeliegende Datenmodell, sowie um eine semantische und eine DV-technische Beschreibung aller gespeicherten Daten, die Herkunft der Daten, Informationen über den gesamten Transformationsprozeß, die Abbildung aller vorhanden Verdichtungsstufen einschließlich des zeitlichen Ablaufes, bestehende Auswertungen und Analysen, die für andere Aufgabenstellungen als Mustervorlage dienen sowie die Daten aus den externen Quellen (Inhalt, Quelle, Form, Datum, Herkunft und Querverweisen auf bereits vorhandene Dokumente).60

Bei McClanahan61 werden drei Ebenen von Meta-Daten unterschieden:

Meta-Daten zu den operationalen Datenquellen
Meta-Daten für Data Warehouse-Daten
Meta-Daten für die Benutzer- bzw. Geschäftssicht

Die ersten beiden Punkte entsprechen den oben genannten fünf Punkten. Daten aus Benutzer- bzw. Geschäftssicht werden bei Poe62 als DSS-Meta-Daten bezeichnet. Hierunter versteht er Meta-Daten, die die physischen Daten des Data Warehouse mit denen des Geschäftsprozeßmodells und den Front-End-Tools der Endbenutzer verbindet. Um aus den verfügbaren Daten des Data Warehouse sinnvolle Informationen über die Geschäftsprozesse abzuleiten, werden Meta-Daten über die Speicherungsorte und -strukturen benötigt. Außerdem müssen die Bezeichnungen der entsprechenden Datenobjekte im Business Modell sowie Dimensionshierarchien für diverse Auswertungen verwaltet werden.63

52 Vgl.: Immon, W. H. / John Wiley & Sons: (1996)

53 Vgl.: Lochte-Holtgreven, M. (1996), S.24-28

54 Vgl.: Immon, W. H.: (1993)

55 Vgl.: Haarmann, G. (1995), S.25

56 Vgl.: Haarmann, G. (1995), S.25

57 Vgl.: Haarmann, G. (1995), S.25

58 Vgl.: Muksch, H. (1997), S.22

59 Vgl.: Muksch, H. (1997), S.26; Moriarty, T. / Greenwood, R.P.: (1996), S. 78-81; Moriarty, T. / Mandracchia, C. (1996), S.70ff

60 Vgl.: Muksch, H. (1997), S.26 f; Muksch, H. / Holthuis, J. / Reiser, M. (1996), S. 421-433

61 Vgl.: McClanahan, D. (1996), S. 76-79

62 Vgl.: Poe,V. (1995)

63 Vgl.: Muksch, H. (1997), S.26