Data Warehouse [Diplomarbeit Risikomanagement und Business Intelligence]
Kopfzeilenbild  
Diplomarbeit Risikomanagement  
  :: Inmaco HOME :: 
 
 
Inhaltsverzeichnis
Kapitel 1
Kapitel 2 & 2.1
Kapitel 2.2
Kapitel 2.3
Kapitel 3 & 3.1
Kapitel 3.1.2
Kapitel 3.1.3
Kapitel 3.2 & 3.3
Kapitel 3.4
Kapitel 4 & 4.1
Kapitel 4.2
Kapitel 4.2.3
Kapitel 4.3
Kapitel 4.4
Kapitel 4.4.3
Kapitel 5
Kapitel 6
 
 
Kapitel 4.2 Data Warehouse  

 

(Auszug aus der Diplomarbeit von Ralph Leipert: "Analytische Informationssysteme als Basis des Risikomanagement der Unternehmung")

4.2.1 Einführung

Den Begriff „Data Warehouse“ hat Inmon im Jahre 1994 geprägt. Darunter versteht er eine themenorientierte, integrierte, dauerhafte und zeitorientierte Datensammlung zur Unterstüt­zung von Managemententscheidungen.52 Das Data Warehouse ist kein Produkt sondern vielmehr ein Konzept. Die Realisierung eines Data Warehouse ist ein langjähriger kontinuierlicher Prozeß, der auch als „Datawarehousing“ bezeichnet wird. Im folgenden wird der Be­griff „Data Warehouse“ näher spezifiziert, sowie Anforderungen an ein Data Warehouse beschrie­ben.

Unter einem Data Warehouse kann ein großes Lagerhaus verstanden werden, welches große Mengen an Daten speichert und verwaltet. Dies können jedoch auch OLTP bewerkstelligen. Der Unterschied zu den OLTP besteht in Aufbereitung der operativen internen und externen Daten im Data Warehouse zu einem vollständigen, konsistenten Datenbestand. Damit soll erreicht werden, daß die Unternehmung mit dem Produktionsfaktor Information bzw. Daten besser versorgt wird. Auf dieses Data Warehouse wird mit analytischen und managementunterstützenden Tools von den Anwendern zugegriffen (z.B. OLAP). Anwender können hierbei sowohl Fachkräfte aus den unternehmensinternen Abteilungen z.B. aus dem Controlling oder Marketing, als auch Führungskräfte sein. Als zentrales Erfolgskriterium beim Aufbau von Data Warehouse-Konzepten gilt der Nutzen für den Anwender.53 Um den Anwendern einen möglichst problemlosen Zugang zu den Daten zu gewährleisten, ist besonderes Augenmerk auf hohe Flexibilität und Zugriffsschnelligkeit bei der Bearbeitung von Endbenutzerabfragen zu legen. Hierbei handelt es sich weniger um eine transaktionsorientierte Informationsverar­beitung, als viel mehr um eine analytische Informationsverarbeitung, die für Management Support Systeme (MSS) Voraussetzung ist. Daraus ergeben sich zwangsläufig unterschied­liche Anforderung an ein Data Warehouse als an eine operative Datenbank. Diese Anforde­rungen beruhen auf der Abstimmung von betriebswirtschaftlichen und fachlichen Anforde­rungen. Als wesentliche Charakteristika eines Data Warehouse-Datenbestandes werden The­menorientierung, Integration, Dauerhaftigkeit und Zeitorientierung aufgeführt.54

4.2.2 Komponenten und Architektur eines Data Warehouse

Abbildung 4-3 Architektur des Data Warehouse

Ein Data Warehouse besteht aus einem Zentralen Data Warehouse (ZDW), einem Meta-Da­tenbanksystem, den Data Marts, dem Transformationssystem und den unternehmensinternen und -externen Datenbanken. Das ZDW ist die Datenbasis und wird auch als Data Warehouse i.e.S. bezeichnet. Dieses ZDW wird durch geeignete Transformationsprogramme aus den un­ternehmensinternen und -externen Datenquellen gebildet. Unternehmensinterne Quellen sind Daten aus den internen operativen Informationssystemen die zumeist als Datenbanken in den verschiedenen Unternehmensbereichen historisch entstanden sind. Aber auch nicht in den internen Datenbanken abgelegte Daten werden in das Data Warehouse importiert, so z.B. ex­terne Daten aus Fachzeitschriften, Online-Datenbanken, Börsenkurse aus dem Internet und Sonstige. Im Idealfall gibt es in der Unternehmung ein einheitliches Informationssystem, so daß ein Großteil der Datenbankheterogenität im Unternehmen aufgehoben ist. Dies verein­facht die Transformation der Daten aus den unternehmensinternen Datenquellen.

4.2.2.1 Zentrales Data Warehouse (ZDW)

Das ZDW stellt das eigentliche Data Warehouse dar. Dieses ZDW ist eine Sammlung von Informationen aus allen eingebundenen internen Unternehmensbereichen und externen Infor­mationen. Diese Informationen werden in verschiedenen Verdichtungsstufen gespeichert.

Die Grundlage des ZDW ist ein Datenmodell. In diesem Datenmodell werden alle Daten und ihre Beziehungen zueinander dargestellt. Für dieses Datenmodell eignen sich je nach Anwen­dungsorientierung relationale, objektorientierte wie auch mehrdimensionale Datenmodelle.

Die Wahl der Software und Hardware des ZDW ist auch eine wichtige Entscheidung. Nach­dem man ein entsprechendes Datenmodell gewählt hat, welches sehr anwendungsbezogen ausgewählt werden sollte, muß man noch die entsprechende Soft- und Hardware wählen. Dabei ist auch die entsprechende Abstimmung zwischen Hard- und Software entscheidend. Die Hardware sollte so gewählt werden, daß sie jederzeit erweiterbar ist. Dabei kommen parallele und seriellisierte Mehrprozessorsysteme zum Einsatz. Bei der Software ist auch die Erweiter­barkeit und damit zusammenhängend die Performance bei großen Datenvolumen entschei­dend.

4.2.2.2 Das Transformationssystem und die Datengewinnung

In der Generierung entscheidungsrelevanter Informationen aus komplexen heterogenen Da­tenbeständen liegen die Stärken des Data Warehouse-Konzeptes. Bevor Daten aus dem operativen (Produktions-) DBS in das Data Warehouse übernommen werden, müssen sie extrahiert bzw. zusammengefaßt werden. Hierfür werden unternehmens- und datenbankindividuelle Transformationstools verwendet. Diese Transformationstools extrahieren bzw. fassen die ope­rativen Daten zusammen, wodurch eine Reduzierung der Datenmenge erreicht wird. Trotzdem erfüllen die Daten im Data Warehouse die Informationsanforderungen. Beim neusten Stand der Datenbanktechnik sind nicht nur kodierte Daten speicher- und auswertbar, sondern auch Dokumente, Grafiken und Videosequenzen.55 Um den Anforderungen des Data Warehouse gerecht zu werden, entstehen bei der Transformation verschiedene Ebenen der Datenaggrega­tion. Die Beschreibung der verschiedenen Ebenen und Verdichtungsstufen werden im Meta-DBS gespeichert.

Die Aufgabe der Transformationstools ist die Konvertierung der operativen Datenbestände in themenorientierte Datenbestände, die im Data Warehouse Verwendung finden. Diese Kon­vertierung geschieht mit Hilfe von Datenmanipulations- und Formatierungstools, wie z.B. 4GL-Entwicklungssprachen.56 Aus dieser Hauptaufgabe ergeben sich folgende Teilaufgaben der Transformationstools.

  • Normierung der Daten (z.B. Wertebereich, Bezeichnung, Detailierungsgrad, usw.)

  • Daten themenorientiert aufbereiten

  • Daten in verschiedene Aggregationsstufen formatieren

  • Konsolidierung von Daten

  • Regelmäßige Datengewinnung aus externen und internen operativen Datenquellen

Damit diese Aufgaben erfüllt werden können, muß im Vorfeld geprüft werden, auf welche interne operativen DB bzw. externen DB wie und wann zugriffen werden kann. Eine ent­scheidende Rolle bei der Transformation stellt somit der Migrationsprozeß dar. Da die Daten aus verschiedenen Quellen stammen, wie z.B. RDBS, OODBS, Internet, Multimedia-DB bzw. -Quellen, Textdokumente, usw., müssen die Transformationstools auch verschiedenartige Leistungen erbringen. Dieses Problem kann auf verschiedenen Wegen gelöst werden. Die eine Möglichkeit besteht darin, für jede verschiedenartige Quelle ein Transformationstool zu ver­wenden. Hierbei besteht das Problem, daß bei jeder Veränderung der operativen Datenbasis, sei es das Hinzufügen einer zusätzlichen externen Datenquelle oder der Austausch einer inter­nen DB, das Transformationstool auch geändert bzw. ein neues hinzugefügt werden muß. Eine weitere Möglichkeit besteht darin, via Middleware die Datenbasis für die Anwender auf einen gemeinsamen Standard zu bringen. Damit erreicht man, daß der Anwender zugleich Daten in verschiedenen Datenbanken suchen kann, ohne zu wissen, in welcher Datenbank die gesuchten Daten gespeichert sind. Dies gilt natürlich auch für die Transformationstools.

Je homogener die Datenbasis des unternehmensinternen Informationssystems ist, desto einfa­cher ist die Transformation der operativen Daten in das Data Warehouse.

Abbildung 4-4 Transformationstool

Zur Erfüllung dieser Aufgaben, müssen die Daten in den operativen (Herkunftsdaten), wie auch in den analytischen Systemen (transformierte Daten) gut beschrieben sein. Für diesen Zweck wird ein Meta-DBS eingerichtet. Über dieses Meta-DBS wird die Transformation ge­steuert.

Für die regelmäßige Datengewinnung, gibt es zwei verschiedene technische Möglichkeiten. Entweder man füllt das ZDW regelmäßig mit aktuellen Daten oder man löscht die ganze Da­tenbasis des ZDW und füllt die Datenbasis mit allen Daten (einschließlich den aktuellen Da­ten) wieder auf. Bei der zweiten Variante fehlt der Vergangenheitsbezug, so daß die gespei­cherten Daten die Analyse-Eigenschaften verlieren. Die erste Variante ist zwar schwieriger durchführbar, jedoch erfüllt diese alle Anforderungen an das Data Warehouse, speziell die des Zeitbezuges.

4.2.2.3 Die Data Marts

Data Marts werden auch als dezentrale Data Warehouse bezeichnet, die sich durch ihren klei­neren Fokus und dadurch deutlich kleineren Datenvolumen vom ZDW unterscheiden. Data Marts sind auf die sie nutzende Organisationseinheit abgestimmt. Dadurch erreicht man einen spezifischeren Dateninhalt, als im ZDW. Die Folge ist ein geringeres Datenvolumen des Data Warehouse, auf das die Endbenutzerwerkzeuge zugreifen. Hierdurch erreicht man schnellere Zugriffszeiten sowie eine leichtere spezifische Pflege der Datenbasis. Data Marts werden als dezentral bezeichnet, weil diese in der genaueren Umgebung der Organisationseinheit aufge­baut, verwaltet und verwendet werden können. Die Data Marts werden ausschließlich durch das ZDW und nicht durch das OLTP mit Daten gefüllt. Durch dieses Vorgehen wird die Inte­grität der Datenbasis beibehalten. Die Datenbasis erreicht dadurch eine große Flexibilität und Skalierbarkeit. Allerdings steigt durch dieses Vorgehen der Aufwand beim Aufbau eines Data Warehouse im Vergleich zum Aufbau vieler kleiner Data Marts, die jeweils mit Daten aus dem OLTP gefüllt werden (siehe Kapitel „Klassifikation von Data Warehouse“).

4.2.2.4 Meta-Datenbanksystem

Bei der Meta-Datenbank des Data Warehouse handelt es sich nicht um ein Data-Dictionary bekannter Machart. Über die Beschreibung eines operativen Data-Dictionary hinaus enthält die Meta-Datenbank Informationen über Verwaltung, Bearbeitung und Zugriff.57 Die Meta-Datenbank stellt somit dem Anwender eine Art Inhaltsverzeichnis der Data Warehouse-Daten zur Verfügung. Außerdem hat es die Aufgabe, die Transformation der Daten von den operati­ven System in das ZDW zu steuern. Meta-Daten können in verschiedenster Form auftreten, so z.B. als Datensatzbeschreibung in einem COBOL-Programm, in einem CREATE-Befehl bei SQL oder aber auch als Darstellungsmodell wie z.B. das EERM, Funktionsbäume und Petri-Netze.58

Im Data Warehouse werden neben der Meta-Datenverwaltungsfunktion folgende vier Funk­tionen identifiziert.59

  1. Source: Beschreibung der identifizierten Datenquellen für die benötigten Data Warehouse-Daten.

  2. Load: Beschreibung des Migrations- und Datentransferprozesses

  3. Storage: Beschreibung der Speicherung der Daten, hierzu zählen auch alle Fragestellungen zur Integration der diversen Views, die Wahl des DBMS, Probleme der Verteilten Daten­haltung (siehe hierzu die 12 Anforderungen im Kapitel „Verteilte Datenbanksysteme“) und Fragen zur Datenarchivierung

  4. Query: Beschreibung der Abfrage und Auswertungfunktionen, dabei wird auf die einge­setzten Data Mining-Techniken, Simulationstechniken, WEB-Browser und OLAP-Tools eingegangen.

Bei der Verwaltungsfunktion handelt es sich um die Speicherung von Meta-Daten über das zugrundeliegende Datenmodell, sowie um eine semantische und eine DV-technische Be­schreibung aller gespeicherten Daten, die Herkunft der Daten, Informationen über den ge­samten Transformationsprozeß, die Abbildung aller vorhanden Verdichtungsstufen ein­schließlich des zeitlichen Ablaufes, bestehende Auswertungen und Analysen, die für andere Aufgabenstellungen als Mustervorlage dienen sowie die Daten aus den externen Quellen (Inhalt, Quelle, Form, Datum, Herkunft und Querverweisen auf bereits vorhandene Doku­mente).60

Bei McClanahan61 werden drei Ebenen von Meta-Daten unterschieden:

  1. Meta-Daten zu den operationalen Datenquellen

  2. Meta-Daten für Data Warehouse-Daten

  3. Meta-Daten für die Benutzer- bzw. Geschäftssicht

Die ersten beiden Punkte entsprechen den oben genannten fünf Punkten. Daten aus Benutzer- bzw. Geschäftssicht werden bei Poe62 als DSS-Meta-Daten bezeichnet. Hierunter versteht er Meta-Daten, die die physischen Daten des Data Warehouse mit denen des Geschäftsprozeß­modells und den Front-End-Tools der Endbenutzer verbindet. Um aus den verfügbaren Daten des Data Warehouse sinnvolle Informationen über die Geschäftsprozesse abzuleiten, werden Meta-Daten über die Speicherungsorte und -strukturen benötigt. Außerdem müssen die Be­zeichnungen der entsprechenden Datenobjekte im Business Modell sowie Dimensionshierar­chien für diverse Auswertungen verwaltet werden.63


52 Vgl.: Immon, W. H. / John Wiley & Sons: (1996)

53 Vgl.: Lochte-Holtgreven, M. (1996), S.24-28

54 Vgl.: Immon, W. H.: (1993)

55 Vgl.: Haarmann, G. (1995), S.25

56 Vgl.: Haarmann, G. (1995), S.25

57 Vgl.: Haarmann, G. (1995), S.25

58 Vgl.: Muksch, H. (1997), S.22

59 Vgl.: Muksch, H. (1997), S.26; Moriarty, T. / Greenwood, R.P.: (1996), S. 78-81; Moriarty, T. / Mandracchia, C. (1996), S.70ff

60 Vgl.: Muksch, H. (1997), S.26 f; Muksch, H. / Holthuis, J. / Reiser, M. (1996), S. 421-433

61 Vgl.: McClanahan, D. (1996), S. 76-79

62 Vgl.: Poe,V. (1995)

63 Vgl.: Muksch, H. (1997), S.26

 

 



 
    ©2000-2007 InMaCo, Powered by Ralph Leipert All rights reserved.