Data Warehouse Automatisierung mit erwin
Data Warehouse Projekte haben klassisch mit langen Implementierungszeiten zu kämpfen. Dadurch steigt die Wahrscheinlichkeit, dass sich Business Anforderungen während der Projektlaufzeit ändern. Dies ist ein Risiko für die Erreichung der Projektziele bzgl. Umsetzungszeit und Kosten.
Stefan Kausch, 19.01.2017
Vorteile der Data Vault Methodik
Um sowohl die Implementierungszeiten als auch die Wartbarkeit bei Änderungen zu erhöhen, wurde von Dan Linstedt die Data Vault Methodik zur Modellierung des Core Warehouse eingeführt. Das zentrale Design-Prinzip ist die Trennung von Business Key, Kontext und Relationen in separaten Tabellen als Hub, Satellite und Link. Aktuell hat sich Data Vault als Modellierungsstandard im Data Warehouse etabliert, da es zahlreiche Vorteile bietet:
- durch die leichte Erweiterbarkeit ermöglicht es ein agiles Projekt Vorgehen
- die entstehenden Modelle sind sehr gut skalierbar
- die Ladeprozesse können optimal parallelisiert werden, da es wenige Synchronisationspunkte gibt
- die Modelle sind leicht zu auditieren
Neben den zahlreichen Vorteilen existieren auch einige Herausforderungen in Data Vault Projekten. Dazu zählen unter anderem:
- eine explosionsartige Vermehrung von Datenobjekten (Tabellen, Spalten) durch die Trennung der Information Types und die Anreicherung mit Meta-Informationen zur Beladung
- dadurch bedingt ergibt sich ein höherer Modellierungsaufwand, der aus einer Vielzahl wenig anspruchsvoller mechanischer Tätigkeiten besteht
Wie können diese Herausforderungen mit einem Standard-Datenmodellierungs-Werkzeug optimal gelöst werden?
Der sehr schematische Aufbau der Modelle bietet optimale Voraussetzungen, Modelle zu generieren. Dadurch können große Teile des Modellierungsprozesses automatisiert werden. Mit Hilfe von Automatisierung können Data Vault Projekte dramatisch beschleunigt werden.
Das Automatisierungspotential von Data Vault
Welche Teile des Modells können konkret automatisiert werden?
Die Standard Architektur eines Data Warehouse sieht folgende Schichten vor:
- Source System: Operatives System wie ERP oder CRM Systeme
- Staging Area: hier werden die Daten aus den operativen Systemen angeliefert. Die Struktur des Datenmodells entspricht i.d.R. dem Quellsystem mit Erweiterungen zur Dokumentation der Beladung.
- Core Warehouse: hier werden die Daten aus verschiedenen Systemen integriert. Diese Schicht wird nach Data Vault modelliert und in die Bereiche raw Vault und Business Vault unterteilt. Dabei werden sämtliche Business Rules im Business Vault implementiert, so dass im raw Vault nur mit sehr einfachen Transformationen gearbeitet wird.
- Data Marts: Die Struktur der Data Marts orientiert sich an den Auswertungsanforderungen und wird als Star Schema modelliert.
Sowohl Staging Area als auch raw Vault sind sehr gut für Automatisierung geeignet, da sich klare Regeln für die Ableitung aus der vorangegangenen Schicht aufstellen lassen.
Soll die Automatisierung mit einem Standard Modellierungs-Werkzeug oder mit einem spezialisierten Data Warehouse Automation Tool umgesetzt werden?
Grundsätzlich lassen sich die Automatisierungspotentiale durch spezielle Automation Tools heben.
Was spricht für die Nutzung eines Standard Werkzeuges wie z.B. den erwin data Modeler?
Die Nutzung eines Standard Modellierungs-Tools bietet zahlreiche Vorteile:
- Im erwin Data Modeler bestehen in der Regel schon Modelle (z.B. Source System), die weiterhin genutzt werden können.
- Die Modellierungsfuktionen sind sehr ausgereift, z.B. zum Vergleich von Modellen und Standardisierung innerhalb von Modellen.
- Es wird standardmäßig eine große Palette von Datenbanken unterstützt.
- Es gibt eine große Menge an Schnittstellen, um Modelle aus anderen Werkzeugen zu importieren.
- Oftmals sind bereits die Quellsysteme oder andere Warehouses mit dem Tool modelliert.
- Mit der Modellpalette kann die gesamte Unternehmensarchitektur abgebildet werden, nicht nur das Data Warehouse (erwin Web Portal).
- Über Business Glossare können (existierende) semantische Informationen integriert werden.
Soweit so gut, aber kann der erwin Data Modeler Modelle generieren?
Genau für diese Anforderung wurde eine spezielles AddIn für den erwin Data Modeler entwickelt: MODGEN. Damit kann das volle Potential der Automatisierung in erwin genutzt werden. Es integriert sich nahtlos in die erwin Oberfläche und die Bedienung orientiert sich sehr stark am Abgleich von Modellen (Complete Compare).
Funktionalitäten MODGEN
Konkret werden durch MODGEN folgende Funktionalitäten realisiert:
- Erzeugung von Staging und raw Vault Modellen basierend auf dem Modell der vorhergehenden Schicht.
- die Steuerung der Generierung erfolgt über die Anreicherung des jeweiligen Vormodells mit Meta-Informationen, die in UDPs abgelegt werden.
- einzelne Objekte können dauerhaft oder interaktiv aus der Generierung ausgeschlossen werden.
- Vorgaben für Meta-Spalten können sehr einfach über Templates integriert werden.
Um einen mehrfach wiederholbaren Modellierungsprozess zu unterstützen, bei dem iterativ Modelle erstellt oder erweitert werden, ist es essentiell, dass die Generierung Round-Trip-fähig ist. Dazu führt die Generierung stets einen Abgleich zwischen Quell- und Ziel-Modell durch und weist auf Unterschiede hin. Diese können vom Anwender selektiert und durch Generierung übernommen werden.
Bei der Generierung werden natürlich sämtliche Tabellen und Spalten berücksichtigt (horizontale Modellierung), aber auch vertikale Modellinformationen erzeugt. Das bedeutet, das für jede generierte Ziel-Spalte die Beziehung zu ihrer Quell-Spalte als Data Source dokumentiert wird. Damit können Source-To-Target Mappings aus dem Modell sehr einfach erzeugt werden. Werden Quell- und Zielmodell ins Web Portal integriert, stehen automatisch die vollen Funktionen für die Impact- und Lineage-Analyse zur Verfügung.