Wenn von Data Vault gesprochen wird, dann sprechen wir über einen Modellierungsansatz für den Aufbau eines Data Warehouses. Der Grundgedanke zu diesem Modell wurde bereits in den 1990er Jahren von Dan Linstedt entworfen. Dabei lag der Fokus auf Agilität, Skalierbarkeit und der Anpassungsfähigkeit des Modells.
In der heutigen Zeit müssen Unternehmen ihr Geschäftsmodel in immer kürzer werdenden Zyklen anpassen und sich ständig den sich ändernden Marktbedürfnissen oder auch regulatorischen Anforderungen anpassen. Die Verantwortlichen stehen deshalb ständig unter Druck, die häufig sehr komplexgestalteten, bestehenden Datenstrukturen anzupassen. Dies ist mit unter äußerst anstrengend und teuer.
Dafür bietet der Ansatz des Data Vault eine Lösungsmöglichkeit, indem es die Eigenschaften aus der dimensionalen (Sternschema) und normalisierten Modellierungswelt miteinander verbindet. Dadurch kann eine Beschleunigung bei der Befüllung des Warehouses erreicht werden. Der wesentliche Vorteil liegt jedoch darin, dass wir bei der Erweiterbarkeit wesentlich flexibler sind als bei den klassischen Methoden. Durch die andere Art der Modellierung müssen bei Änderungen, meistens Regel, keine bestehenden Tabellen angepasst werden. Es reicht einfach neue Tabellen z.B. zusätzliche Satelliten (s.u.) ergänzt werden.
Beim Data Vault handelt es sich nicht um einen Ersatz des erprobten Sternschema, sondern um eine Ergänzung, indem es zur Modellierung des Data Warehouses (zentrale Datenbank zur Integration und Historisierung von Daten) verwendet wird.
Was sind die Bausteine von Data Vault?
Hub:
Das eigentliche Kernobjekt der Geschäftslogik, indem eindeutige Business Keys gespeichert werden, die ein Geschäftsobjekt identifizieren (z. B. Kundennummer, Rechnungsnummer oder Artikelnummer).
Link:
Mit den Links werden die Geschäftsobjekte (Hubs) miteinander verbunden. So werden die Beziehung zwischen den Informationen abgebildet (z. B. von einer Rechnungsnummer zu einer Kundennummer).
Satelliten:
Hier werden zusätzliche Attribute und historische Informationen in Hubs und Links gespeichert.
Inzwischen gibt es zwei „Versionen“ von Data Vault
Mit Data-Vault 2.0 wird eine Verbesserung bezüglich der Agilität und der Flexibilität gegenüber dem klassischen Modell erreicht. Zusätzlich werden dabei auch Big-Data, NoSQL-Datenbanken und Cloud-Technologien mitberücksichtigt. Ohne hier allerdings tiefer in das Thema einzusteigen, sei gesagt, dass Data Vault sich vor allem für Data Warehouses eignet und weniger für Lakehouses.
Fazit
Data Vault bietet eine hohe Flexibilität bei Erweiterungen, eine vollständige Historisierung der Daten und erlaubt eine starke Parallelisierung der Datenladeprozesse. Es ist eine moderne Architektur für agiles Data Warehousing und ermöglicht es ihrem Unternehmen, die Daten effizient zu verwalten und zu nutzen.
Allerdings ist Data Vault nicht für alle Szenarien die beste Wahl. Neben dem initialen Aufwand bei der Erstellung des Models, erfordert Data Vault ein grundlegendes tiefes Verständnis des Ansatzes sowie der vorhandenen Geschäftslogik.
Wir, die arelium GmbH, verfügen über ein fundiertes Wissen in diesem Bereich. Sollten Sie Interesse an dem Thema Data Vault und deren Einsatzmöglichkeiten haben, dann nehmen Sie gerne mit uns Kontakt auf. Wir beraten sie gerne.