Data Architecture

vor 1 Jahr

Daten Architektur oder englisch auch Data Architecture beschreibt wie Daten in einem Unternehmen organisiert, strukturiert und verwaltet sind. Sie umfasst den Entwurf von Datenmodellen, die Festlegung von Datenstandards und -richtlinien sowie die Definition von Datenintegrations-, Datenspeicherungs- und Datenverarbeitungsprozessen. Data Architecture gibt den Rahmen vor, wie Daten erfasst, gespeichert, verwaltet und genutzt werden, um die Geschäftsziele einer Organisation zu unterstützen. Eine gut durchdachte Datenarchitektur bildet eine solide Grundlage für Datenintegrität, effiziente Datenverarbeitung, einfache Datenanalyse und Berichterstattung. Sie ermöglicht eine bessere Zusammenarbeit und Nutzung von Informationen im Unternehmen und erleichtert die Anpassung an sich ändernde Geschäftsanforderungen. Sie besteht aus verschiedenen Stufen dabei werden Daten zuerst erfasst und organisiert, über eine ETL Strecke bereinigt und anschließend ausgewertet.

Dabei ist zu beachten, dass die genaue Ausgestaltung der Datenarchitektur von den spezifischen Anforderungen, der Größe des Unternehmens und den verfügbaren Ressourcen abhängt. Datenarchitekten arbeiten eng mit Datenbankadministratoren, Entwicklern und Analytikern zusammen, um eine optimale Datenarchitektur zu entwerfen und umzusetzen.
Beim Entwurf und der Implementierung einer Datenarchitektur werden verschiedene Technologien und Werkzeuge verwendet, um Datenmanagement, Datenintegration und Datenanalyse zu unterstützen.

Was sind die Bestandteile?

Datenbankmanagementsysteme (DBMS): Man verwendet DBMS-Technologien wie Microsoft SQL Server, MySQL und MongoDB , um Daten zu speichern, zu organisieren und zu verwalten. Den Einsatz dieser Datenbankmanagementsysteme findet man in vielen Anwendungsbereichen. Sie sind für die effiziente Verwaltung von Daten von großer Bedeutung. Datenbanken bieten eine strukturierte Methode zur Organisation und Speicherung großer Datenmengen. Um Daten logisch und effizient zu organisieren, ermöglichen sie die Erstellung von Tabellen, Beziehungen und Schemata. Darüber hinaus können sie Mechanismen bereitstellen, um die Integrität und Konsistenz der Daten zu gewährleisten. Um sicherzustellen, dass die Daten in der Datenbank korrekt und konsistent sind, kann man Regeln, Einschränkungen und Validierungen definieren. Eine leistungsfähige Abfragesprache (z.B. SQL) ermöglicht komplexe Abfragen und Analysen der Daten. Dadurch ist es möglich Informationen zu extrahieren, Geschäftsfragen zu beantworten und Berichte und Analysen zu erstellen.

In einer Daten Architektur verwendet man zudem ETL-Tools wie z.B. Azure Synapse oder Microsoft SQL Server Integration Services (SSIS) verwendet, um Daten aus verschiedenen Quellen zu extrahieren, zu transformieren und in das Zielsystem zu laden. Wenn Sie wissen wollen, schauen Sie sich doch unseren Synapse-Beitrag an.

Am Ende einer guten Daten Architektur steht die Datenvisualisierung. Hier können Sie z.B. Power BI benutzen über das wir auch schon einige Beiträge geschrieben haben. Diese Tools ermöglichen die Visualisierung von Daten und die Erstellung von interaktiven Dashboards und Berichten. Sie unterstützen die Analyse und Darstellung von Daten auf verständliche Weise.

ETL

ETL steht für „Extraction, Transformation and Loading“ und bezeichnet den Prozess der Aufbereitung und Integration von Daten in ein Data Warehouse. ETL ist ein wesentlicher Bestandteil des Datenmanagementprozesses und ermöglicht die Überführung von Daten aus unterschiedlichen Quellen in ein einheitliches und konsistentes Format, das man für Analysen, Berichte und andere Geschäftsprozesse verwenden kann.

In der Extraktionsphase sammelnt man Daten aus verschiedenen Quellen und üerträgt diese in das ETL-System. Die Quellen können interne Datenbanken, externe Systeme oder andere Datenquellen sein. Die Extraktion kann auf unterschiedliche Weise erfolgen, z.B. durch Datenbankabfragen, Dateiimporte oder Web Scraping. Nach der Extraktion beginnt die Transformation der Daten. Dies geschieht um die Daten in das gewünschte Format zu bringen und sie an die Anforderungen des Data Warehouse oder der Zielumgebung anzupassen. Dieser Schritt umfasst verschiedene Aufgaben wie Datenbereinigung, Filterung oder die Zusammenführung von Daten aus verschiedenen Quellen. Die Transformation stellt sicher, dass die Datenqualität steigt, man inkonsistente Daten harmonisiert und die Daten in einer einheitlichen Struktur vorliegen.
Beim Laden überträgt man die transformierten Daten in das Data Warehouse oder die Zielumgebung. Dies kann eine relationale Datenbank, ein Data Warehouse oder eine andere analytische Plattform sein. Beim Laden der Daten muss man verschiedene Aspekte berücksichtigen, wie z. B. das Schema-Design des Zielsystems, die Optimierung der Ladeleistung und die Aktualisierung vorhandener Daten oder das Hinzufügen neuer Daten.

Sternschema

Das Sternschema ist ein Datenmodell für Data Warehousing, bei dem eine zentrale Faktentabelle (fact table) von mehreren Dimensionstabellen (dimension tables) umgeben ist. Das Sternschema zeichnet sich durch seine einfache und dennoch leistungsfähige Struktur aus. Die Faktentabelle enthält Messwerte oder Kennzahlen, während die Dimensionstabellen Attribute oder Dimensionen darstellen, die diese Messwerte beschreiben. Der Name Sternschema kommt daher, dass die Struktur einem Stern ähnelt, bei dem die Faktentabelle im Zentrum steht und die Dimensionstabellen die Strahlen des Sterns bilden.

Schneeflockenschema

Das Schneeflockenschema ist ebenfalls ein Datenmodell für Data Warehousing und stellt eine Erweiterung des Sternschemas dar. Im Schneeflockenschema normalisiert man die Dimensionstabellen, durch zusätzliche Tabellen für sich wiederholende Attribute oder hierarchische Strukturen, weiter. Dadurch wird die Datenbankstruktur komplexer, da die Dimensionstabellen in mehrere Tabellen aufgeteilt werden können. Der Name „Schneeflocke“ leitet sich von der äußeren Form ab, die durch die zusätzlichen Verzweigungen entsteht.

Der ETL-Prozess erfordert häufig den Einsatz spezieller ETL-Tools oder -Plattformen, die Funktionen zur Automatisierung und Steuerung des gesamten Prozesses bieten. Diese Tools erleichtern die Extraktion, Transformation und das Laden von Daten durch benutzerfreundliche Schnittstellen, Visualisierungstools, Workflow-Management, Fehlerbehandlung und Überwachungsfunktionen.

Der ETL-Prozess ist entscheidend, um Daten aus verschiedenen Quellen zu integrieren, bereitzustellen und für Analysen und Berichte aufzubereiten. Er gewährleistet die Konsistenz, Qualität und Verfügbarkeit der Daten im Data Warehouse oder in der Zielumgebung und ermöglicht es Unternehmen, fundierte Entscheidungen auf der Grundlage zuverlässiger Daten zu treffen.

Data Warehouse

Ein Data Warehouse ist eine spezielle Art von Datenbank, die entwickelt wurde, um große Datenmengen aus verschiedenen Quellen zu sammeln, zu organisieren und für Analyse- und Berichtszwecke verfügbar zu machen. Es dient als zentraler Speicherort für historische, aktuelle und potenziell zukünftige Daten, die eine Organisation sammelt. Es folgt auf die Stage, die selbst eine weniger strukturierte Datenbank ist.

Das Hauptziel eines Data Warehouse ist es, einen umfassenden Überblick über die Daten einer Organisation zu geben. Ein Data Warehouse ermöglicht die Integration von Daten aus verschiedenen internen und externen Quellen wie operativen Systemen, Datenbanken, Dateien, Cloud-Diensten und mehr. Es ermöglicht die Konsolidierung von Daten, die ansonsten in isolierten Silos gespeichert wären. Vor dem Laden in das Data Warehouse werden die Daten bereinigt, transformiert und harmonisiert, um eine einheitliche Datenbasis zu schaffen. Dazu gehören die Entfernung von Dubletten, die Standardisierung von Formaten, die Korrektur von Fehlern und die Anwendung von Geschäftsregeln, um die Qualität und Konsistenz der Daten zu gewährleisten. Data Warehouses speichern nicht nur aktuelle Daten, sondern auch historische Daten über einen längeren Zeitraum. Dies ermöglicht es den Nutzern, Daten im zeitlichen Kontext zu analysieren und Trends, Muster und Veränderungen im Laufe der Zeit zu erkennen.

Data Warehouses verwenden häufig ein dimensionales Modell wie das Sternschema, um die Daten zu organisieren. Dieses Modell wurde oben schon erwähnt und es besteht aus Faktentabellen, die numerische Messungen enthalten, und Dimensionstabellen, die Kontextinformationen liefern. Dies erleichtert die Analyse und ermöglicht einfache Abfragen über verschiedene Dimensionen hinweg. Data Warehouses sind so konzipiert, dass komplexe Abfragen und Analysen effizient durchgeführt werden können. Durch Indizierung, Partitionierung und andere Techniken wird die Abfrageleistung optimiert, um schnelle Antwortzeiten auf komplexe Analyseanfragen zu gewährleisten. Ein Data Warehouse bietet Werkzeuge und Funktionen, um Daten für Reporting und Analyse zugänglich zu machen. Dazu gehören Dashboards, OLAP-Cubes, Datenvisualisierungstools und Business Intelligence-Plattformen, die es den Nutzern ermöglichen, Daten zu analysieren, Trends zu erkennen und fundierte Entscheidungen zu treffen. Mit einem Data Warehouse können Unternehmen wertvolle Einblicke gewinnen, datengestützte Entscheidungen treffen und ihre betriebliche Leistung verbessern.

On Premise, Cloud oder Hybrid?

Früher wurde die gesamte Architektur standardmäßig on-premise aufgebaut Dies hat sich mit dem Zuwachs der Cloud berändert. Cloud-Lösungen gewinnen an Beliebtheit. Für viele Unternehmen sind jedoch Hybridlösungen nach wie vor die beste Lösung.

On-premise

Hier liegt die gesamte Architektur auf einem Server, den man selbst verwaltet. Klassischerweise handelt es sich dabei um einen Serverraum im Firmengebäude. On-Premise-Implementierungen werden häufig von Unternehmen gewählt, die besondere Sicherheits- oder Datenschutzanforderungen haben, die eine lokale Speicherung und Kontrolle ihrer Daten erfordern.

Cloud

Mittlerweile gibt es mehrere Cloud-Anbieter, wir selbst arbeiten vor allem mit der Microsoft Cloud „Azure“. Statt Daten oder Anwendungen lokal auf einem Gerät oder Server zu speichern, verwahrt man diese in der Cloud auf und ruft sie über das Internet ab. Die Server werden also zentral verwaltet und ein Unternehmen mietet quasi nur einen Teil davon.

Hybrid

Eine hybride Datenarchitektur bezieht sich auf einen Ansatz für das Datenmanagement, der Elemente sowohl lokaler als auch Cloud-basierter Lösungen kombiniert, um die Anforderungen einer Organisation an die Speicherung, Verarbeitung und Integration von Daten zu erfüllen. Dies beinhaltet die Integration von Datensystemen und -infrastrukturen über verschiedene Umgebungen hinweg, z. B. private Rechenzentren, öffentliche Clouds und Edge-Computing-Geräte.

Die hybride Datenarchitektur erkennt an, dass verschiedene Arten von Daten und Arbeitslasten unterschiedliche Anforderungen an Skalierbarkeit, Sicherheit, Leistung und Kosten haben können. Durch die Nutzung sowohl lokaler als auch Cloud-basierter Ressourcen können Organisationen ein ausgewogenes Verhältnis zwischen Flexibilität, Kontrolle und Skalierbarkeit erreichen.

Datenanalyse

Advanced Analytics und Deep Learning sind zwei Begriffe aus dem Bereich des maschinellen Lernens und der künstlichen Intelligenz, die sich mit der Verarbeitung und Analyse komplexer Daten beschäftigen. Um mehr über Data Analytics zu lernen sollten Sie unseren anderen Blogbeitrag lesen. Die Datenanalyse ist der letzte Schritt in der Architektur. Selbstverständlich gehören hier einige statistische Analysetools dazu.

Machine Learning

Machine Learning ist ein Teil der Künstlichen Intelligenz und beschreibt die Möglichkeit Maschinen so zu trainieren, dass sie Muster erkennen können und so Vorhersagen zu erstellen. Eine benutzerfreundliche Möglichkeit ist z.B. das Machine Learning Studio dazu gibt es auf unserem YouTube-Kanal eine Videoreihe. Wenn Ihnen lesen lieber ist haben wir auch einen Blogbeitrag.

Deep Learning: Deep Learning ist ein Teilgebiet des maschinellen Lernens, das sich mit dem Aufbau und dem Training neuronaler Netze beschäftigt. Neuronale Netze sind computergestützte Modelle, die der Funktionsweise des menschlichen Gehirns nachempfunden sind und in der Lage sind, komplexe Muster in großen Datenmengen zu erkennen und zu lernen. Deep Learning basiert auf mehreren Schichten von Neuronen, die Informationen verarbeiten und abstrakte Darstellungen von Daten lernen können.

Datenvisualisierung

Für die Analyse von Daten ist die Visualisierung unabdingbar. Oft kann man Muster erst erkennen wenn man sie in einem Graphen sieht. Durch moderne Tools wie Power BI ist z.B. möglich die Visualisierung interaktiv zu gestalten und so die Analysetiefe und Geschwindigkeit zu erhöhen. Zu Power BI haben wir zufälligerweise auch schon einen Blogbeitrag geschrieben.

Unsere Spezialisten

Wir bei arelium haben mehr als ein Jahrzehnt Erfahrung in der Entwicklung von Data Architecture Lösungen. Im Laufe unserer Arbeit haben wir unzählige Architekturen entwickelt. In verschiedenen Projekten haben wir sowohl ETL-Prozesse als auch Data Warehouses aufgebaut. Wenn Sie neugierig geworden sind sprechen Sie uns gerne an. Wir helfen Ihnen zu verstehen wie Sie optimal von dieser Technologie profitieren können.

Joel Galla

22 Beiträge

Joël Galla, Data Engineer & Data Analytics, ist ausgebildeter Volkswirt. Er ist spezialisiert auf Statistik und quantitative Methoden. Im Rahmen seiner Ausbildung hat er Erfahrungen in R und Python gesammelt. Als Data Engineer befasst er sich mit den Technologien SQL Server und Azure Synapse. Seine besondere Qualifikation liegt im Bereich Data Analytics mit Microsoft Power BI.

Kontakt herstellen

Vorheriger Beitrag

Was unterscheidet den OneLake?

Nächster Beitrag

Cloud Architektur