Unterschiede vom Lakehouse vs Warehouse

Lakehouse vs Warehouse

Mit der Microsoft Fabric hat Microsoft zwar keinen neuen, aber einen modernen Ansatz zur Datenspeicherung implementiert. Die Speicherung der Daten im Lakehouse. Viele fragen sich nun: Was sind die Unterschiede zwischen einem Lakehouse und einem Warehouse? Wann sollte ich ein Lakehouse und wann ein Warehouse verwenden? Um diese Fragen beantworten zu können, muss man zunächst verstehen, was die verschiedenen Konzepte sind. 

Lakehouse

Fabric_Synapse_Data_Engineering_Icon

Warehouse

Fabric_Synapse_Data_Warehouse_Icon

Ein Lakehouse speichert sowohl strukturierte Daten (Tabellen) als auch unstrukturierte Daten (Dateien). Somit ist es eines der Objekte der Anwendung „Synapse Data Engineering“ in Fabric. Die Daten im Lakehouse werden in OneLake im Parquet-Format (Delta-Format) gespeichert. Die Daten können auf verschiedene Arten in das Lakehouse gepumpt werden. Datenpipelines, Dataflows Gen 2, Notebooks und Spark Job-Ausführungen sind einige der Möglichkeiten. 

Ein Data Warehouse speichert strukturierte Daten, d.h. Tabellen. In Fabric ist das Data Warehouse ein Teil der Anwendung „Synapse Data Warehouse”. Die Daten aus dem Warehouse werden auch in OneLake im Parquet-Format (Delta-Format) gespeichert. Über den OneLake haben wir bereits in anderen Blogbeiträgen berichtet. Zusätzlich zu den Möglichkeiten im Lakehouse, Daten in das System zu pumpen (außer Spark-Jobs), kann hier auch mit ganz normalen T-SQL-Befehlen gearbeitet werden. 

Ueberblick Fabric Applikationen

Unterschiede

Also was sind die Unterschiede zwischen Lakehouse und Warehouse? Es gibt zwei Hauptunterschiede zwischen einem Data Warehouse und einem Data Lakehouse. Der erste große Unterschied liegt in der Entwicklung. Während man ein Lakehouse mit Spark/Python entwickelt, geschieht dies bei einem Warehouse mit T-SQL. Daher ist es wichtig, die eigenen Fähigkeiten bei der Wahl der richtigen Struktur zu berücksichtigen. Außerdem ist ein weiterer großer Unterschied die Struktur der gespeicherten Daten. Während das Lakehouse sowohl strukturierte als auch unstrukturierte Daten unterstützt, sind in einem Warehouse nur strukturierte Daten gespeichert. Somit sind die unterschiedlichen Zielsetzungen deutlich.

Gemeinsamkeiten

Die beiden Speichermöglichkeiten haben auch einige Gemeinsamkeiten. Die erste Gemeinsamkeit besteht darin, dass man mit beiden Sprachen – sowohl mit Spark als auch mit SQL – Daten lesen kann. (Das Schreiben funktioniert jeweils nur mit einer der beiden Programmiersprachen!). Damit ist sichergestellt, dass sowohl Spark als auch SQL-Entwickler Daten aus beiden Quellen lesen können. Auch die Speicherung der Daten ist identisch. Beide Formate speichern ihre Daten im Delta Format in einem Parquet-File. 

Delta Lake x Parquet Speicherung

Fazit

Beide Möglichkeiten haben ihre Vor- und Nachteile. Deshalb gilt: Für welches System man sich entscheidet, hängt vom Projekt und dem vorhandenen Know-how ab. Habe ich mehr Entwickler in Spark oder in T-SQL? Wer wird am Ende mein System supporten? Diese und andere Fragen sollte man sich zu Beginn eines neuen Projektes bezüglich der Speichermöglichkeiten in Fabric stellen, um die für sich beste Lösung zu finden.

Unsere Spezialisten

Wir von arelium haben schon viele Kunden bei der erfolgreichen Migration in die Cloud unterstützt. Deshalb haben sich unsere Spezialisten mit dem Erscheinen von Fabric sofort damit beschäftigt. Durch unsere frühe Adaption bieten wir Schulungen an. Zusätzlich haben wir das Thema in einigen Videokursen aufbereitet. Wenn Sie Fragen zum Thema Fabric haben, helfen wir Ihnen gerne weiter.

Vorheriger Beitrag
Cloud Architektur
Nächster Beitrag
Microsoft Copilot

Weitere Beiträge