Fabric vs. Databricks

Fabric vs Databricks Titelbild

Für viele Unternehmen, die ihre Datenverwaltung auf dem neusten Stand halten wollen, stellt sich wie immer die Frage: „Was für ein Tool soll ich benutzen?“. Die Einführung von Microsoft Fabric hat zu einem neuen Wettrennen geführt. Damit gilt es auch zu klären, welches Tool bei diesem Wettrennen gewinnt und für was sich Unternehmen entscheiden sollten.

Was ist Microsoft Fabric?

Im Jahr 2023 hat Microsoft seine neue All-in-One Lösung für die Datenverarbeitung veröffentlicht. Das Ziel von Fabric ist es, alle Datenverarbeitungen an einem Ort gesammelt anzubieten. Dabei vereint es viele Technologien, die Microsoft vorher schon angeboten hat. Dazu gehören z.B. Synapse Analytics, die Azure Data Factory und auch Power BI. Zur gesamten Verarbeitung gehört auch die Speicherung, welche im OneLake geschieht und im Verlauf des Beitrages noch wichtig wird.

Was ist Databricks?

Databricks ist als Unternehmen seit 2013 am Markt und auch als Gründer von Spark bekannt. Databricks hat sich vor allem auf Big Data spezialisiert und gehört im Gegensatz zu Fabric zu keinem einzelnen Cloud-Anbieter. Allerdings arbeitet Databricks mit vielen Cloud-Anbietern zusammen.

Fabric vs. Databricks – Wer steht für was?

Vor weg sollte gesagt sein, dass sich beide Tools in ihrer Zielsetzung unterscheiden. Databricks ist als Programm geplant, welches in verschiedenen Cloudplattformen genutzt wird und dabei besonders schnell große Daten verarbeiten kann. Dabei ist mit schnell vor allem die Datenauswertung gemeint und nicht notwendigerweise die Entwicklung.

Fabric auf der anderen Seite versucht alle Anwendungen besonders benutzerfreundlich an einem Ort bereitzustellen und ist als Anwendung von Microsoft sehr eng mit Azure verbunden. Damit folgt auch schon der erste Unterschied fürs Data Engineering. Databricks setzt vor allem auf Notebooks, die als solche immer über Code funktionieren wie z.B. Python, Spark und SQL. Auf der anderen Seite baut Fabric auch auf Low Code Möglichkeiten. Es können zwar, wie in Databricks auch, Notebooks verwendet werden. Es gibt aber auch die Möglichkeit über die Data Factory oder Data Flows Daten mit wenig Programmier-Erfahrung zu importieren. Eine kurze wichtige Anmerkung: die Notebooks in Databricks und Fabric basieren auf derselben Open-Source Technologie von Spark. Auch Fabric unterstützt Python, Spark und SQL.

Wie werden die Daten gespeichert?

Wir haben auch zuvor schon ein Beispiel gesehen, wie beide Anwendungen dieselbe Technologie verwenden. Hier ist es grundlegend der Delta-Lake. Microsoft nennt seinen Delta Lake jedoch stattdessen „OneLake“.

Databricks setzt in seinem Delta Lake vollumfänglich auf Lakehouses und ermöglicht Data Warehouses nur innerhalb seiner Lakehouses. Falls Sie nochmal den Unterschied nachlesen wollen, können Sie das in unserem vorherigen Blogbeitrag tun.

Microsoft Fabric kann beide Formen der Datenverwaltung. Dabei erlaubt es sowohl für SQL optimierte Data Warehouses als auch für Spark optimierte Lakehouses. Unterm Strich werden aber sowohl bei Databricks als auch bei Fabric alle Daten im Lake als Delta Parquet gespeichert.

Wo hat Databricks die Nase vorne?

Databricks liegt bei der Computepower leicht vorne. Dadurch, dass sie die Entwickler von Spark sind und ihr Augenmerk auf Geschwindigkeit legen, können sie hier punkten. Gerade beim Real-Time Processing ist Databricks extrem schnell. Die hohe Geschwindigkeit macht sich natürlich besonders bemerkbar bei sehr großen Datenmengen wie bei Big Data. Außerdem sind diese hohen Geschwindigkeiten hilfreich bei besonders komplexen Analysen.

Wie durch den vorherigen Teil zu vermuten war ist Databricks damit beim Machine Learning vorne. Da wir über die Geschwindigkeit schon gesprochen haben, bleibt hier nur ein anderer Punkt. Databricks bietet auch Machine Learning Modelle von Drittanbietern an und differenziert sich damit klar von Fabric. In Fabric können keine Drittanbieter Modelle verwendet werden. Das Machine Learning in Fabric ist technisch sehr ähnlich zu Databricks, aber Databricks bleibt durch die Sparkgrundlage leicht vorne.

Wo gewinnt Microsoft Fabric?

Die Benutzerfreundlichkeit ist bei Fabric höher. Nur Fabric bietet viele Low Code Möglichkeiten an, das heißt auch ohne Programmierkenntnisse kann man hier entwickeln. Natürlich ist es nicht unbedingt wichtig für Entwickler selber, da diese meistens gute Programmierkenntnisse haben, es bietet aber andere Vorteile. Gerade für kleine, schnelle Lösungen kann sowas von Vorteil sein. Ein anderer Vorteil ist klar die Wartung. Wenn ein Projekt größtenteils abgeschlossen ist, kann bei einer Low Code Umsetzung auch eine weniger erfahrene Person Fehler korrigieren und kleinere Probleme beheben.

Ein offensichtlicher Punkt ist, dass Fabric von Microsoft entwickelt wurde. Durch diesen Fakt ist Fabric natürlich voll in der Microsoft-Welt integriert, das heißt nicht, dass andere Anbieter nicht angebunden werden können.

Der größte Vorteil von Fabric ist die Datenvisualisierung. Der derzeitige Marktführer ist Power BI von Microsoft. Da Microsoft dies bewusst ist, haben sie Fabric um Power BI herum entwickelt und damit ist beides nativ verbunden. Power BI ist ein Teil von Fabric und wird mitgeliefert bei der Nutzung von Fabric. Databricks kann hier nichts Vergleichbares bieten.

Fabric vs. Databricks – Wer kostet wie viel?

Fabric und Databricks haben völlig unterschiedliche Preisstrukturen. Databricks hat ein Pay-as-you-go Modell und die Preise richten sich nach der benutzen Leistung. Die Leistung wird dabei als DBU (Databricks Unit) verstanden und es wird je nach verbrauchter Leistung bezahlt. Die Preise richten sich zudem nach einzelnen Bereichen wie den Workflows, Databricks SQL Querys zwischen 0,22$ und 0,72$ pro DBU. (Stand 02.08.2024). Die Datenspeicherung liegt bei den einzelnen Cloudanbietern und kostet unterschiedlich viel.

Fabric funktioniert dabei anders. Der Preis in Fabric ist dreigeteilt. Zuerst muss eine sogenannte SKU bezahlt werden. Diese Kapazität legt die Leistung von Fabric fest. Wichtig hierbei ist, dass alle Bereiche von Fabric erworben werden, also alles von der Data Factory bis zu Power BI. Zu dieser Kapazität kommen noch Einzellizenzen pro Benutzer. Den letzten Anteil macht die Datenspeicherung aus, welche pro GB 0,024$ pro Monat im OneLake kostet. Ein kleiner Trick bei Fabric ist, dass die SKU abgeschaltet werden kann und dann keine Kosten anfallen, das heißt über Nacht können so z.B. Kosten gespart werden. Mehr Details finden Sie in unserem dazugehörigen Blogbeitrag.

Zusammenfassend lässt sich zu Fabric vs. Databricks und den Kosten sagen, dass Databricks kurzzeitig wahrscheinlich leicht günstiger ist. Fabric schafft es allerdings mittelfristig und ganz sicher langfristig, die Kosten niedriger zu halten.

Wann wähle ich was?

Die Frage bei Fabric vs. Databricks ist nicht unbedingt „was ist besser?“. Beide Programme bieten fantastische Möglichkeiten, aber es hängt von Ihrem Unternehmen ab. Wenn Ihr Unternehmen in mehreren Clouds gleichzeitig vertreten ist, dann ist Databricks vermutlich besser geeignet. Selbiges gilt, wenn Real-Time Analytics mit Machine Learning in möglichst hoher Geschwindigkeit notwendig ist.

Die Vorzüge von Fabric sind aber auch ganz klar. Gerade wenn Ihr Unternehmen schon Erfahrung mit Azure hat und vielleicht sogar Power BI nutzt, dann ist der Umstieg auf Fabric sehr leicht. Durch die Integration verschiedenster Anwendungen in einer Plattform hat Microsoft einen riesigen Schritt nach vorne gemacht. Eine wichtige Anmerkung ist hier auch, dass Microsoft gerade sehr viele neue Updates und Features herausbringt und wir somit eine schnelle Entwicklung sehen. Databricks wird hier allerdings vermutlich bald nachziehen.

Unsere Spezialisten

Wir sind seit vielen Jahren Spezialisten für die gesamte Datenverarbeitung von der Speicherung, über die Analyse bis zum fertigen Bericht. Wenn Sie weitere Fragen kontaktieren Sie uns doch einfach.

Vorheriger Beitrag
Data Vault kurz und knapp erklärt!
Nächster Beitrag
T-SQL Constraints

Weitere Beiträge