Wrangling Data Flows

vor 6 Jahren

Vor ein paar Monaten stellte die Azure Data Factory zwei neue Features vor. Einerseits sind es die Mapping Data Flows. Andererseits sind es die Wrangling Data Flows. Mit diesem Feature möchte ich mich in diesem Blogbeitrag beschäftigen und diesen ganz kurz vorstellen.

Was sind Wrangling Data Flows?

Wrangling Data Flows

Kurz und knapp formuliert sind die Wrangling Data Flows nichts anderes als Power Query Online. Das heißt, dass dieses Feature auf die Aufbereitung und Transformation von Daten „spezialisiert“ ist. Demzufolge liegt der Fokus ganz klar auf den Daten an sich. Wie in Abbildung 2 zu erkennen ist, lehnen sich die Wrangling Data Flows ganz nah an den Query Editor von Power Bi an. Dies ermöglicht also eine codefreie (agile) Datenaufbereitung in der Cloud. Selbstverständlich kann man -analog zum Power Bi Query Editor– auch M-Funktionen verwenden. Zum Entstehungszeitpunkt dieses Beitrags befand sich das Feature noch im „Preview Status“. Daher stehen leider noch nicht alle Funktionalitäten zur Verfügung. Folgende Fehlermeldung könnte hin und wieder auftauchen:

The wrangling data flow is invalid. Expression.Error: The transformation logic isn´t supported. Please try a simpler expression.

Ich bin mir aber ganz sicher, dass Microsoft dies schnell ändern wird.

Wie funktionieren sie?

Grundsätzlich ist zu sagen, dass man die Azure Wrangling Data Flows sehr komfortabel in eine Pipeline der Azure Data Factory integrieren kann. Für den interessierten Leser möchte ich an dieser Stelle auf die Blog-Beiträge eines Kollegen verweisen, die sich mit der Azure Data Factory etwas genauer beschäftigen (1).

Beim Erstellen sind lediglich die Quelle, sowie das Ziel anzugeben, in denen die Daten zu finden, bzw. wohin die aufbereiteten Daten geschrieben werden sollen (Abbildung 3).

Hier möchte ich darauf hinweisen, dass lediglich eine Quelle und ein Ziel ausgewählt werden kann. Dabei können allerdings sämtliche in Azure zur Verfügung stehenden Datenquellen verwendet werden. Direkt nach dem Anlegen werden die ausgewählten Daten in den Editor geladen und es kann online -ganz analog zum Query Editor in Power BI- gearbeitet werden. Sobald der Data Flow fertig erstellt und veröffentlich wurde kann er in der Pipeline verwendet werden. Dabei ist alles wirklich sehr selbsterklärend gestaltet und sollte für jeden, der sich ein wenig in der Data Factory auskennt, ohne große Herausforderung erstellbar sein.

Wrangling Data Flows

Fazit

Meines Erachtens sind die Wrangling Data Flows eine hervorragende Möglichkeit die ganzen Power Query User -wie Fachabteilungen oder auch den einen oder anderen Daten Scientisten- mit in die schöne neue Welt der Modern Datewarehouses zu holen ohne diese an ein neues Tooling gewöhnen zu müssen.

(1): Azure Data Factory (Teil 1)

Bildquellen: https://adf.azure.com/

Thomas Sobizack

18 Beiträge

Thomas Sobizack, Data Engineer & Business Intelligence Berater, ist Diplom-Informatiker und im Unternehmen als Berater und Architekt für Microsoft .NET-Anwendungen tätig. Dazu verfügt er über Kenntnisse und Erfahrungen mit den Business Intelligence-Produkten der Microsoft SQL Server Plattform. Auch mit der Azure Data Platform kennt er sich aus. Für die Fachzeitschrift windows.developer schreibt der Experte als Autor zu aktuellen Themen und Trends rund um die Microsoft Entwicklung (.NET, Azure etc.).

Kontakt herstellen

Vorheriger Beitrag

Azure Data Factory (Teil 1)

Nächster Beitrag

Kann man Sudokus mit Hilfe von T-SQL lösen?