Was ist ein Data Engineer?

Data Engineer

Was ist Data Engineering?

Data Engineering beschreibt die Prozesse in der IT-Abteilung eines Unternehmens, die sich um Datenbeschaffung, -Aufbereitung und -Transport drehen. Die Job-Bezeichnung heißt Data Engineer. Von einem Quelldatensystem, wie zum Beispiel einem FTP-Server, einem Clouddienst oder einer App, lädt man Rohdaten herunter. Diese Daten bereitet man dann mittels geeigneter Software-Tools auf. In der Regel werden dann Berechnungen angestellt, bevor die fertig prozessierten Daten in übersichtlicher Form (z.B. in Power BI-Berichten) zur weiteren Analyse freigegeben werden. Das beschriebene Vorgehen wird auch als ETL bezeichnet (“Extract, Transform, Load”). Auch die neue „Cloud-Variante“ ELTL („Extract, Load, Transform, Load“) wird von einem Data Engineer ausgeführt.

In der Business Intelligence hat man es oft mit großen Datenmengen (Big Data) zu tun, weshalb geeignete Computing-Ressourcen für schnelle Verarbeitung zur Verfügung stehen sollten.

Was macht ein Data Engineer?

Ein Data Engineer sollte mit den Programmier-Techniken vertraut sein, die man für die Datenverarbeitung benötigt. Dies können Programmiersprachen wie Python, C++ oder Java sein, die zum Beispiel für das Auslesen von csv- oder xml-Dateien nützlich sein können. Wichtige cloudbasierte Tools von Microsoft sind Azure Databricks und Azure Synapse, mit denen sich der gesamte ETL-Prozess darstellen lässt. Im on-premise-Bereich ist hier der SQL Server mit den SQL-Server-Integration-Services (SSIS) zu nennen. Oft werden dann die SQL Server Analysis Services (SSAS) genutzt, um ein übersichtliches Datenmodell (Tabular Model) als Basis für die Berichtsentwicklung zu erzeugen.

Der Data Engineer transportiert die Daten nicht nur von A nach B, sondern kümmert sich bei seiner Arbeit auch darum, dass die Daten sinnvoll (zwischen-)gespeichert werden. Ein Data Engineer kümmert sich also um die Beschaffung, Sicherung und Aufbereitung der Daten. Im Gegensatz dazu nutzen Data Analysts und Data Scientists in der Regel die aufbereiteten Daten für weiterführende inhaltliche und statistische Analysen, zum Beispiel anhand von Power BI-Berichten.

Was sind die Aufgaben eines Data Engineers?

Ein Data Engineer hat viele Aufgaben, darunter:

  • Datenarchitektur-Design: Die Entwicklung einer Datenarchitektur, die die Datenspeicherung, -verarbeitung und -analyse optimiert.
  • Datenintegration: Die Kombination von Daten aus verschiedenen Quellen, um ein vollständigeres Bild der Datenlandschaft zu erstellen.
  • Datenpipelining: Der Prozess der Extraktion, Transformation und Laden (ETL) von Daten, um sie in einer Datenbank oder einem Data Warehouse zu speichern.
  • Datenverarbeitung: Die Verarbeitung von Daten, um sie für Analysen oder Machine-Learning-Modelle zu optimieren.
  • Dateninfrastruktur: Die Konfiguration und Verwaltung von Dateninfrastrukturen wie Datenbanken, Data Warehouses, Cloud-Speicher und -Servern.

Wie Sie mit Azure Synapse Analytics die Daten besser skalieren können, erfahren Sie in unserem Blogbeitrag.