Datenbank - Bibliothek - arelium - Wir holen mehr aus deinen Daten

Cloud-Datenbanken – Dein Guide zu den besten Optionen in Azure

Thomas Sobizack — Fri, 16 May 2025 09:47:17 +0000

Azure-Datenbanken

In unserer schnelllebigen und mobilen Welt sind Cloud-Datenbanken das Herzstück moderner IT-Architekturen. Egal ob für Webanwendungen, Analysen, IoT- Szenarien oder unternehmenskritische Systeme – Microsoft bietet in seiner Cloud-Umgebung Azure eine breite Palette an Datenbankdiensten. Versprochen, hier findest du für jede Anforderung die perfekte Lösung!

In diesem Beitrag bekommst du einen Überblick über die wichtigsten Azure-Datenbanken, ihre Anwendungsfälle und Vorteile.

Azure SQL-Datenbank (Cloud-Datenbanken)

Die Azure SQL-Datenbank ist Microsofts vollständig verwaltete relationale Cloud-Datenbank, die auf dem SQL Server basiert.
Sie eignet sich besonders für moderne Cloud-Anwendungen, die sowohl Zuverlässigkeit als auch Skalierbarkeit erfordern, und das bei minimalem Wartungsaufwand.
Zudem profitiert man von automatischem Performance-Tuning, regelmäßigen Sicherheitsupdates sowie integrierter Hochverfügbarkeit, wodurch sie ideal für Entwickler ist, die sich nicht mit der zugrunde liegenden Infrastruktur beschäftigen wollen.

Merkmale:

Vollständig verwaltet (PaaS)
Automatische Backups
Nahezu unbegrenzte Skalierung
Hochverfügbarkeit
Verschiedene Bereitstellungsmodelle: Single Database, Elastic Pool, Hyperscale

Einsatzszenarien:

Webanwendungen
SaaS-Plattformen
Unternehmensdatenbanken mit kleinen bis hohen Anforderungen

Azure Cosmos DB Cloud-Datenbanken

Bei der Azure Cosmos DB handelt es sich um Microsofts hoch skalierbare, global verteilte NoSQL-Datenbank, die speziell für Anwendungen entwickelt wurde, die sowohl eine niedrige Latenz als auch eine hohe Verfügbarkeit erfordern. Weil sie verschiedene APIs wie MongoDB oder Cassandra unterstützt, lässt sie sich flexibel in bestehende Systeme integrieren, sodass Entwickler je nach Bedarf auf vertraute Technologien zurückgreifen können.
Zudem ermöglicht die weltweite Verteilung der Daten eine konsistente Nutzererfahrung – unabhängig davon, wo sich die Nutzer befinden.

Merkmale:

Es gibt ganz viele Datenbank-Typen in Microsoft Azure!

Unterstützung verschiedener APIs: SQL (DocumentDB), MongoDB, Cassandra, Gremlin, Table
Niedrige Latenz bei Lese- und Schreiboperationen
Globale Verteilung und Echtzeit-Replikation

Einsatzszenarien:

Globale Web- oder Mobilanwendungen
IoT-Anwendungen
E-Commerce und Echtzeitanalysen

Azure-Datenbank für PostgreSQL

Die Azure-Datenbank für PostgreSQL bietet eine vollständig verwaltete PostgreSQL-Umgebung auf Azure, wodurch sie ideal für Standardanwendungen sowie für hochskalierende Datenverarbeitung ist. Da PostgreSQL ein beliebtes Open-Source-Datenbanksystem mit einer großen Community ist, profitieren Nutzer von kontinuierlicher Weiterentwicklung und einer umfangreichen Unterstützung durch die Community.

Merkmale:

Open-Source
Hochverfügbarkeit mit Zonen-Redundanz
Skalierbare Leistung und Speicher
Unterstützung von Citus (massiv parallele Verteilung)

Einsatzszenarien:

Geodatenverarbeitung (GIS)
Analyse- und Reporting-Szenarien

Azure-Datenbank für MySQL

Microsoft Azure Datenbank

Auch für MySQL bietet Azure einen vollständig verwalteten Dienst, der sich insbesondere auf die Themen Einfachheit, Sicherheit und Skalierbarkeit fokussiert.

Da MySQL im Webbereich besonders beliebt ist – insbesondere, wenn es um CMS- und E-Commerce-Systeme geht – findet es in diesen Bereichen eine entsprechend intensive Anwendung.

Somit eignet sich der Azure-Dienst ideal für Entwickler, die eine vertraute Datenbanktechnologie mit den Vorteilen einer Cloud-Plattform kombinieren möchten.

Merkmale:

Kompatibel mit MySQL 5.7 und 8.0
Skalierbarkeit und automatische Patches
Flexible Server-Architektur mit mehr Kontrolle

Einsatzszenarien:

WordPress-Hosting
Webanwendungen kleiner bis mittlerer Größe

Azure-Datenbank für MariaDB (Hinweis: wird eingestellt)

Bei Azure MariaDB handelt es sich um ein Fork (eine „Kopie“ die unabhängig vom Original weiterentwickelt wurde) von MySQL das jedoch mit zusätzlichen Features ausgestattet ist. Microsoft stellt MariaDB jedoch schrittweise ein. Bestehende Nutzer sollten zur Azure-Datenbank für MySQL oder einer VM (Virtuelle Maschine) -basierten Lösung migrieren.

Merkmale:

Basiert auf MySQL
Integrierte Skalierung und Backup-Funktionen
Unterstützung für bekannte Tools

Einsatzszenarien:

Bestehende MariaDB-Anwendungen
Kleinere relationale Workloads
Web-Apps mit Open-Source-Stack

Azure Synapse Analytics (Cloud-Datenbanken)

Azure Synapse Analytics ist ein cloudbasierter Dienst, der Datenintegration, Big Data-Analyse und Data Warehousing kombiniert, wodurch eine umfassende Plattform für datengetriebene Anwendungen entsteht.
Synapse ermöglicht es, schnell Erkenntnisse aus großen Datenmengen zu gewinnen, indem es leistungsstarke Tools wie SQL, Apache Spark sowie den Data Explorer bereitstellt. Darüber hinaus kannst du mit Azure Synapse Daten aus verschiedenen Quellen integrieren, transformieren und analysieren, sodass du fundierte Entscheidungen auf Basis konsistenter und aktueller Informationen treffen kannst. Weil alle Komponenten eng miteinander verknüpft sind, lässt sich der gesamte Datenfluss effizient steuern und automatisieren. Für einen tieferen Einblick in Synapse empfehle ich den Beitrag meines Kollegen Tobias Adler: Azure Synapse Analytics

Merkmale:

T-SQL-basiertes MPP-Data Warehouse ( Massively Parallel Processing)
Integration mit Data Lake, Spark, Power BI
Serverless SQL und dedizierte Pools

Einsatzszenarien:

Datenanalyse
Echtzeitdatenintegration
Reporting und Business Intelligence

Azure Data Explorer (Kusto) Cloud-Datenbanken

Azure Data Explorer (Kusto) ist eine leistungsstarke Datenanalyseplattform, die speziell für schnelle Abfragen auf großen Datensätzen entwickelt wurde.
Dabei nutzt die Plattform die Kusto Query Language (KQL) – eine Sprache, die nicht nur einfach zu erlernen, sondern auch sehr effizient ist (hier findest du einen Vergleich zwischen SQL und KQL). Mit dem Azure Data Explorer kannst du Daten in Echtzeit verarbeiten und diese analysieren, wodurch er sich besonders für das Monitoring, die Sicherheitsanalyse sowie die Analyse von Nutzerverhalten eignet.
Außerdem integriert sich die Plattform nahtlos in andere Azure-Dienste wie Event Hubs, IoT Hub und Azure Monitor, sodass umfassende End-to-End-Szenarien realisierbar sind.

Merkmale:

Kusto Query Language für große Datensätze
Echtzeitverarbeitung
Schnelle Abfragen über strukturierte und semi-strukturierte Daten

Einsatzszenarien:

Anwendungsüberwachung (App Insights)
IoT-Telemetrie
Security- und Log-Analytik

SQL Server auf Azure Virtual Machines

Wenn du vollständige Kontrolle über deine Datenbankumgebung brauchst, dann ist der SQL Server auf Azure Virtual Machines eine gute Wahl. Diese IaaS-Option bietet eine Umgebung, die deiner On-Premises-Struktur gleicht und unterstützt alle SQL Server-Features.

Merkmale:

Vollständige Admin-Kontrolle über Betriebssystem und SQL Server
Unterstützung aller SQL Server-Versionen
Integration in Azure Backup, Monitor etc.

Einsatzszenarien:

Legacy-Anwendungen
Komplexe SQL Server-Features (SSRS, SSIS)
Hybrid-Cloud-Szenarien

Fazit: Welche Azure-Datenbank passt zu mir?

Welche Azure Datenbank soll ich nehmen?

Die Auswahl der passenden Cloud-Datenbank hängt von verschiedenen Faktoren ab. Dazu zählen zum Beispiel die Art der Anwendung, das Datenvolumen und die benötigte Geschwindigkeit. Auch Anforderungen an Sicherheit, Skalierbarkeit und Wartungsaufwand spielen eine wichtige Rolle.

Je nach Einsatzzweck bieten sich unterschiedliche Azure SQL-Datenbanklösungen an:

Anforderung	Empfehlung
Relationale Web-App	Azure SQL-Datenbank
Migration von SQL Server	SQL Managed Instance oder Azure VM
Globale NoSQL-Anwendung	Azure Cosmos DB
Open-Source Stack (PostgreSQL)	Azure-Datenbank für PostgreSQL
Analytische Workloads	Azure Synapse Analytics
Log- und Telemetriedaten	Azure Data Explorer

Ganz gleich, ob du eine Beratung brauchst oder bereits konkrete Anforderungen hast – nimm einfach Kontakt zu uns auf.

Wir von der arelium GmbH helfen dir gern.

Der Beitrag Cloud-Datenbanken – Dein Guide zu den besten Optionen in Azure erschien zuerst auf arelium - Wir holen mehr aus deinen Daten.

T-SQL Notebook in Microsoft Fabric

Martin Kopp — Mon, 11 Nov 2024 06:29:22 +0000

T-SQL Notebooks in Fabric? Das geht? Ja. In der aktuellen Version von Microsoft Fabric kann jetzt auch in einem Notebook mit T-SQL gearbeitet werden. Bekannt gegeben wurde das im letzten Fabric-Newsletter von September 2024. Das es kommen wird, wurde schon vor einigen Monaten erwähnt.

Um was geht es überhaupt?

Bisher konnte ich mit meinem Notebook in Fabric die Sprachen PySpark, Scala, Spark SQL oder R verwenden. Ab jetzt gibt es eine Sprache mehr: T-SQL. So ganz stimmt das aber nicht. T-SQL kann in verschiedenen Situationen eingesetzt werden, aber ein bisheriges Notebook kann ich damit nicht so richtig ersetzen. Ich kann zum Beispiel nicht zwischen den Sprachen hin- und herspringen. Microsoft unterscheidet daher die Sprachauswahl nach Spark (die obigen vier Sprachen) und T-SQL Analytics. Das ist dann T-SQL.

Worin liegt der Unterschied? Wenn ich T-SQL auswähle, dann kann ich nicht mehr in eine andere Sprache ändern. Das hat etwas damit zu tun, dass die Spark-Sprachen gegen ein Lakehouse gehen und mit T-SQL verbinde ich mich an ein Warehouse. Also gehe ich mit einem (Spark-)Notebook bisher an einen SQL Analytics Endpoint. T-SQL geht dagegen an ein Warehouse. Dahinter steckt dann ein SQL Server bzw. ein Azure SQL.

Versuche ich mit einer T-SQL-Abfrage gegen ein Lakehouse zu starten, dann bekomme ich folgende Fehlermeldung:
InvalidOperationException: Data warehouse id is empty. Please check if the notebook is connected to a data warehouse.

Es geht also nur mit einem Data Warehouse. ABER: Ich kann in einem Data Warehouse ein Lakehouse verbinden. Klingt zunächst komisch. Konnte ich aber in Azure Synapse aber auch schon immer machen. Das geht dann natürlich auch in Microsoft Fabric.

Hier an einem Beispiel:
Obwohl ich in Warehouses bin, kann ich darunter ein Lakehouse verbinden. Am Ende ist es nichts anderes als die Lakehouse-Tabellen mit External Table in den SQL Server einzubinden. Auch das geht schon seit vielen Jahren im SQL Server. Hier kann ich dann mit T-SQL arbeiten und meine bekannte Sprache einsetzen um Sichten (Views), Funktionen (Functions), Prozeduren (Procedures) oder einfach nur Abfragen (Queries) zu schreiben.

Beispiel

Ein kurzes Beispiel mit dem Befehl TOP um nur die obersten Zeilen zu bekommen. Wir erinnern uns: In Spark SQL lautet der Befehl LIMIT.

Auch CTEs (Common Table Expressions) können verwendet werden. Wer CTEs nicht kennt, der sollte sich damit mal befassen.

Einschränkungen

Es gibt aber auch ein paar Limitierungen. Ich habe ein paar rausgesucht, die ich am ehesten vermissen würde

ALTER TABLE: Das geht nur sehr eingeschränkt (nur Primary Key anlegen und sowas). Wir erinnern uns, dass es sich um eine Externe Tabelle handelt. Dann geht ALTER TABLE natürlich nicht.
IDENTITY COLUMN: Auch das geht nicht. Auch das liegt an External Tables. Es gibt keine Identity auf einer Externen Tabelle. Am Ende ist es ja nur eine Datei und keine Tabelle in einer Datenbank.
MERGE: Das ein MERGE nicht geht, dass tut schon weh. Das ist auch etwas schade, da ein wenig suggeriert wird, dass ich ein Data Warehouse von einem SQL Server portieren kann. Spätestens beim MERGE ist es dann aber vorbei. Wenn ich MERGE in Prozeduren verwendet habe, dann muss ich das in Insert/Update/Delete umschreiben.
Es gibt noch weitere Einschränkungen, die in einem Data Warehouse aber eher seltener vorkommen. Nachzulesen auf der Microsoft-Seite zum Thema.

Fazit

Ich habe T-SQL bisher noch nicht in Fabric vermisst. Spark SQL geht auch. Ich gehe aber trotzdem davon aus, dass ich T-SQL das ein oder andere Mal in Zukunft verwenden werde. Wenn ich eine komplexere Abfrage brauche, dann ist mir T-SQL halt doch etwas geläufiger als Spark SQL. Ich glaube genau damit wird Fabric wieder etwas näher an die Entwickler rücken, die bisher den Umstieg in die Cloud nicht vollzogen haben und bisher „nur“ mit ihrem SQL Server (oder Azure SQL) arbeiten. EIn Vorteil ist natürlich auch die Mächtigkeit von T-SQL und die starke Verbreitung. Auch wird T-SQL immer wieder weiterentwickelt: Wie Microsoft die Sprache „T-SQL“ weiterentwickelt – arelium GmbH.

Der Beitrag T-SQL Notebook in Microsoft Fabric erschien zuerst auf arelium - Wir holen mehr aus deinen Daten.

Datenbankspiegelung (Mirroring) nach Microsoft Fabric

Martin Kopp — Mon, 28 Oct 2024 06:02:07 +0000

Wer Mirroring (Deutsch: Datenbankspiegelung) vom SQL Server kennt, wird sich vielleicht schon gefragt haben, warum das nicht in Fabric geht? Inzwischen ist das möglich. Wenn auch immer noch in der Preview Version. Dazu gibt es ein paar Dinge als Voraussetzung zu erfüllen. Darauf gehe ich hier ein und zeige einmal wie es erfolgreich von einer Azure SQL-Datenbank nach Microsoft Fabric geht.

Übrigens weist Microsoft darauf hin, dass Mirroring im SQL Server nicht das Selbe ist wie in Fabric. Mirroring im SQL Server soll sogar in den nächsten Versionen vom SQL Server verschwinden (siehe hier).

Was ist eigentlich Mirroring?

Mirroring ist eine Technik, mit der ich Tabellen aus einer Datenbank spiegeln kann. Ich kann also angeben ich möchte eine Tabelle aus einer Quelle haben und auf einer anderen Datenbank (Zieldatenbank) soll es diese Tabelle auch geben. Im Hintergrund sorgt das Mirroring dafür, dass diese immer den gleichen Inhalt hat. Das ist natürlich praktisch, wenn ich in Fabric bin. Ich muss dann nicht immer schauen, dass ich zum richtigen Zeitpunkt Daten aus einer Quelle abhole. Sie sind dann einfach schon da (frei nach Hase & Igel: „Ich bin schon da“). Ich brauche daher kein „Copy Data Task“ oder etwas Ähnliches.

Und wie geht Mirroring nach Microsoft Fabric?

Microsoft hat dazu eine kurze Beschreibung mit Video zur Verfügung gestellt. Allerdings ist die Beschreibung an der ein oder anderen Stelle etwas verwirrend. Ich werde es besser machen….

Für ein Beispiel habe ich eine Azure SQL Datenbank angelegt. Beim Anlegen habe ich die Beispieldatenbank mit einrichten lassen. So habe ich etwas für mein Beispiel zur Hand.

Voraussetzungen

Zunächst gibt es ein paar Dinge, die vorher gemacht werden müssen, damit ich Mirroring in Microsoft Fabric verwenden kann:

Zunächst muss ich Mirroring auf dem Tenant einschalten. Das geht wie immer über das Verwaltungsportal in Fabric.
Der letzte Haken gibt einen Hinweis darauf, dass dies auf der Ebene einer Kapazität angepasst werden kann. Das bedeutet, ich kann unter „Delegierte Mandanteinstellungen“ diese Einstellung überschreiben. Ich kann damit für eine einzelne Kapazität die Datenbankspiegelung wieder ausschalten. Das kann ich unter den Einstellungen für die Kapazität machen.
Damit ich SQL Server Authentifizierung benutzen kann, muss ich das im Azure SQL auf dem Server zulassen. Wichtig: Das ist eine Einstellung auf Datenbankserver-Ebene. Also auf der Instanz und nicht auf der Datenbank. Dort kann ich unter Sicherheit und Identität die folgende Einstellung setzen.
Danach kann ich auch SQL Server Authentifizierung verwenden. Alternativ geht es mit einem Dienstprinzipal (Service Principal). In produktiven Umgebungen würde ich das auch bevorzugen.

Wie lege ich die Datenbankspiegelung an?

Das Anlegen einer gespiegelten Azure SQL Datenbank kann dann unter Neu im Abschnitt Data Warehouse gefunden werden.

Hier muss ich zunächst eine Verbindung anlegen. Fabric muss ja wissen, wo er die Tabelle(n) für die Replikation herbekommen soll. Im nächsten Schritt lege ich dann die Verbindung an.

Wenn alles korrekt angegeben wurde, dann werden die Tabellen angezeigt, die gespiegelt werden können. Das sind alle in der Datenbank. Diese kann ich dann einfach auswählen.

Witzigerweise werden einige Tabellen aus der Beispieldatenbank von Microsoft als nicht spiegelbar angezeigt. Ein Attribut mit Leerzeichen im Namen führt zum Beispiel dazu, dass das Mirroring nicht geht. nvarchar ist ein anderes Beispiel. Das kann er nicht. Die müssen dann in varchar angepasst werden. Wenn ich das nicht mache, dann werden die Attribute, die Probleme bereiten nicht gespiegelt. Ich kann also die Spiegelung nutzen. Mir fehlen dann nur ein paar Spalten.

Ich habe für unser Beispiel die Tabelle SalesLT.Product angepasst. Er zeigt dann in einer Vorschau die Tabelle komplett an. Jetzt nur noch „Verbinden“ und schon kann es losgehen. Im nächsten Schritt fragt er dann nur noch, wo es denn hingehen soll. Er legt damit automatisch eine Datenbank in Fabric an. Dorthin werden alle ausgewählten Tabellen gespiegelt.

Schon fertig.

Natürlich kann ich jetzt auf die replizierte Tabelle in Fabric zugreifen.

Hier ist auch zu erkennen, dass er mir einen festen Namen für die Tabelle vergeben hat. Dem aufmerksamen Leser ist aufgefallen, dass ich den nirgends anpassen konnte. Der wird automatisch vergeben. Das ist natürlich etwas schade. Vielleicht kommt das aber noch, bevor das Feature in die finale Version geht.

Überwachen kann ich den Status auch immer.

Auch kann ich hier einmal schnell in die Replikationseinstellungen gehen und ggfs. eine Tabelle zusätzlich hinzufügen.

Gut zu wissen

Microsoft wirbt mit Zero Cost. Das ist zunächst richtig. Mirroring läuft aber nur, wenn die Fabric Kapazität läuft. Das bedeutet ich kann diese nicht abschalten, wenn ich das Mirroring haben möchte. Wenn ich die Kapazität einmal stoppe, dann stoppt das Mirroring dauerhaft und ich muss es neu „anschieben“. Das kann ich machen, indem ich es stoppe und direkt danach wieder starte. Danach ist wieder alles auf dem aktuellen Stand. Ein dynamisches Ausschalten der Kapazität bei Nichtbenutzung oder zu bestimmten Zeiten ist damit nicht mehr sinnvoll. Zero Cost ist daher Auslegungssache. Natürlich kann ich skalieren, aber eben nicht auf Pause setzen.

Fazit

In Fabric ist der Einsatz von Datenbankspiegelung ideal. Ich kann diverse Quellen anbinden und aus denen direkt die Tabellen abholen. So spare ich mir den ein oder anderen Aufwand. Kein Tabellen anlegen, kein kopieren der Daten in regelmäßigen Abständen etc. Natürlich ist das nur ein kleiner Teil der Entwicklung, aber dieser wird mit Datenbankspiegelung etwas verkürzt. Ich kann aber zum Beispiel die Beladung des Raw-Layers abkürzen, oder direkt in die Bronze-Schicht von meiner Medaillon-Architektur schreiben.

Aktuell können als Quellen nur Azure SQL, Snowflake und Azure Cosmos DB angegeben werden. Da kommt aber noch mehr in Zukunft. Auch ist zukünftig geplant SQL Server On-Premise zu unterstützen. Wir lassen uns überraschen.

Der Beitrag Datenbankspiegelung (Mirroring) nach Microsoft Fabric erschien zuerst auf arelium - Wir holen mehr aus deinen Daten.

T-SQL Constraints

Torsten Ahlemeyer — Mon, 12 Aug 2024 08:20:46 +0000

Was sind T-SQL Constraints?

Bei Constraints (engl. für “Einschränkungen”) handelt es sich um durch den Entwickler vorzugebende Regeln. Diese werden direkt auf Datenbankebene implementiert und durch diese überwacht. Derart abgesichert, sind Fehleingaben bei der Datenpflege nicht mehr möglich. Somit definieren Constraints Bedingungen, die beim Einfügen, Ändern oder Löschen von Datenbankinhalten erfüllt werden müssen.

Da Tabellen Werte innerhalb einer relationalen Datenbank speichern, hängen Constraints auch genau an dieser Art von Objekten. Sichten, Trigger, Prozeduren und Funktionen können keine Constraints haben.

Wann und wie werden Constraints erstellt?

Derartige Bedingungen kann man immer programmatisch erstellen. Man schreibt hierzu einen Quellcode mit normalen DDL-Befehlen. Dies kann schon beim Anlegen eines Objektes (CREATE TABLE) oder später als Änderungsanweisung (ALTER TABLE) geschehen. Es ist möglich Constraints einzeln zu löschen (DROP CONSTRAINT). Wenn das zugehörige Objekt gelöscht wird, werden gleichzeitig auch alle daran gebundenen Constraints eleminiert.

Es ist bei den meisten Constraints auch möglich, diese bequem über die grafische Benutzeroberfläche, bspw. das SQL Server Management Studio, zu pflegen.

Constraints gelten sofort. Mit ihrer Anlage sind sie automatisch aktiviert. Man kann sie zu Testzwecken einzeln deaktivieren, dann werden die implementierten Prüfungen nicht durchlaufen. Nach einer Reaktivierung findet die Bedingung dann sofort wieder Anwendung.

CREATE TABLE [Ereignis] (
[ID] INTEGER NOT NULL,
[Bezeichnung] VARCHAR(255) NOT NULL,
[Datum] DATE,
[Ort] VARCHAR(255),
CONSTRAINT [chkEreignis] CHECK ([Datum]>=’20240101’ AND [Ort]=’Duisburg‘)
);

Anlage einer Tabelle mit sofortiger Constraint-Einrichtung

ALTER TABLE [Ereignis]ADD CONSTRAINT [chkEreignis2] CHECK ([Bezeichnung] LIKE ‚D%‘);

Spätere Erweiterung um einen weiteren Constraint

Welche Arten von T-SQL Constraints gibt es?

Man unterscheidet verschiedene Arte von Einschränkungen. Manche Arten können pro Tabelle nur einfach vorkommen (Primery Key Constraint), andere können auch mehrfach in unterschiedlicher Ausprägung an dieselbe Tabelle gebunden werden. Verschiedene Arten lassen sich problemlos an einer Tabelle gleichzeitig einsetzen.

NOT NULL Constraint
Soll in eine Spalte kein NULL-Wert eingegeben werden können, nutzt man einen NOT NULL Constraint
UNIQUE Constraint
Mit dieser Bedingung erzwingt man einzigarte Werte in einer Spalte. Dubletten sind nicht mehr möglich.
Primery Key Constraint
Bei dieser Beschränkung handelt es sich um eine Kombination aus der UNIQUE- und der NOT NULL-Beschränkung, wobei die Spalte oder die Gruppe von Spalten, die am PRIMARY KEY beteiligt sind, einzigartig sind und keinen NULL-Wert annehmen können.
Foreign Key Constraint
Hier wird die Eingabe von Werten erzwungen, die in einer anderen Tabelle der Primärschlüssel sind. Werte, die es in der zweiten Tabelle nicht gibt, werden abgelehnt.
Check Constraint
Der Wert in einer Spalte mit einer Prüfbeschränkung kann nur eingegeben werden, wenn die T-SQL Prüfbeschränkung als wahr ausgewertet wird.
Default Constraint
Mit dieser Art der Constraints werden Ersatzwerte vorgegeben, die automatisch eingefügt werden, wenn in einem INSERT-Statement ein NULL-Wert für die betroffene Spalte übergeben wird.

Warum sollte ich Constraints einsetzen?

Es gibt keine zuverlässigere Möglichkeit als die Nutzung von Constraints, um die Inhalte seiner Datenbank zu schützen. Merke: Was immer ein Nutzer eingeben oder ändern kann, wird er früher oder später auch bewusst oder unbewusst machen. Nur wenn die Datenbank sicherstellt, das keine ungewollten Pflegeinhalte gespeichert werden, kann der Inhalt einer Datenbank zuverlässig positiv garantiert werden.

Die Einrichtung passender T-SQL Constraints ist eine einmalige Arbeit. Dieser Aufwand lohnt sich aber definitiv! Es ist erfahrungsgemäß um ein Vielfaches zeit- und kostenintensiver eine inhaltlich „verunreinigte“ Datenbank zu säubern – wenn es überhaupt möglich ist.

Da Constraints auf DB-Ebene wirken, greifen sie bei jeder Art der Datenmanipulation. Egal ob durch einen Sachbearbeiter über eine Applikations-GUI oder einen Entwickler mit T-SQL-Befehlen… die Beschränkungen sorgen für saubere Daten!

Unsere Spezialisten

Wir sind seit vielen Jahren Spezialisten für die gesamte Datenverarbeitung von der Speicherung, über die Analyse bis zum fertigen Bericht. Außerdem bauen wir seit fast zwei Jahrzehnten Datenbanken für Unternehmen verschiedenster Größen. Wenn Sie weitere Fragen kontaktieren Sie uns doch einfach.

Der Beitrag T-SQL Constraints erschien zuerst auf arelium - Wir holen mehr aus deinen Daten.

Data Vault kurz und knapp erklärt!

Thomas Sobizack — Fri, 26 Jul 2024 11:11:15 +0000

Wenn von Data Vault gesprochen wird, dann sprechen wir über einen Modellierungsansatz für den Aufbau eines Data Warehouses. Der Grundgedanke zu diesem Modell wurde bereits in den 1990er Jahren von Dan Linstedt entworfen. Dabei lag der Fokus auf Agilität, Skalierbarkeit und der Anpassungsfähigkeit des Modells.

In der heutigen Zeit müssen Unternehmen ihr Geschäftsmodel in immer kürzer werdenden Zyklen anpassen und sich ständig den sich ändernden Marktbedürfnissen oder auch regulatorischen Anforderungen anpassen. Die Verantwortlichen stehen deshalb ständig unter Druck, die häufig sehr komplexgestalteten, bestehenden Datenstrukturen anzupassen. Dies ist mit unter äußerst anstrengend und teuer.

Dafür bietet der Ansatz des Data Vault eine Lösungsmöglichkeit, indem es die Eigenschaften aus der dimensionalen (Sternschema) und normalisierten Modellierungswelt miteinander verbindet. Dadurch kann eine Beschleunigung bei der Befüllung des Warehouses erreicht werden. Der wesentliche Vorteil liegt jedoch darin, dass wir bei der Erweiterbarkeit wesentlich flexibler sind als bei den klassischen Methoden. Durch die andere Art der Modellierung müssen bei Änderungen, meistens Regel, keine bestehenden Tabellen angepasst werden. Es reicht einfach neue Tabellen z.B. zusätzliche Satelliten (s.u.) ergänzt werden.

Beim Data Vault handelt es sich nicht um einen Ersatz des erprobten Sternschema, sondern um eine Ergänzung, indem es zur Modellierung des Data Warehouses (zentrale Datenbank zur Integration und Historisierung von Daten) verwendet wird.

Was sind die Bausteine von Data Vault?

Hub:

Das eigentliche Kernobjekt der Geschäftslogik, indem eindeutige Business Keys gespeichert werden, die ein Geschäftsobjekt identifizieren (z. B. Kundennummer, Rechnungsnummer oder Artikelnummer).

Link:

Mit den Links werden die Geschäftsobjekte (Hubs) miteinander verbunden. So werden die Beziehung zwischen den Informationen abgebildet (z. B. von einer Rechnungsnummer zu einer Kundennummer).

Satelliten:

Hier werden zusätzliche Attribute und historische Informationen in Hubs und Links gespeichert.

Inzwischen gibt es zwei „Versionen“ von Data Vault

Mit Data-Vault 2.0 wird eine Verbesserung bezüglich der Agilität und der Flexibilität gegenüber dem klassischen Modell erreicht. Zusätzlich werden dabei auch Big-Data, NoSQL-Datenbanken und Cloud-Technologien mitberücksichtigt. Ohne hier allerdings tiefer in das Thema einzusteigen, sei gesagt, dass Data Vault sich vor allem für Data Warehouses eignet und weniger für Lakehouses.

Fazit

Data Vault bietet eine hohe Flexibilität bei Erweiterungen, eine vollständige Historisierung der Daten und erlaubt eine starke Parallelisierung der Datenladeprozesse. Es ist eine moderne Architektur für agiles Data Warehousing und ermöglicht es ihrem Unternehmen, die Daten effizient zu verwalten und zu nutzen.

Allerdings ist Data Vault nicht für alle Szenarien die beste Wahl. Neben dem initialen Aufwand bei der Erstellung des Models, erfordert Data Vault ein grundlegendes tiefes Verständnis des Ansatzes sowie der vorhandenen Geschäftslogik.

Wir, die arelium GmbH, verfügen über ein fundiertes Wissen in diesem Bereich. Sollten Sie Interesse an dem Thema Data Vault und deren Einsatzmöglichkeiten haben, dann nehmen Sie gerne mit uns Kontakt auf. Wir beraten sie gerne.

Der Beitrag Data Vault kurz und knapp erklärt! erschien zuerst auf arelium - Wir holen mehr aus deinen Daten.

SQL vs KQL

Thomas Sobizack — Wed, 10 Apr 2024 11:00:13 +0000

SQL vs KQL

In den folgenden Zeilen werde ich kurz erklären, was SQL ist, was KQL ist und wofür wir die Sprachen verwenden können. Abschließend werde ich kurz die Unterschiede zwischen den beiden Sprachen erläutern.

SQL

SQL ist eine Abkürzung für Structured Query Language. Dabei handelt es sich um eine Datenbanksprache.

Innerhalb der SQL-Sprache werden drei Formen von SQL-Befehlen unterschieden:

DML (Data Manipulation Language)
DDL (Date Definition Language)
DCL (Data Control Language)

DDL ermöglicht die Ausführung von Befehlen in SQL, die zur Definition von Datenstrukturen in relationalen Datenbanken benötigt werden. Mit den DML-Befehlen (Insert, Modify, Delete) können Änderungen an den Daten vorgenommen werden. Mit DCL werden Abfragen auf den vorhandenen Datenbeständen ausgeführt. Die Datenbanksprache SQL dient der Verwaltung strukturierter Daten in relationalen Datenbanken. Dabei wird, wie bereits erwähnt, ein relationales Datenmodell verwendet, bei dem die Daten in Tabellen mit Spalten und Zeilen organisiert sind. Die Sprache SQL ist in ihren Grundlagen standardisiert, jedoch verwenden verschiedene SQL-Engines unterschiedliche Dialekte, d.h. je nach Dialekt gibt es andere Befehle, Datentypen oder Funktionen. Auch Microsoft verwendet mit T-SQL einen eigenen Dialekt.

KQL

KQL (Kusto Query Language) ist eine leistungsfähige Sprache, mit der Daten untersucht und Muster erkannt werden können. Dadurch können Anomalien und Ausreißer identifiziert werden. KQL ist eine einfache, aber leistungsfähige Sprache zur Abfrage von strukturierten, halbstrukturierten und unstrukturierten Daten. Die Sprache ist leicht lesbar. KQL verwendet Schema-Entitäten, die denen von SQL ähnlich sind: Datenbanken, Tabellen und Spalten.

Die Kusto-Abfragesprache (KQL) wird heute in vielen Szenarien verwendet, um Daten zu analysieren und daraus Erkenntnisse zu gewinnen.
So kann KQL zur Überwachung von Protokollen, Metriken und Telemetriedaten verwendet werden. Ein weiteres Anwendungsgebiet von KQL ist der Sicherheitsbereich. Dort ermöglicht KQL die Untersuchung von Sicherheitsereignissen, wie z.B. die Erkennung von Angriffsmustern oder die Überwachung von Anmeldeaktivitäten.
Auch im Bereich Business Analytics wird KQL eingesetzt, um z.B. Verkaufsdaten, Kundenverhalten oder Marketingkampagnen zu untersuchen.

Vergleich von SQL und KQL

	SQL	KQL
Zweck	Konzipiert für die Verwaltung strukturierter Daten in relationalen Datenbanken.	Optimiert für die Abfrage großer Mengen strukturierter und halbstrukturierter Daten, einschließlich Protokollen und Telemetriedaten, in Echtzeitanalysenzenarien.
Datenmodell	Verwendung eines relationales Datenmodell, bei dem Daten in Tabellen mit Spalten und Zeilen organisiert sind.	Verwendet ein tabellarisches Datenmodell, dass auf Spalten und Zeilen basiert.
Lesbarkeit und Ausdrucksstärke	Es kann komplex werden und erfordert unter Umständen eine komplexe umständliche Verschachtelung von Abfragen.	Leicht und verständlich zu lesen.
Aggregationsfunktionen	Bietet Aggregationsfunktionen an, aber KQL ist speziell für Analysen und Aggregationen in großen Datensätzen optimiert.	Bietet eine umfassende Unterstützung für Aggregationen, Zeitreihenoperatoren und -funktionen.
Standardisierung	SQL ist in seinen Grundlagen standardisiert. Es gibt aber eine Vielzahl an Dialekten.	Ist spezifisch für den Azure Data Explorer und bietet eine einheitliche Abfragesprache.

Fazit

Sowohl SQL als auch KQL sind Abfragesprachen, die für die Verarbeitung und Analyse von Daten entwickelt wurden.
SQL wird hauptsächlich für relationale Datenbanken und strukturierte Daten verwendet. KQL ist für die Abfrage und Analyse großer, verteilter Daten in der Cloud optimiert.

Kontakt

Wenn Sie sich noch unsicher sind, welche Datenbank für Sie die richtige ist, kontaktieren Sie uns gerne. Unsere Experten freuen sich, Sie beraten zu dürfen.

Der Beitrag SQL vs KQL erschien zuerst auf arelium - Wir holen mehr aus deinen Daten.

ETL in Azure Synapse Analytics

Tobias Adler — Tue, 27 Feb 2024 08:52:44 +0000

In modernen Unternehmen fallen täglich große Datenmengen aus verschiedenen internen und externen Quellen an. Um auf Basis dieser Daten geschäftskritische Entscheidungen treffen zu können, müssen die Daten in ein einheitliches Format gebracht werden. Dieser Prozess wird auch als ETL-Prozess bezeichnet und gliedert sich in die folgenden drei Schritte. Extract (Extraktion der Rohdaten aus verschiedenen Quellen), Transform (Überführung der Rohdaten in ein einheitliches Format) und Load (zentrale Bereitstellung der Daten). In diesem Beitrag werde ich Schritt für Schritt erläutern, wie ein ETL in Azure Synapse Analytics implementiert werden kann.

Warum Daten in der Cloud und nicht Lokal speichern?

Warum immer mehr Unternehmen den Weg in die Cloud finden, zeigt eine Reihe von Vorteilen, die die Cloud bietet:

Skalierbarkeit: Die Cloud bietet die Möglichkeit, die Ressourcen an den eigenen Bedarf anzupassen, ohne Änderungen an der Infrastruktur vornehmen zu müssen.
Kosteneffizienz: Da die Ressourcen an den eigenen Bedarf angepasst werden können, müssen Unternehmen keine Überkapazitäten vorhalten, um eine überdurchschnittliche Auslastung zu bewältigen. Stattdessen können die Ressourcen in solchen Fällen dynamisch erhöht werden, so dass nur die tatsächlich benötigte Kapazität bezahlt werden muss.
Sicherheit: Microsoft hat robuste Sicherheitsmaßnahmen wie zum Beispiel VPNs implementiert, um die Daten während der Übertragung zu schützen. Darüber hinaus bietet die Azure-Cloud fortschrittliche Zugriffskontrollfunktionen, um sicherzustellen, dass nur autorisierte Benutzer auf die Daten zugreifen können.
Flexibilität: Durch die Speicherung der Daten in der Cloud können die Mitarbeiterinnen und Mitarbeiter von überall auf die Daten zugreifen, solange sie über eine Internetverbindung verfügen. Zudem lassen sich Cloud-Dienste nahtlos in bestehende Systeme integrieren. Dadurch können Unternehmen ihre bestehenden Investitionen nutzen und neue Technologien schnell einführen, ohne komplexe Integrationen oder Anpassungen vornehmen zu müssen.

ETL in Azure Synapse

Azure Synapse ist eine Cloud-basierte Datenanalyseplattform von Microsoft, die Datenverarbeitungs- und Analysedienste in einer einzigen Umgebung vereint. Sie ermöglicht es Unternehmen, große Mengen strukturierter und unstrukturierter Daten aus verschiedenen Quellen zu sammeln, zu speichern, zu verarbeiten und zu analysieren. In diesem Blogbeitrag werde ich den ETL-Prozess in Azure Synapse Analytics (Extract, Transform, Load) in Synapse anhand einer Azure SQL-Datenbank erläutern. In diesem Beispiel arbeite ich mit den Beispieldaten der Azure SQL Datenbank, die die Geschäftsdaten eines virtuellen Fahrradladens repräsentieren.

Um einen ETL-Prozess in Azure Synapse Analytics zu implementieren, müssen wir zunächst einen Dedicated SQL Pool einrichten. Der Dedicated SQL Pool (früher auch SQL Datawarehouse genannt) ist ein sogenanntes Massively Parallel Processing oder kurz MPP. Dabei handelt es sich um eine moderne Datenbankarchitektur, bei der eine große Anzahl von Prozessoren parallel arbeitet, um die Daten in kleinere Teile aufzuteilen und diese gleichzeitig zu verarbeiten. In diesem SQL-Pool werden wir später unsere Daten speichern.

Linked Service

Nun müssen wir in Synapse eine Verbindung zu unserer Azure Datenbank herstellen. Dazu klicken wir in der linken Menüleiste auf Manage und dann auf „Linked services„. Wenn wir dann auf „New“ klicken, öffnet sich ein Menü, in dem wir auswählen können, mit welcher externen Datenquelle wir uns verbinden möchten. Für unser Beispiel wählen wir „Azure SQL Database“.

Im nächsten Fenster können wir die Anmeldedaten für unsere SQL Datenbank angeben. Dazu muss die Azure Subscription der Datenbank angegeben werden, sowie der Servername und die gewünschte Art der Authentifizierung. Für dieses Beispiel habe ich die SQL Authentication gewählt, bei der man sich mit einem Benutzernamen und einem Passwort anmeldet. Nun könnt ihr unten rechts auf den Button „Test Connection“ klicken, um zu testen, ob die Verbindung erfolgreich hergestellt werden kann. Ist dies der Fall, könnt ihr auf den „Create Button“ klicken, um die Verbindung zu erstellen.

Auf die gleiche Weise können wir nun eine Verbindung zu unserem soeben erstellten SQL-Pool herstellen. Dazu erstellen wir wieder einen neuen Linked Service, wählen aber diesmal „Azure Synapse Analytics“ aus der Liste der möglichen Verbindungen aus. Unter „Azure subscription“ wählen wir wieder unsere Subscription und unter „Server name“ unseren Synapse Workspace aus, in den wir die Daten schreiben wollen. Bei „SQL Pool“ sollte automatisch unser gerade angelegter Dedicated SQL Pool erscheinen. Unter „Authentication Type“ wählen wir nun die Option „System Assigned Managed Identity„. Dabei handelt es sich um einen Mechanismus in Microsoft Azure, mit dem Ressourcen innerhalb eines Azure Service eine Identität erhalten können. Diese Identität kann verwendet werden, um sicher auf andere Azure Ressourcen zuzugreifen, ohne Anmeldeinformationen wie Benutzername und Passwort einbinden zu müssen.

Copy Data Task

Nun können wir wieder mit dem „Test connection Button“ testen, ob die Verbindung erfolgreich war. Ist dies der Fall, können wir wieder auf Create klicken, um den Linked Service zu erstellen. Nachdem der Linked Service erstellt wurde, kehren wir zum Ausgangsbildschirm zurück und können im linken Menü den Punkt „Integrate“ und dann das Plus-Symbol auswählen, um eine neue „Copy Data Task“ zu erstellen.

Im folgenden Assistenten können wir im zweiten Menüpunkt die Quelle angeben, aus der die Daten kopiert werden sollen. Dazu geben wir unter „Source type“ wieder „Azure SQL Database“ an und wählen unter „Connection“ unseren zuvor erstellten „Linked service“ aus. Wenn die Verbindung zur Datenbank erfolgreich war, werden nun im unteren Fenster alle Tabellen der Datenbank aufgelistet. Hier wähle ich nun alle Tabellen aus, die ich aus der Datenbank in Synapse importieren möchte. Auf der nächsten Seite kann nun unser zuvor erstellter Azure Synapse Linked Service als Ziel für unsere Daten ausgewählt werden.

Quell- und Zieltabellen mappen

Unter dem Punkt Dataset können nun die Tabellen ausgewählt werden, in die die Daten geschrieben werden sollen. Standardmäßig legt Synapse hier automatisch Tabellen im Ziel an, die genau so heißen wie in der Datenquelle und die gleichen Spaltentypen haben. Unter dem Punkt „Konfiguration“ können nun die einzelnen Spalten aufeinander abgebildet werden. Auch hier legt Synapse automatisch die gleichen Spalten wie in der Quelltabelle an und mappt die passenden Spalten aufeinander. Wichtig ist hier, dass wir die Option „Type conversion“ deaktivieren. Nachdem wir dies getan haben, können wir mit dem „Next Button“ zum „Settings“-Bildschirm gelangen.

Auf diesem Bildschirm kann unter anderem die Kopiermethode ausgewählt werden, mit der die Daten in die Quelle kopiert werden sollen. Mit der Option „Data consistency verification“ werden nach dem Import der Daten zusätzliche Überprüfungsfunktionen angewendet, um sicherzustellen, dass alle Daten erfolgreich kopiert wurden. Unter anderem werden die Dateigrößen und die Anzahl der Zeilen in Quelle und Ziel verglichen. Da wir jedoch als Kopiermethode „Copy command“ gewählt haben, können wir die Option „Data consistency verification“ nicht aktivieren. Unter „Logging settings“ können die Einstellungen für die Protokollierung während des Kopiervorgangs vorgenommen werden. Mit der Option „Storage connection name“ können wir den Linked Service angeben, der die Verbindung zum Storage speichert, in dem die Logdateien gespeichert werden. Wenn ich auf „New“ klicke, öffnet sich ein Fenster, in dem ich die Verbindung zum Storage erstellen kann.

Azure Blob Storage

In diesem Fenster wird die Verbindung zu einem Azure Blob Storage definiert. Dazu wähle ich wieder meine Azure Subscription und einen Standard Storage Account meiner Subscription aus. Anschließend teste ich die Verbindung erneut und klicke auf „Create“.

Anschließend aktiviere ich noch die Option „Enable staging“. Dies ist der Storage account in dem die Staging Tabellen gespeichert werden und bei der Option „Storage connection name“ kann der Linked Service für den „Staging Storage“ angegeben werden. Die Staging Area ist ein temporärer Speicherbereich, in dem Daten vorübergehend zwischengespeichert werden, um sie zu transformieren oder zu überprüfen, bevor sie in die endgültige Datenbank geschrieben werden. Für das Staging wähle ich den gleichen Linked Service wie für die Speicherung der Logfiles. Wie oben beschrieben, wähle ich als Kopiermethode „Copy command“. Danach wähle ich „Next“ und komme zum „Review and finish“ Screen, wo wir unsere Einstellungen noch einmal überprüfen können. Danach können wir unser „Copy Data Tool“ starten. Auf dem nächsten Bildschirm können wir sehen, welche Schritte des Deployments gerade ausgeführt werden und ob sie erfolgreich waren.

Wenn alle Schritte erfolgreich waren, haben wir unsere Pipeline erstellt, mit der wir Daten von einem Azure SQL Server in unseren Synapse Studio Workspace schreiben können. Der nächste Schritt wäre nun, einen Trigger für die Pipeline zu erstellen. Ein Trigger kann eine Pipeline automatisch starten. Zum Beispiel könnten wir für unsere neue Pipeline einen Trigger einrichten, der die Pipeline automatisch einmal am Tag durchlaufen lässt. Und mit dieser Pipeline können wir einen automatischen ETL-Prozess in Azure Synapse Analytics abbilden.

ETL oder ELT?

ETL (Extract, Transform, Load) und ELT (Extract, Load, Transform) sind zwei unterschiedliche Ansätze zur Datenintegration, die in Datenintegrationsprojekten verwendet werden. Der ETL-Transformationsprozess ermöglicht es Unternehmen, Daten zu bereinigen, zu harmonisieren und zu verbessern, um sie für die Verwendung in Data Warehouses oder anderen Zielspeichermedien vorzubereiten. Dazu gehört auch das Entfernen von Dubletten, so dass überflüssige Daten gar nicht erst in den Zielspeicher geladen werden müssen.

Beim ELT hingegen werden die Rohdaten in den Zielspeicher geladen, was das sogenannte Massively Parallel Processing oder kurz MPP ermöglicht. Dabei handelt es sich um eine moderne Architektur, bei der eine große Anzahl von Prozessoren parallel arbeitet. Dadurch werden die Daten in kleinere Teile aufgeteilt und können so gleichzeitig verarbeitet werden. Ein weiterer Vorteil von ELT ist die Flexibilität bei der Datentransformation. Da die Daten direkt in das Zielspeichermedium geladen werden, können Transformationen und Datenverarbeitungsschritte direkt auf die geladenen Daten angewendet werden. Dies ermöglicht es Unternehmen, komplexe Analysen und Berichte direkt auf den Rohdaten durchzuführen, ohne dass separate Transformationsschritte erforderlich sind.

Insgesamt bieten sowohl der ETL- als auch der ELT-Ansatz Vorteile für Datenintegrationsprojekte. Die Wahl zwischen beiden hängt von den spezifischen Anforderungen, der Arbeitslast und den Zielen eines Unternehmens ab. ETL bietet die Möglichkeit, Daten vor dem Laden in das Zielspeichermedium zu transformieren und zu bereinigen. ELT hingegen ermöglicht das direkte Laden von Daten, gefolgt von flexiblen Transformationen auf den Rohdaten. Letztendlich ist es wichtig, den Anwendungsfall sorgfältig zu prüfen, um die beste Lösung für die jeweiligen Anforderungen auszuwählen.

Der Beitrag ETL in Azure Synapse Analytics erschien zuerst auf arelium - Wir holen mehr aus deinen Daten.

Wie Microsoft die Sprache „T-SQL“ weiterentwickelt

Torsten Ahlemeyer — Thu, 01 Feb 2024 10:04:34 +0000

Neue Befehle kommen hinzu, andere fallen weg…

Eine natürliche Sprache wie Deutsch unterliegt ständigem Wandel. Aktuell stehen fast 150.000 Stichworte im Duden. Pro Jahr kommen ca. 3000 neue Begriffe hinzu, 300 andere werden gestrichen. So fanden in den letzten Jahren bspw. Ausdrücke wie „Insektensterben“, „Klimakrise“, „aufploppen“, „Lifehack“, „Enkeltag“, „Faktenfinder“, „Uploadfilter“ oder „Wiesn“ Eingang in das offizielle Rechtschreibwörterbuch. Lebende Sprachen passen sich so an veränderte Gegebenheiten und neue Entwicklungen an. Aber auch Vereinfachungen finden immer wieder den Weg in den Standard.

Ähnlich halten es die Datenbankenhersteller mit dem Umfang der eingesetzten Abfrage- und Programmiersprache. Microsoft als Hersteller des SQL Servers beobachtet sehr genau Foren, führt Gespräche mit Entwicklern auf Konferenzen weltweit und wertet das Feedback aus der eigenen Erwachsenenbildung aus. So entwickelt sich ein Gefühl, welche Funktionalitäten gewünscht sind aber momentan noch fehlen oder welche Befehle in der aktuellen Version zu kompliziert sind. Aus dieser Grundlage heraus bildetet Microsoft dann die Neuerung in T-SQL.

Euer Wunsch ist unser Befehl

In den SQL Server 2022 haben so einige neue Befehle sehr zur Freude der Entwicklergemeinde Einzug erhalten. Im Gegenzug wurden einige wenige Ausdrücke als „auslaufend“ markiert. Sie werden in zukünftigen Versionen nicht mehr unterstützt. Eine genaue Auflistung findet man auf den Hilfe- und Lernseiten des Unternehmens. In diesem Blogpost soll es aber um die neuen Möglichkeiten gehen. Ich habe mir zwei frische Befehle ausgesucht, um an ihnen beispielhaft zu zeigen, wie einfach nun Auswertungen werden, die vorher umständlich nachprogrammiert werden mussten.

Die Vorteile der neuen Befehle besteht allerdings nicht nur an der einfacheren Implementierung und der besseren Wartbarkeit von Quellcode, sondern oftmals wirken sie sich auch äußerst positiv auf das Laufzeitverhalten aus. Die Spezialisten von Microsoft haben hier nämlich die Möglichkeit der Optimierung (bspw. Parallelverarbeitung, Nutzung von Berechnungshardware, …) voll ausgenutzt und die Lösung ausführlich getestet. Bietet der Hersteller derartige Verbesserungen an, lohnt es sich sogar oft bestehenden Code nachträglich anzupassen. Auf jeden Fall sollte man aber zukünftig von diesen Optimierungen Gebrauch machen.

Daten aus dem Nichts generieren

Oft kommen Entwickler in die Bedrängnis eine spezielle Liste von Werten zur Verfügung haben zu müssen. So sind bspw. alle Daten eines Geschäftsjahres in einer Tabelle sinnvoll, um darauf joinen und filtern zu können. Doch wie generiert man eine solche Datumstabelle? Bisher war diese Arbeit händisch zu programmieren – Lösungen bspw. zur Ablage einer Tabelle mit fortlaufend nummerierten Zahlwerten funktionierten analog. Ich selbst habe jahrelang die schnelle rekursive Variante bevorzugt:

Beispielcode zur Erzeugung einer Jahrestabelle mit Hilfe einer Rekursion

Microsoft hat erkannt, dass hier jeder Entwickler sein eigenes Süppchen kocht. Von einer unzähligen Sammlung INSERTS über diverse Schleifenkonstruktionen findet man in einschlägigen Foren viele Lösungen. Nun hat der Hersteller hier nachgebessert und die Generierung derartiger Folgen vereinheitlicht und deutlich vereinfacht:

Der Befehl GENERATE_SERIES ist nicht nur für nummerische Werte hilfreich

Eine Frage der Größe

Auch mit den massenhaften Varianten der Größenvergleiche beschäftigt sich Microsoft mit Neuerung in T-SQL. Hier findet man bisher verschachtelte IF-Statements oder wüste WHERE-Blöcke mit aneinandergefügten Vergleichen. Da sich derartige Abfragen fachlich nicht direkt mit den Funktionen MIN() oder MAX() abbilden lassen (da diese nur Tabelleninhalte oder Inhalte von Tabellenwertvariablen vergleichen können), wurden die Funktionen GREATEST() und LEAST() geschaffen. Mit diesen kann man eine Auflistung von durch Komma getrennten Ausdrücken auswerten. Dabei darf es sich um bis zu 254 direkten Werte, Variablen oder Konstanten handeln. Möglich sind alle vergleichbaren Datentypen. Sogar Aggregatfunktionen und skalare Unterabfragen sind erlaubt.

Die Funktion GREATEST() erlaubt sogar unterschiedliche Datentypen als Vergleichswerte

Weitere Informationen finden sich in der Onlinedokumentation von Microsoft: https://learn.microsoft.com/de-de/sql/t-sql/functions/logical-functions-greatest-transact-sql?view=sql-server-ver16

Fazit

Um die Gunst der Nutzer zu erlangen und zu behalten, entwickeln die Hersteller ihrer Produkte stets weiter. Auch Microsoft beobachtet den Markt genau und optimiert hier bestehende Befehle und schafft neue Möglichkeiten, wo altbewährtes nicht ausreicht oder zu komplex in der Entwicklung ist. Es lohnt sich definitiv einen Blick in die Featureliste neuer Versionen zu werfen und sich wohlwollend zu überlegen seinen Quellcode anzupassen. Neuentwicklungen sollte man auf jeden Fall nach den aktuellen Standards vornehmen. Im Idealfall lernt man also nie aus… was sich mit guten Laufzeitverhalten und bequemer Programmierung und Wartung niederschlägt – wie schon diese zwei einfachen Beispiele zeigen. Die Neuerung in T-SQL sollten dabei immer im Auge behalten werden. Wir haben auch einen weiteren Artikel zu spannenden Themen in SQL.

Der Beitrag Wie Microsoft die Sprache „T-SQL“ weiterentwickelt erschien zuerst auf arelium - Wir holen mehr aus deinen Daten.

Fortgeschrittene Join-Typen in SQL

Dr. Oliver Lux — Fri, 05 Jan 2024 06:00:15 +0000

In einem vorherigen Beitrag hatten wir uns die grundlegenden Join-Typen in SQL angesehen. Doch es gibt noch weitaus mehr Möglichkeiten, SQL-Tabellen miteinander zu verknüpfen. Daher werfen wir hier einen Blick auf fortgeschrittene Join-Typen. Wir empfehlen Ihnen, zuerst den vorherigen Beitrag zu SQL-Joins zu lesen. Dort findet sich auch eine Beschreibung der Beispieldaten, die wir hier wieder aufgreifen.

Left/Right Anti Join

Beim Anti-Join möchte man alle Einträge aus der linken/rechten Tabellen anzeigen, die nicht in der jeweils anderen Tabelle enthalten sind. Die andere Tabelle wird also nur als Filter gebraucht.

Dies kann zum Beispiel hilfreich sein, um in der Artikeltabelle Ladenhüter zu identifizieren, die nicht verkauft wurden. Dafür nutzen wir folgende Abfrage:

SELECT ft.[PK_Transaktion], da.[Bezeichnung]
FROM [EinfacherHandel].[dbo].[FactTransaktionen] ft
RIGHT OUTER JOIN [dbo].[DimArtikel] da
ON ft.FK_Artikel = da.PK_Artikel
WHERE ft.FK_Artikel IS NULL

Der Unterschied zum RIGHT OUTER JOIN ist also nur die letzte Zeile. Durch die WHERE-Klausel werden nur Artikel angezeigt, die in der Faktentabelle nicht enthalten sind. In dem Fall handelt es sich nur um den Toaster:

Self Join

Der Self Join verknüpft eine Tabelle mit sich selbst. Dies wird oft gebraucht, wenn sich unterschiedliche Hierarchie-Stufen in einer Tabelle befinden. Ein beliebtes Beispiel ist hierbei eine Mitarbeiter-Tabelle, wobei für jeden Mitarbeiter in einer zusätzlichen Spalte die ID des Vorgesetzten angegeben wird. Verknüpft man jeweils den Primärschlüssel mit der ID des Vorgesetzten, kann man für jeden Mitarbeiter den Namen des Vorgesetzten anzeigen.

Wir wollen aber bei unserem Beispiel bleiben und einen Eindruck vermitteln, was mit dem Self Join noch möglich ist. Dazu stellen wir uns vor, dass unser Beispiel-Händler in einer fragwürdigen Rabatt-Aktion die Preise der Produkte aus der DimArtikel vertauschen will. Mit der folgenden Anweisung lässt sich jedem Artikel der Preis des jeweils vorherigen Artikels aus der Liste zuordnen:

SELECT da1.PK_Artikel, da1.Bezeichnung, da1.Preis [alter Preis], da2.Preis [neuer Preis]
FROM [dbo].[DimArtikel] da1
LEFT OUTER JOIN [dbo].[DimArtikel] da2
ON da1.PK_Artikel = da2.PK_Artikel + 1

Dem Fahrrad lässt sich kein neuer Preis zuordnen, da es der erste Artikel in der Tabelle ist. Außerdem werden die Kunden vermutlich wenig Verständnis haben, wenn ein Fußball plötzlich 699€ kostet. Will man die Zuordnungen besser steuern, kann man eine zusätzliche Spalte anlegen, in die wir die passende ID schreiben. Dazu haben wir eine neue Tabelle DimArtikelPreise angelegt mit der Spalte TauschID. Wir erstellen folgende Abfrage:

SELECT da1.PK_Artikel, da1.Bezeichnung, da1.Preis [alter Preis], da1.TauschID, da2.Preis [neuer Preis]
FROM [dbo].[DimArtikelPreise] da1
INNER JOIN [dbo].[DimArtikelPreise] da2
ON da1.TauschID = da2.PK_Artikel

Nun sehen wir, dass wir mithilfe der Spalte „TauschID“ angeben können, welcher Preis aus der Artikel-Tabelle dem jeweiligen Artikel neu zugeordnet werden soll. Dies ist das gleiche Prinzip, als wenn wir für Mitarbeiter ihre Vorgesetzten angeben. Statt der Spalte „TauschID“ hätten wir hier dann die IDs der Vorgesetzten, und statt „neuer Preis“ hätten wir die Namen.

Cross Join

Fortgeschrittene Join-Typen haben einige Besonderheiten und das gilt auch für den Cross-Join. Bei diesem wird nicht nach passenden Schlüsseln gesucht, sondern es wird für jeden Eintrag aus der linken Tabelle jeder Eintrag aus der rechten aufgeführt. Die Zeilenzahl der Ergebnis-Tabelle entspricht also dem Produkt der Zeilenzahlen der Einzeltabellen. Den Cross-Join verwendet man in der Praxis eher selten. Bei relationalen Datenbanken würde man damit redundante Ergebnisse erzeugen.

Dennoch gibt es Beispiele, wo der Cross Join von Nutzen ist. Bei unserem Beispiel könnten wir uns vorstellen, dass jeder Artikel in verschiedenen Farben erhältlich ist, für die wir eine neue Tabelle DimArtikelfarbe_Faktor angelegt haben:

In der dritten Spalte geben wir einen Faktor an, über den wir den Preis anpassen wollen. Nun führen wir folgenden Cross Join aus:

SELECT da.PK_Artikel, da.Bezeichnung, daf.Farbe, da.Preis * daf.Faktor [Preis]
FROM DimArtikel da
CROSS JOIN DimArtikelfarbe_Faktor daf
WHERE da. PK_Artikel NOT IN (3, 4, 7)

Da man jede Zeile mit jeder verknüpft, brauchen wir, im Gegensatz zu den anderen Join-Typen, keine ON-Klausel. Über eine WHERE-Klausel entfernen wir noch jene Artikel, für die die Farbauswahl wenig Sinn macht. Wir erhalten:

In der vierten Spalte sehen wir das Ergebnis der Multiplikation. Die Preise für die schwarzen Artikel sind die gleichen wie vorher, die grauen Artikel sind um 10% günstiger und dir roten um 20% teurer.

Die Erhöhung der Redundanz kann also durchaus gewollt sein, wenn wir eine detailliertere Ansicht wünschen. Auch der Cross-Join hat also seine Daseinsberechtigung, selbst in relationalen Datenbanken.

Fazit

In diesem Beitrag haben wir fortgeschrittene Join-Typen kennengelernt und damit einen kleinen Einblick erhalten, was T-SQL für eine Vielzahl an Möglichkeiten bietet, um mit Daten zu arbeiten. Neben dem grundsätzlichen Aufbau haben wir am Beispiel des Self Join auch gesehen, dass sich Join-Bedingungen individuell verändern lassen. Darüber hinaus gibt es auch Fälle, in denen man mehrere Join-Bedingungen braucht, z.B. wenn die Tabellen keine eindeutige Schlüsselspalte haben. Während für einfache Abfragen meist die grundlegenden SQL-Joins ausreichen, sind die fortgeschrittenen SQL-Joins für anspruchsvollere Analysen sowie zur Datenbank-Entwicklung ein sehr mächtiges Werkzeug, sowohl on-premise als auch mit Azure SQL.

Der Beitrag Fortgeschrittene Join-Typen in SQL erschien zuerst auf arelium - Wir holen mehr aus deinen Daten.

Data Architecture vs Data Governance

Tobias Adler — Tue, 29 Aug 2023 09:33:49 +0000

Die Unterschiede von Data Architecture und Data Governance

Sowohl Data Architecture als auch Data Governance sind in Unternehmen wesentliche Bestandteile einer effektiven Datenverwaltung. Beide Konzepte zielen darauf ab, die Verwendung von Daten zu optimieren und sicherzustellen, dass man die gesamten Daten als strategische Ressource nutzen kann. Data Architecture bezieht sich sich auf die technische Seite der Datenverwaltung. Data Governance bezieht sich währenddessen auf die strategischen, organisatorischen und rechtlichen Aspekte der Datenverwaltung. Beide sind jedoch eng miteinander verbunden und arbeiten Hand in Hand. So kann man sicherstellen, dass man alle Daten in einem Unternehmen effizient, verantwortungsbewusst und erfolgreich nutzen kann.

Data Architecture vs Data Governance

Was ist Data Architecture?

Data Architecture konzentriert sich auf die Strukturierung von Daten, um sicherzustellen, dass sie effizient gespeichert, verarbeitet und abgerufen werden können. Sie legt die Rahmenbedingungen für den Umgang mit Daten fest und bietet Richtlinien und Strukturen. Diese Richtlinien stellen sicher, dass die Daten von hoher Qualität, sind um für verschiedene Geschäftsprozesse und Analysen verwendbar zu sein. Die Bestandteile der Datenarchitektur ist die Datenmodellierung und die Datenintegration. Bei der Datenmodellierung werden Datenmodelle erstellt, welche die Struktur, Beziehung und Eigenschaften von Daten beschreiben. Bei der Datenintegration geht es um die Gestaltung von Prozessen und Technologien, um Daten aus verschiedenen Quellen zu sammeln, zu transformieren und in die vorgegebene Struktur zu integrieren. Dieser ETL-Prozess (Extract, Transform und Load) ist ein wesentlicher Bestandteil der Data Architecture.

Hier können Sie mehr dazu lesen: Data Architecture – arelium GmbH

Was ist Data Governance?

Während sich Datenarchitektur auf die Technische Seite der Datenverwaltung bezieht, konzentriert sich Date Governance auf die Organisation der Daten. Hierbei handelt es sich um eine Sammlung von Prozessen, Richtlinien und Verantwortlichkeiten, um sicherzustellen, dass Daten effektiv, verantwortungsbewusst und nachhaltig verwaltet sind. Ziel der Data Governance ist es, die Qualität, Verfügbarkeit, Sicherheit und Nutzbarkeit von Daten sicherzustellen, während gleichzeitig die Einhaltung von Gesetzen, Vorschriften und internen Standards gewährleistet wird. Ein Grundlegender Aspekt der Data Governance ist die Datenqualität. Dabei zielt Data Governance darauf ab, die Genauigkeit, Konsistenz, Vollständigkeit und Aktualität von Daten sicherzustellen. Dies gewährleistet, dass die Daten, auf die sich strategische und operative Entscheidungen und Analysen stützen, vertrauenswürdig und verlässlich sind.

Hier können Sie mehr dazu lesen: Data Governance – arelium GmbH

Data Architecture und Data Governance Merkmale

Obwohl Data Architecture und Data Governance sehr eng zusammenarbeiten, haben beide Bereiche ihre eigenen Aufgaben und Themengebiete die sie abdecken, um ein möglichst effektives Arbeiten mit den Daten zu gewährleisten. Im folgenden ist aufgelistet, welche Aufgaben unter Data Architecture und welche Aufgaben unter Data Governance fallen:

Data Architecture

Datenmodellierung: Entwurf und Erstellung von Datenmodellen, die die Struktur, Beziehungen und Eigenschaften der Daten beschreiben. Dies umfasst die Festlegung von Entitäten, Attributen, Schlüsseln und Beziehungen zwischen den Daten.

Datenbankdesign: Planung und Erstellung von Datenbanken, Indizes und anderen Elementen, um sicherzustellen, dass Daten effizient gespeichert und abgerufen werden können.

Datenintegration: Entwicklung von Strategien und Prozessen zur Integration von Daten aus verschiedenen Quellen. Dies kann das Entwerfen von ELT-Prozessen umfassen, um Daten zu extrahieren, zu transformieren und in einheitlichen Formaten zu laden.

Datenfluss: Definieren von Datenflüssen innerhalb einer Organisation, um sicherzustellen, dass Daten nahtlos zwischen verschiedenen Anwendungen, Systemen und Abteilungen fließen können.

Skalierbarkeit und Performance: Berücksichtigung von Faktoren wie Datenwachstum und Zugriffsmuster, um sicherzustellen, dass die Dateninfrastruktur die erforderliche Leistung erbringen kann.

Data Governance

Datenqualität: Data Governance zielt darauf ab, die Genauigkeit, Konsistenz, Vollständigkeit und Aktualität von Daten sicherzustellen. Dies gewährleistet, dass die Daten, auf die sich Entscheidungen und Analysen stützen, vertrauenswürdig sind.

Datensicherheit und Datenschutz: Data Governance legt Richtlinien und Maßnahmen fest, um sicherzustellen, dass Daten vor unbefugtem Zugriff und Verlust geschützt sind. Dies schließt den Schutz sensibler Informationen gemäß Datenschutzbestimmungen ein.

Datenzugriff und Berechtigungen: Hierbei handelt es sich um Regelungen, die sicherstellen, wer auf welche Daten zugreifen kann und welche Berechtigungen für verschiedene Benutzer oder Gruppen gelten.

Compliance und rechtliche Aspekte: Data Governance stellt sicher, dass die Nutzung von Daten im Einklang mit gesetzlichen Bestimmungen, regulatorischen Anforderungen und branchenspezifischen Vorschriften steht.

Stakeholder-Management: Die Einbindung von Interessengruppen aus verschiedenen Abteilungen und Ebenen der Organisation, um deren Anforderungen und Bedürfnisse in Bezug auf Daten zu berücksichtigen.

Zusammenfassung

Zusammenfassend lässt sich festhalten, dass Data Architecture und Data Governance zwei essentielle Säulen der modernen Datenverwaltung darstellen. Beides sind unterschiedliche Konzepte, die sich auf eng miteinander verknüpfte Aspekte konzentrieren. Data Architecture fokussiert sich auf die technische Gestaltung, Strukturierung und Verwaltung von Daten. Data Governance legt den Schwerpunkt währenddessen auf die strategische Planung der Daten. Dadurch wird sichergestellt, dass die Daten vertrauenswürdig, sicher und den Vorschriften entsprechend genutzt werden.

Data Architecture bildet das Fundament, auf dem Data Governance aufbaut. Eine gut gestaltete Datenarchitektur ermöglicht eine effiziente Datenverarbeitung, Integration und Nutzung. Data Governance hingegen sorgt dafür, dass diese Daten qualitativ hochwertig sind, den Datenschutzbestimmungen entsprechen und den Anforderungen der Organisation gerecht werden. Beide Konzepte ergänzen sich und sind gleichermaßen wichtig, um sicherzustellen, dass Daten als strategische Ressource genutzt werden und einen nachhaltigen Mehrwert für Unternehmen schaffen.

In der heutigen datengetriebenen Welt sind sowohl eine solide Datenarchitektur als auch eine effektive Data Governance von entscheidender Bedeutung, um Wettbewerbsvorteile zu erzielen, fundierte Entscheidungen zu treffen und das Vertrauen der Kunden und Stakeholder zu gewinnen. Indem Organisationen sowohl in die Strukturierung ihrer Dateninfrastruktur als auch in die strategische Verwaltung und Kontrolle ihrer Daten investieren, können sie eine solide Grundlage für Innovation und Wachstum schaffen.

Der Beitrag Data Architecture vs Data Governance erschien zuerst auf arelium - Wir holen mehr aus deinen Daten.