(und wann man sie bewusst ignorieren sollte)

Eine Kundin ändert ihren Firmennamen oder ein Kollege aus dem Vertrieb heiratet und nimmt einen neuen Nachnamen an. Das sollten eigentlich triviale Anpassungen in der Datenbank sein, aber wenn diese schlecht strukturiert ist, kann eine Änderung schnell eine Kettenreaktion auslösen. Auf einmal müssen Tausende von Zeilen aktualisiert werden, weil die Information über den Nachnamen eines Mitarbeiters an vielen verschiedenen Stellen im System redundant gespeichert werden.

Und wird dabei auch nur ein Datensatz vergessen, ist die Datenbank inkonsistent. Folge sind Dashboards mit widersprüchlichen Informationen, Auswertungen werden unbrauchbar und das wichtigste Gut eines Datenteams, das Vertrauen der Nutzer:innen in die Daten, ist dahin.

Um solchen Herausforderungen vorzubeugen verbringen Data Engineers viel Zeit damit, belastbare Architekturen zu entwerfen: Ein zentrales Konzept hierfür lautet Normalisierung.

Dabei ist Normalisierung keine rein akademische Theorie aus dem Informatikstudium, sondern auch in der Praxis ist sie das fundamentale Werkzeug für konsistente Daten. In diesem Beitrag soll es darum gehen, wie Normalisierung funktioniert, was die drei (oder auch vier) Normalformen sind und wie sich diese Lehrbuchtheorie auf ein praktisches Beispiel auswirkt. Außerdem beleuchten wir die Perspektive eines Data Engineers und auch von Data Analysts auf dieses Thema.

Warum ist Normalisierung wichtig?

Das primäre Ziel der Normalisierung ist die Erhöhung der Datenkonsistenz durch den Ausschluss von Redundanzen.

• Redundanz bedeutet, dass identische Sachverhalte mehrfach im System gespeichert werden.

• Konsistenz bedeutet, dass unsere Daten an sich logisch, widerspruchsfrei und verlässlich sind.

Wo Redundanzen existieren, können Anomalien entstehen. Um dies zu veranschaulichen, skizzieren wir das Datenmodell eines B2B-Software-as-a-Service (SaaS) Unternehmens. Unser Startpunkt ist eine flache Tabelle, in der Kunden, Betreuer und gebuchte Software-Module vermischt sind:

Kunden_Nr	Firmenname	Account_Manager	Manager_Region	Modul_Nr	Modul_Name
1001	TechCorp GmbH	Müller	DACH	M-01	CRM Base
1001	TechCorp GmbH	Müller	DACH	M-02	Analytics Pro
1002	DataFlow AG	Schmidt	EMEA	M-01	CRM Base

Weil wir sämtliche Informationen in eine einzige Entität überführt haben, können bei Datenoperationen die folgenden drei Anomalien entstehen:

1. Update-Anomalie (Änderungsanomalie): Der Account Manager Herr Müller wechselt von der Region „DACH“ in die Region „EMEA“. Wir müssen diese Änderung in hunderten Zeilen durchführen.

2. Einfüge-Anomalie (Insert-Anomalie): Unser Unternehmen entwickelt das neue Modul „AI Predict“ (M-03). Da dieses jedoch noch von keinem Kunden gebucht wurde, können wir es nicht ohne unsaubere NULL-Werte aufnehmen.

3. Lösch-Anomalie (Delete-Anomalie): Die DataFlow AG kündigt. Wenn wir Zeile 1002 löschen, verlieren wir zeitgleich die Information, dass Frau Schmidt für EMEA zuständig ist.

Normalformen sind systematische Regelwerke, um Datenschemata so zu strukturieren, dass diese Anomalien methodisch ausgeschlossen werden.

Die theoretische Grundlage: Funktionale Abhängigkeiten

Die Voraussetzung für jede Normalisierung ist das Verständnis von funktionalen Abhängigkeiten.

Determinant → Dependant

Das bedeutet: Wenn der Wert A (Determinant) bekannt ist, lässt sich daraus eindeutig der Wert B (Dependant) ableiten.

Beispiel aus unserem SaaS-Kontext: * Die Kunden_Nr bestimmt eindeutig den Firmennamen (Kunden_Nr -> Firmenname).

• Der Firmenname bestimmt jedoch nicht eindeutig die Modul_Nr, da ein Kunde mehrere Module buchen kann.

Ein robustes Datenmodell stellt sicher, dass Attribute ausschließlich von ihrem jeweiligen Primärschlüssel (Primary Key, PK) abhängig sind.

Dein Weg zum sauberen Modell: Die 3 Normalformen

Je nach angewandter Normalform ist ein Schema mehr oder weniger stark gegen Inkonsistenzen geschützt.

1. Normalform (1NF): Atomarität

Die Regel: Der Wertebereich der Attribute muss atomar (nicht weiter teilbar) sein. Es dürfen keine Listen oder Mengen in einem Attribut gespeichert werden.
Die Praxis: Anstatt alle gebuchten Module eines Kunden als kommagetrennten Text in eine Spalte Gebuchte_Module (z.B. “CRM Base, Analytics Pro”) zu schreiben, erhält jede Buchung eine eigene Zeile (wie in unserer Ausgangstabelle). Um eine Zeile eindeutig zu identifizieren, benötigen wir hier einen zusammengesetzten Primärschlüssel aus Kunden_Nr und Modul_Nr,

2. Normalform (2NF): Keine partiellen Abhängigkeiten

Die Regel: Das Schema befindet sich in der 1NF und kein Nicht-Primärattribut darf von einer echten Teilmenge eines zusammengesetzten Primärschlüssels abhängen.
Die Problem: Wir trennen Kunden, Module und die Mapping-Tabelle „Kunden_Modul“.

Die Lösung: Wir separieren die Entitäten:

• Tabelle Kunde: Kunden_Nr(PK), Firmenname, Accountr_Manager,Manager_Region

• Tabelle Modul: Modul_Nr (PK), Modul_Name

• Tabelle Kunden_Modul (Mapping): Kunden_Nr (PK), Modul_Name (PK)

3. Normalform (3NF): Keine transitiven Abhängigkeiten

Die Regel: Das Schema befindet sich in der 2NF und es existieren keine funktionalen Abhängigkeiten der Nicht-Schlüsselattribute untereinander. Alles hängt direkt vom Primärschlüssel ab („the key, the whole key, and nothing but the key“).
Die Problem: In unserer neuen Kunden-Tabelle hängt die Manager_Region vom Accountr_Manager ab, und dieser wiederum von der Kunden_Nr. Dies nennt man eine transitive Abhängigkeit (Kunden_Nr -> Account_Manager). Betreut ein Manager 50 Kunden, wird seine Region 50 Mal redundant gespeichert.

Die Lösung: Eine weitere Aufteilung:

• Tabelle Kunde: Kunden_Nr (PK), Firmanamme,Mitarbeiter_ID

• Tabelle Mitarbeiter: Mitarbeiter_ID (PK), Name, Region

• Tabellen Modul & Kunden_Modul (bleiben wie in 2NF)

(Hinweis für Fortgeschrittene: Für komplexe Szenarien mit sich überlappenden Schlüsselkandidaten existiert noch die Boyce-Codd-Normalform (BCNF). Im Großteil der praktischen Anwendungen ist das Erreichen der 3NF jedoch vollkommen ausreichend für ein solides Modell).

Der Prozess: Theorie vs. Realität

Zur Erreichung der Normalformen kann man algorithmisch oder intuitiv vorgehen. Zu den formalen Methoden gehören der Zerlegungs- und Synthesealgorithmen, um aus einer abstrakten Menge von Attributen ein perfekt relationales Schema abzuleiten.

In der Praxis wird i.d.R. eine domänengetriebene Modellierung betrieben (oft via Entity-Relationship-Modellen). Durch das Verständnis der Geschäftslogik ist intuitiv klar, dass „Kunden“, „Mitarbeiter“ und „Software-Module“ eigenständige Entitäten bilden. Das Schema wird konzeptionell entworfen und anschließend mental gegen die Regeln der 3. Normalform validiert („Wenn der Account Manager umzieht, muss ich dann Kundendaten updaten? Ja? Dann benötigen wir eine eigene Mitarbeitertabelle“). Was sowieso schon gegen die 2NF verstoßen hätte.

Dieser Prozess beinhaltet jedoch Trade-offs: Zwar ist Speicherplatz heutzutage günstig, doch Rechenleistung (Compute für JOIN-Operationen) ist ein Kostenfaktor. Je stärker ein Modell normalisiert ist, desto mehr Relationen müssen bei Abfragen verknüpft werden.

Ein fließender Übergang: Normalisierung vs. Denormalisierung

Wenn wir jetzt ein solides, normalisiertes Datenmodell erstellt haben, warum sollten wir es jetzt denormalisieren? Was den Umgang mit den gespeicherten Daten angeht kann es in einem Data-Team durchaus unterschiedliche Interessen und Anwendungsfälle geben.

Zunächst aber müssen wir zwei Konzepte scharf voneinander trennen: OLTP (Transaktionsverarbeitung) und OLAP (Analytische Verarbeitung) beschreiben Nutzungsmuster – also wie Daten geschrieben und abgefragt werden. 3NF und Denormalisierung hingegen sind Design-Prinzipien – also wie wir die Daten strukturieren.

Indem wir das Design-Prinzip an das jeweilige Nutzungsmuster anpassen, lösen wir den scheinbaren Konflikt auf.

Die Rolle des Data Engineers: Integrität durch Normalisierung

Ein Data Engineer baut nicht nur transaktionale Systeme. In modernen Setups verantwortet er oft die gesamte Datenreise: Von den unstrukturierten Rohdaten, über ein bereinigtes Kern-Data-Warehouse, bis hin zu den für die Analyse optimierten Data Marts.

Im Core Data Warehouse wendet der Data Engineer oft das Design-Prinzip der 3NF an, selbst wenn das System insgesamt ein analytisches Backend ist. Warum? Weil beim Laden und Zusammenführen von Daten aus verschiedensten Quellsystemen die Datenintegrität an erster Stelle steht. Es ist ein Prozess, der stark von schreibenden und aktualisierenden Operationen geprägt ist.

Um dieses beinahe OLTP-artige Bedürfnis nach Verlässlichkeit zu stillen, ist Normalisierung hervorragend geeignet: Es bildet die „Single Source of Truth“. Gibt es ein Update bei einem Kunden, wird dieses an exakt einer Stelle vollzogen. Das Modell ist robust, flexibel erweiterbar und vor Anomalien geschützt.

Die Rolle des Data Analysts: Performance durch Denormalisierung

Von diesem sauberen Kern ausgehend werden die Daten dann für den Endkonsum transformiert. Ein Data Analyst kann natürlich direkt auf einem 3NF-Core-Data-Warehouse arbeiten und saubere SQL-Abfragen über sechs Tabellen schreiben.

Die entscheidende Frage ist vielmehr: Ist das effizient für das Nutzungsmuster?

Wenn für jedes einfache Sales-Dashboard komplexe JOIN-Kaskaden ausgeführt werden müssen, wird der Code unnötig kompliziert und fehleranfällig. Genau hier greift das OLAP-Nutzungsmuster: Es geht nicht um das sichere Schreiben einzelner Zeilen, sondern um das blitzschnelle Lesen und Aggregieren gigantischer Datenmengen. Moderne analytische Datenbanken (wie Snowflake, BigQuery oder Redshift) entfalten ihre maximale Performance, wenn sie extrem breite, spaltenbasierte Tabellen verarbeiten dürfen.

Daher wählt man für die Konsumschicht der Data Analysts bewusst das Design-Prinzip der Denormalisierung (z.B. durch einen hybriden Ansatz wie das Star-Schema oder maximale Denormalisierung in One-Big-Table). Hier wird die Redundanz (z.B. den Modulnamen direkt neben den Umsatz zu schreiben) gezielt in Kauf genommen, und die Tabelle(n) zielgenau modellieren zu können, für eine effiziente Analyse.

Zusamengefasst

Data Engineer

Fokus: Integrität. Im Core DWH wird oft 3NF genutzt, um eine „Single Source of Truth“ zu schaffen, die robust gegen Anomalien beim Laden der Daten ist.

Data Analyst

Fokus: Performance. In der Konsumschicht wird bewusst denormalisiert (z.B. Star-Schema), um JOIN-Kaskaden zu vermeiden und Abfragen in Snowflake oder BigQuery zu beschleunigen.

Fazit

Normalisierung ist kein Selbstzweck, sondern ein entscheidendes architektonisches Prinzip. Wer die Regeln der 1., 2. und 3. Normalform nicht tiefgreifend verstanden hat, wird unweigerlich Datenmodelle entwerfen, die unter der Last von wachsenden Datenmengen und Anomalien unwartbar werden.

Die wahre Kunst im modernen Data Engineering besteht jedoch nicht in der strikten Umsetzung von Theorien, sondern im Verständnis der Datenlebenszyklen: Man muss die Regeln beherrschen, um genau zu wissen, in welcher Architektur-Schicht (Operational vs. Analytical) man sie strategisch brechen muss, um skalierbare und nutzbare Systeme für alle Stakeholder zu schaffen.

UP TO DATA

UP TO DATA

Datenkonsistenz im Data Engineering: Warum Normalisierung entscheidend ist

(und wann man sie bewusst ignorieren sollte)

Warum ist Normalisierung wichtig?

Die theoretische Grundlage: Funktionale Abhängigkeiten