REGEX_EXTRACT() (Regular Expression Extract) ist die leistungsstärkste Textfunktion in Tableau, um einen bestimmten Teil eines Textes (Strings) zu extrahieren, der einem komplexen Muster folgt.
Sie ist das „chirurgische Skalpell“ der Textfunktionen. Während LEFT(), RIGHT() oder SPLIT() einfache Schnitte durchführen, ermöglicht REGEX_EXTRACT() das Finden und Extrahieren von Mustern, wie z. B. „die vier Ziffern, die nach dem Wort ‚ID:‘ kommen“ oder „alle Zeichen vor dem ‚@‘-Symbol“.
Um diese Funktion zu nutzen, müssen Sie Tableau ein „Muster“ (einen Regulären Ausdruck, kurz Regex) geben. Regex ist eine Mini-Programmiersprache zur Beschreibung von Textmustern.
Die wichtigsten Regex-Symbole:
\d = Jede Ziffer (0-9)
\w = Jeder Buchstabe oder jede Ziffer
\s = Jedes Leerzeichen (Whitespace)
. = Jedes beliebige Zeichen
+ = Eines oder mehrere der vorherigen Zeichen (z. B. \d+ = „eine oder mehrere Ziffern“)
= Null oder mehrere der vorherigen Zeichen
( ) = Eine „Capturing Group“ (Erfassungsgruppe)
Dies ist der wichtigste Punkt, den 99 % der Tableau-Anfänger bei Regex falsch machen.
REGEX_EXTRACT() gibt NICHT das gesamte Muster zurück, das es findet. Es gibt NUR den Teil zurück, den Sie in Klammern ( ) setzen (die sogenannte „Capturing Group“).
Beispiel:
Ihr Text: „Auftrags-ID: A-12345“ Ihr Ziel: Sie wollen nur A-12345 extrahieren.
FALSCHE Formel: REGEX_EXTRACT([Text], ‚Auftrags-ID: \w-\d+‘)
Ergebnis: NULL (oder ein Fehler). Warum? Sie haben Tableau nicht gesagt, welchen Teil des Musters Sie behalten wollen.
RICHTIGE Formel: REGEX_EXTRACT([Text], ‚Auftrags-ID: (\w-\d+)‘)
Ergebnis: „A-12345“. Indem Sie das Muster \w-\d+ in Klammern gesetzt haben, haben Sie Tableau angewiesen: „Finde das Ganze, aber gib mir nur das, was in der Klammer ist.“
Argument 1 (string): Das Textfeld, das Sie durchsuchen möchten (z. B. [Kundenkommentar]).
Argument 2 (‚pattern‘): Der Reguläre Ausdruck (das Muster) als String, der genau eine Erfassungsgruppe ( ) enthalten muss.
Argument 1 (string): Das Textfeld, das Sie durchsuchen möchten (z. B. [Kundenkommentar]).
Argument 2 (‚pattern‘): Der Reguläre Ausdruck (das Muster) als String, der genau eine Erfassungsgruppe ( ) enthalten muss.
Nehmen wir an, Sie haben unstrukturierte Produktdaten und möchten die Artikelnummer extrahieren.
Beispiel 1: Artikelnummer extrahieren
Ihr Text: [Produktname] enthält „T-Shirt (Größe M, Artikel: P90210)“
Erklärung:
Artikel: = Finde den Text „Artikel: “ (mit Leerzeichen).
( = Beginne die Erfassungsgruppe (das, was wir wollen).
\w\d+ = Finde einen Buchstaben (\w), gefolgt von einer oder mehreren Ziffern (\d+).
) = Beende die Erfassungsgruppe.
Ergebnis: „P90210“
Beispiel 2: Domain aus E-Mail extrahieren
Ihr Text: [E-Mail] enthält „max.mustermann@beispiel.de“
Erklärung:
@ = Finde das „@“-Zeichen.
( = Beginne die Erfassungsgruppe.
. = Jedes beliebige Zeichen.
* = Null oder mehrere davon.
) = Beende die Erfassungsgruppe.
Ergebnis: „beispiel.de“
Der Einsatz von REGEX_EXTRACT() ist immer dann notwendig, wenn SPLIT(), LEFT() und RIGHT() zu unpräzise sind:
• Unstrukturierte Daten: Extrahieren von Postleitzahlen, Telefonnummern oder IDs aus langen Textblöcken oder Kommentaren.
• Daten-Parsing: Zerlegen von Log-Dateien oder maschinengenerierten Texten.
• Komplexe Aufteilung: Daten basierend auf einem variablen Muster aufteilen, nicht nur einem festen Trennzeichen (z. B. alles zwischen dem zweiten Komma und dem letzten Punkt extrahieren).
• Datenbereinigung: Standardisieren von Daten, indem nur der relevante Teil extrahiert wird.
FazitREGEX_EXTRACT() ist zweifellos die Funktion mit der steilsten Lernkurve im Bereich Text-Operationen, aber sie ist auch die mächtigste. Sie ist das ultimative Werkzeug für die Text-Datenbereinigung, wenn Sie konsistente Muster in inkonsistenten Strings finden müssen. Der Schlüssel zum Erfolg ist immer die korrekte Verwendung der Erfassungsgruppe ( ). Sie haben Fragen zu den Möglichkeiten, die Tableau bietet oder ein anderes Anliegen rund um das Thema Datenanalyse? Oder suchen Sie zertifizierte Tableau-Experten für die Datenbereinigung und das Parsen unstrukturierter Daten in Deutschland, Österreich oder der Schweiz?. Wir helfen ihnen dabei gerne. |