• pexels-markus-spiske-2004161.
        • Software Solutions

          Wir helfen Ihnen bei der Auswahl 
          der richtigen Lösungen, um die 
          Kraft Ihrer Daten freizusetzen.
        • Tableau
        • Das weltweit leistungsstärkste Tool zur Datenvisualisierung und -analyse.

        • Alteryx
        • Die führende Plattform in der
          dynamischen Welt der Analytic
          Process Automation.

        • Amazon Web Services (AWS)
        • Führend bei Cloud-First-Datenlösungen.

        • Snowflake
        • Für Cloud-basierte Data-Warehouse-Lösungen der nächsten Stufe.

        • Celonis
        • Process Mining aus Deutschland. Verschaffen Sie sich ein objektives und datengetriebenes Bild Ihrer internen Prozesse. Ganz im Sinne der optimierten  Wertschöpfung.

  • The Data School
  • News
  • Data Events
        • LockScreen.
        • Über Uns

          Lernen Sie The Information Lab kennen, unser Team, unsere Kunden und erfahren Sie, wie auch Sie ein Teil davon werden können.

          Mehr erfahren

        • Use Cases
        • Wir bieten seit Jahren Datenlösungen für Unternehmen. Und so wie hinter allen Daten eine Geschichte steckt, steckt auch hinter jedem unserer Projekte eine Geschichte.

        • Centre of Excellence
        • Geteiltes Wissen ist Macht – vernetzen Sie sich mit unserer wachsenden Zahl von Beratern und Kunden in ganz Europa. Zusammenarbeit ist der beste Weg zu lernen.

        • Internationales Setup
        • The Information Lab ist an 8 europäischen Standorten mit über 300 Consultants aktiv. Unsere Data School gibt es bereits in London, Sydney und Hamburg.

        • Kunden
        • Wir unterstützen seit 2014 namhafte Unternehmen in der DACH-Region und im deutschen Mittelstand.

        • Team
        • Lernen Sie die Menschen hinter The Information Lab kennen.

        • Karriere
        • Join our team! Wir wachsen stetig und suchen insbesondere im Consulting und unserer Data School stets tolle Kollegen und Kolleginnen.

        • Frequently Asked Questions
        • Häufig gestellte Fragen über uns, unsere Produkte u.v.m.

Banner background image - news

ETL

Was ist das?

Die meisten Gegenstände um uns herum waren zu irgendeinem Zeitpunkt in ihrer Entstehung einmal in Daten organisiert. Beispielsweise die Artikelnummern unserer Stühle oder das Kissen, auf dem wir schlafen. Unsere Umwelt kann digital gespiegelt werden, von der Abrechnung der Küchenplatte oder Farbe, die als Eimer im Baumarkt verkauft wurde, bis hin zu den Bauelementen und abrechenbaren Stunden der Bauarbeiter.

content image

Daten als Repräsentation unserer Welt

Genauso wie menschliche Ressourcen organisiert werden müssen, sind auch digitale Ressourcen wichtige Bestandteile eines funktionierenden Unternehmens. Genau hier setzt ein ETL (Extract, Transform, Load) Tool ein. Solch eine Software extrahiert Daten von einer Quelle, transformiert die Daten je nach Anwendungsbedarf und lädt die Daten in eine präferierte Datenbank. Doch um ein besseres Verständnis dafür zu bekommen, wozu ETL Tools verwendet werden können, stelle ich kurz 3 Beispiele vor. 

Welche Anwendungsbereiche von ETL-Tools gibt es?

  1. Data Warehouse: Hierzu zählt die Sammlung unterschiedlicher Daten und Informationen eines Unternehmens innerhalb eines bestimmten Zeitraums (persönlicher Datenpool von Unternehmen, z.B. Transaktionsdaten im Verkaufsbereich).
  2. Data Migration: Die Wartung, Erneuerung und Anpassung von alten Systemen auf neue.
  3.  Data Integration: Die Integration von bestehenden Daten, die beispielsweise durch Zusammenschlüsse von Unternehmen (Mergers & Acquisitions) oder Datenbereitstellung durch Dritte bedingt wird, beispielsweise ein Marktforschungsinstitut, welches das Kundenverhalten bei einem neuen Produkt untersucht und davon Daten zur Verfügung stellt.

Diese Liste ist durchaus nicht vollständig und soll andeuten, dass es viele wichtige Anwendungsbereiche für ETL gibt. Doch was zeichnet ein gutes ETL Tool aus?

Auf dem Markt sind verschiedene Anbieter tätig, die mit unterschiedlichen Leistungen werben. Beispiele sind hierbei Alteryx, Informatica oder KNIME. Einerseits kostenlos, andererseits hochpreisig und, so möchte man meinen, auch effektiver. Bei der Entscheidung für eine Software gibt es mehrere Punkte zu beachten: 

  1. Datenkonnektivität – inwieweit lässt das Programm Verbindungen zu gewünschten Datenquellen zu? 
  2. Performance – Bewegen und Verändern von großen Datenmengen kann rechenintensiv sein. Die Performance des gewählten Tools muss sicherstellen, dass die Daten rechtzeitig zur Verfügung stehen.
  3. Transformation – Einen Großteil der Zeit verbringt man damit, die Daten vorzubereiten und wie das T in ETL besagt, zu transformieren. Daten zusammenführen, Ähnlichkeiten finden und Veränderungen durchführen sollte so leicht und übersichtlich gestaltet werden wie möglich. 
  4. Automatismus – Wenn die ETL-Strecke einmal aufgebaut ist, soll diese meist nicht mehr manuell, sondern automatisch ablaufen. Je nach gewünschtem Intervall möglicherweise monatlich, täglich oder stündlich.  
  5. Die Menschliche Komponente – Mit einem einfachen und komfortablen Tool können mehr Anwender in die Lage versetzt werden, Datenprozesse durchzuführen. Das Stichwort hier ist Self-Service Business Intelligence (abgekürzt BI).

Wenn all diese Punkte integriert, bedacht und ausgewertet wurden, fällt die Wahl eines Datenmanagement Programms möglicherweise leichter. 

Zusammengefasst:

Die Extraktion in ETL stellt den ersten Schritt des Datenverarbeitungsprozesses dar. In diesem Prozess werden Daten extrahiert, was so viel bedeutet wie herausgezogen. Dieses herausziehen hat den Hintergrund, dass wir die Daten für weitere Prozesse verwenden, alle Daten, die nicht benötigt werden, bleiben im Quellsystem und werden nicht auf eigene Server gezogen. 

Der zweite Schritt, die Transformation, dauert erfahrungsgemäß am Längsten. Hier werden beispielsweise die Quelldatentypen in die Spaltentypen der Zieltabellen umgewandelt. Zusätzlich könnte eine inhaltliche Überprüfung der Daten. Duplikate können herausgefiltert werden, die richtigen Datensätze zusammengeführt oder Berechnungen durchgeführt werden. 

Letztendlich werden die Daten in ein Zielsystem geladen.

-Maren Ried