• pexels-markus-spiske-2004161.
        • Software Solutions

          Wir helfen Ihnen bei der Auswahl 
          der richtigen Lösungen, um die 
          Kraft Ihrer Daten freizusetzen.
        • Tableau
        • Das weltweit leistungsstärkste Tool zur Datenvisualisierung und -analyse.

        • Alteryx
        • Die führende Plattform in der
          dynamischen Welt der Analytic
          Process Automation.

        • Amazon Web Services (AWS)
        • Führend bei Cloud-First-Datenlösungen.

        • Snowflake
        • Für Cloud-basierte Data-Warehouse-Lösungen der nächsten Stufe.

        • Celonis
        • Process Mining aus Deutschland. Verschaffen Sie sich ein objektives und datengetriebenes Bild Ihrer internen Prozesse. Ganz im Sinne der optimierten  Wertschöpfung.

  • The Data School
  • News
  • Data Events
        • LockScreen.
        • Über Uns

          Lernen Sie The Information Lab kennen, unser Team, unsere Kunden und erfahren Sie, wie auch Sie ein Teil davon werden können.

          Mehr erfahren

        • Use Cases
        • Wir bieten seit Jahren Datenlösungen für Unternehmen. Und so wie hinter allen Daten eine Geschichte steckt, steckt auch hinter jedem unserer Projekte eine Geschichte.

        • Centre of Excellence
        • Geteiltes Wissen ist Macht – vernetzen Sie sich mit unserer wachsenden Zahl von Beratern und Kunden in ganz Europa. Zusammenarbeit ist der beste Weg zu lernen.

        • Internationales Setup
        • The Information Lab ist an 8 europäischen Standorten mit über 300 Consultants aktiv. Unsere Data School gibt es bereits in London, Sydney und Hamburg.

        • Kunden
        • Wir unterstützen seit 2014 namhafte Unternehmen in der DACH-Region und im deutschen Mittelstand.

        • Team
        • Lernen Sie die Menschen hinter The Information Lab kennen.

        • Karriere
        • Join our team! Wir wachsen stetig und suchen insbesondere im Consulting und unserer Data School stets tolle Kollegen und Kolleginnen.

Banner background image - news

Dashboard Week – Tag 3

Tag drei der Dashboard Week war wieder mit einer neuen Herausforderung gefüllt. Der Tag stand ganz unter dem Zeichen des Web-Scraping. Unsere Aufgabe war es, den Beschreibungstext aus dem Tagesschau-Archiven zu scrapen und daraus eine sinnvolle Visualisierung zu erstellen. Eigentlich relativ simple, oder? Leider nicht. Fünf Stunden, ein komplexer Workflow in Alteryx und das ausprobieren von zahlreichen RegEx-Ausdrücken später hatte ich endlich die Daten, die ich für meine Visualisierung brauchte.

Outer join minus intersection.

Zum Ende musste ich noch alle Stopwörter rausfiltern und schon hatte ich die von mir gewünschte Datenstruktur.
Mein Ziel war es die Top 10 „Schlagwörter“ aus dem Beschreibungstext der letzten fünf Jahre zu visualisieren. Allerdings waren die „Schlagwörter“ jedes Jahr nah zu identisch welches natürlich nicht das gewünschte Ziel der Visualisierung war. Daher überlegte ich mir noch eine weitere Datenquelle anzubinden.
Ich entschied mich dazu die Top 10 Suchbegriffe von Google mit den Top 10 „Schlagwörtern“ der Tagesschau pro Jahr zu vergleichen. Da die Tagesschau sich primär mit dem politischen Tagesgeschehen auseinandersetzt und Google ein sehr interessanter Indikator dafür ist, was die Gesellschaft im letzten Jahr beschäftigt hat entschied ich mich die Top 10 gegoogelten politische Schlagzeilen als Datenquelle heranzuziehen.

Alteryx full outer join minus intersection.
Die Top 10 politischer Schlagzeilen laut Google


Überraschenderweise gab es nur minimale Übereinstimmungen bei den Top 10 „Schlagwörtern“ der Tagesschau und den Top 10 politischen Schlagzeilen die gegoogelt wurden.
Die Anbindung einer zweiten (externen) Datenquelle ist stehst ein probates Mittel um einen Gesamtüberblick oder einen anderen Blickwinkel über ein Themengebiet zu erhalten.