• pexels-markus-spiske-2004161.
        • Software Solutions

          Wir helfen Ihnen bei der Auswahl 
          der richtigen Lösungen, um die 
          Kraft Ihrer Daten freizusetzen.
        • Tableau
        • Das weltweit leistungsstärkste Tool zur Datenvisualisierung und -analyse.

        • Alteryx
        • Die führende Plattform in der
          dynamischen Welt der Analytic
          Process Automation.

        • Amazon Web Services (AWS)
        • Führend bei Cloud-First-Datenlösungen.

        • Snowflake
        • Für Cloud-basierte Data-Warehouse-Lösungen der nächsten Stufe.

        • Celonis
        • Process Mining aus Deutschland. Verschaffen Sie sich ein objektives und datengetriebenes Bild Ihrer internen Prozesse. Ganz im Sinne der optimierten  Wertschöpfung.

  • The Data School
  • News
  • Data Events
        • LockScreen.
        • Über Uns

          Lernen Sie The Information Lab kennen, unser Team, unsere Kunden und erfahren Sie, wie auch Sie ein Teil davon werden können.

          Mehr erfahren

        • Use Cases
        • Wir bieten seit Jahren Datenlösungen für Unternehmen. Und so wie hinter allen Daten eine Geschichte steckt, steckt auch hinter jedem unserer Projekte eine Geschichte.

        • Centre of Excellence
        • Geteiltes Wissen ist Macht – vernetzen Sie sich mit unserer wachsenden Zahl von Beratern und Kunden in ganz Europa. Zusammenarbeit ist der beste Weg zu lernen.

        • Internationales Setup
        • The Information Lab ist an 8 europäischen Standorten mit über 300 Consultants aktiv. Unsere Data School gibt es bereits in London, Sydney und Hamburg.

        • Kunden
        • Wir unterstützen seit 2014 namhafte Unternehmen in der DACH-Region und im deutschen Mittelstand.

        • Team
        • Lernen Sie die Menschen hinter The Information Lab kennen.

        • Karriere
        • Join our team! Wir wachsen stetig und suchen insbesondere im Consulting und unserer Data School stets tolle Kollegen und Kolleginnen.

        • Frequently Asked Questions
        • Häufig gestellte Fragen über uns, unsere Produkte u.v.m.

Banner background image - news

VizWeek Tag 3: Spiegel Online

Am dritten Tag war das Ziel, Daten von Spiegel Online zu analysieren. Es handelte sich dabei um alle Nachrichten, die ab dem 01. Dezember 2019 veröffentlicht wurden bis zum 19. April 2020. Uns lag dabei der gesamte HTML-Code jeder Nachricht vor.

Die größte Herausforderung bestand bei diesem Datensatz für mich darin, die benötigten Daten aus dem HTML-Code herauszuziehen. Ich habe mich dazu entschieden, die Nachrichtentitel, die Nachrichten-Keywords, die Nachrichten-Kategorie und das Datum der Veröffentlichung zu extrahieren.

Sehr schnell wurde, bei den ersten Visualisierungen in Tableau, deutlich, dass Corona natürlich einen großen Stellenwert in den Daten hat. Außerdem ist mir aufgefallen, dass am 16. April ein Ausreißer zu sehen ist. Ungewöhnlich war außerdem, dass es sich dabei um einen Donnerstag handelt, wobei normalerweise die meisten Nachrichten am Freitag veröffentlicht werden.

content image

Ich wollte im Laufe des Tages herausfinden, was am 16. April 2020 passiert ist und welchen Stellenwert Corona-Nachrichten in diesem Zuge haben. Um ein Gefühl für die Corona-Nachrichten zu bekommen, habe mir die zeitliche Entwicklung der Corona-Nachrichten und der Nicht-Corona-Nachrichten angeschaut (im unteren Bild ist Corona in orange gekennzeichnet). Wir sehen einen starken Anstieg der Nachrichten ab Anfang März. Außerdem gab es am 16. April so viele Corona Nachrichten wie noch nie zuvor.

content image

Anschließend wollte ich mir anschauen, in welchen Kategorien am 16. April berichtet wurde, um möglicherweise anhand dessen etwas ableiten zu können. Dabei wird deutlich, dass Corona in fast allen Kategorien eine starke Bedeutung hat.

content image

Um etwas mehr ins Detail zu gehen, wollte ich mir anschauen, welche Keywords am 16. April verwendet wurden und ob diese in Verbindung mit Corona genannt wurden. Nicht überraschend ist, dass Corona auf Platz 1 der Keywords steht. Sehr interessant ist allerdings, wie oft die nachfolgenden Top-Keywords in Verbindung mit Corona genannt werden.

content image

Hier bietet sich ebenfalls noch eine weitere Darstellungsform an, um eine Verbindung zwischen Wörtern zu schaffen – die Wordcloud. Corona als Begriff habe ich hier nicht mehr berücksichtigt, da ich wissen wollte, welche Wörter mit Corona in Verbindung gebracht werden.

content image

Am Ende hat mich diese Darstellungsform zu meinem Ergebnis des Tages gebracht. Als ich über die Begriffe mit der Maus fuhr, stellte ich fest, dass es einige Keywords gab, die den gleichen Nachrichtentitel, aber zwei unterschiedliche Record-ID’s hatten. Dies lässt darauf schließen, dass die Daten vom 16. April doppelt vorhanden waren.

content image

An diesem Tag ist für mich das größte Learning, dass es unerlässlich ist, sich die Daten genau anzuschauen, um die Datenqualität beurteilen und am Ende die richtigen Schlüsse ziehen zu können.