<< Back

Tableau 2020.2 – Data Modelling Part II – Neuerungen durch Data Modelling

Was ist das neue Datenmodell / Data Modelling in Tableau?

Im ersten Teil unseres Blogbeitrags zum Data Modelling in Tableau 2020.2 haben wir Ihnen gezeigt, wie Sie verschiedene Datenquellen bisher miteinander nutzen konnten. Das Data Modelling ändert die Art und Weise, wie Daten aus verschiedenen Datenquellen in Tableau zusammengeführt werden.

Die Idee ist, dass die ursprünglichen Tabellen beibehalten werden und nicht wie zuvor durch einen Join, eine neue, fixe Tabelle berechnet wird. Stattdessen passiert die Verknüpfung der Daten erst auf der Ebene des jeweiligen Arbeitsblattes. Wie genau das von statten geht, schauen wir uns im Folgenden an.

Logische und Physische Ebene

Ab Tableau Version 2020.2 wird in Bezug auf Datenquellen zwischen physischer und logischer Ebene unterschieden. Zur bisherigen physischen Ebene kommt jetzt eine logische Ebene hinzu.

In bisherigen Tableau Versionen bestand das Datenmodell nur aus einer physischen Ebene, in welcher physische Tabellen aus den ursprünglichen Datenquellen (Excel, Datenbanken usw.) über Joins und Unions miteinander verbunden werden konnten. Das Ergebnis daraus ist eine einzelne, flache Tabelle die als logische Tabelle bezeichnet wird.

Bisherige gespeicherte Datenquellen werden in eine logische Tabelle namens „Migrierte Daten“ überführt. Innerhalb dieser migrierten Daten können sich alle bisher möglichen Kombinationen von Joins und Unions verbergen. Oder auch nur eine einzelne Tabelle. Eine logische Tabelle lässt sich mit einem Rechtsklick öffnen.

Wenn es nur eine einzige logische Tabelle in einem Datenmodell gibt, ändert sich im Vergleich zu den Tableau Versionen vor 2020.2 nur das Layout das Datenfensters. Links Tableau 2020.1 und rechts Tableau 2020.2. Mehr zu diesen Unterschieden später im Text.

Ab Tableau 2020.2 können nun mehrere logische Tabellen in einer logischen Ebene zueinander in Beziehung gesetzt werden.

Erstellung eines Datenmodells auf der logischen Ebene

Zur Veranschaulichung verwenden wir wieder die beiden Tabellen Umsatz und Investitionen aus dem Status Quo Beitrag und fügen zusätzlich noch eine Mitarbeiter Tabelle hinzu.

Im vorherigen Blogpost haben wir gezeigt, dass es zu Schwierigkeiten kommen kann, wenn Tabellen mit unterschiedlichen Aggregationsebenen vorliegen. Zu den bisherigen drei Optionen Join auf Zeilenebene inklusive LOD, Aggregierter Join und Blending gibt es durch die Beziehungen zwischen logischen Tabellen eine vierte Option.

Ab Tableau Version 2020.2 ist das neue Data Modelling die Standardeinstellung. Wie bisher ziehen wir die physischen Tabellen aus der Datenquelle, mit denen wir arbeiten möchten, in den rechten, oberen Bereich. Jede physische Tabelle wird Teil einer logischen Tabelle und unsere drei logischen Tabellen werden verbunden über je eine Beziehung zwischen gemeinsamen Feldern. In unserem Beispiel geschieht das über die Felder Land und Stadt.

Die Striche zwischen den Tabellen definieren die Beziehung und werden scherzhaft auch als Nudel bezeichnet. Im unteren Bereich der Datenvorschau gibt es keine zusammengeführte Tabelle mehr, sondern eine Vorschau jeder einzelnen Tabelle. Die logischen Tabellen bleiben separat in ihrem ursprünglichen Detailgrad bestehen und werden nicht mehr starr verknüpft (verjoint), sondern in eine flexible Beziehung gesetzt. Die vollständige äußere Verknüpfung (Full Outer Join) ist der Standard, sodass keine Daten fälschlicherweise verloren gehen können. Je nach Filtereinstellung kann die Beziehung zu einem linken, rechten oder inneren Join werden, was eine erhöhte Flexibilität mit sich bringt. Es werden zudem auch nur die logischen Tabellen abgefragt, die tatsächlich benötigt werden.

Die Beziehungen werden von Tableau automatisch erkannt, wenn Felder gleich heißen, können aber auch manuell verändert werden.

In der Arbeitsblatt-Ansicht fällt auf, dass es nicht mehr die zwei getrennten Bereiche für Dimensionen und Kennzahlen gibt. Die Felder sind ihren ursprünglichen logischen Tabellen zugeordnet. In jedem Bereich werden nun Dimensionen und Kennzahlen durch eine Linie voneinander abgegrenzt. Das Feld „Anzahl der Datensätze“, das bisher immer automatisch von Tableau erstellt wurde, existiert in dieser Form nicht mehr. Stattdessen haben wir pro Tabelle ein Feld, das die jeweilige Anzahl von Datensätze innerhalb der Tabelle errechnet.

Behandlung von unterschiedlichen Detailgraden

Um zu sehen, wie Tableau nun die Daten zusammenführt, haben wir verschiedene Arbeitsblätter erstellt. Pro Arbeitsblatt benutzen wir eine andere Dimension und vergleichen mehrere Kennzahlen zu den Ergebnissen mit des alten Datenmodells.

Beim Blick auf das Feld Land zeigt sich, dass im alten Datenmodell Datensätze vervielfältigt werden, wodurch die Investitionen und Umsätze für Deutschland nicht mehr korrekt sind. Davon ist auch die Berechnung sum(Umsatz)/sum(Mitarbeiter) betroffen. Das neue Datenmodell liefert uns ohne jegliche weitere Bearbeitung korrekte Werte. Der Nutzer muss an dieser Stelle nicht mehr die unterschiedlichen Detailgrade der Ursprungstabellen im Blick behalten, um Analysen durchzuführen. Diese Arbeit übernimmt das neue Datenmodell von Tableau.

Auf Ebene der Stadt zeigt sich ein leicht anderes Bild:

Es gibt weiterhin die Vervielfältigungen im alten Modell, die durch das neue Modell ausgeglichen werden. Spannend zu sehen ist allerdings die Berechnung der Gesamtsumme für Investition im neuen Modell. Da es keine Daten zu Städten für Investitionen gibt, zeigt Tableau den Wert für Deutschland für jede deutsche Stadt an. Dies führt jedoch in der Gesamtsumme nicht zu einer Vervielfältigung. Die Gesamtsummen werden mit dem neuen Data Modelling immer korrekt berechnet.

Wenn wir das Arbeitsblatt Stadt als Filter benutzen, passen sich die Gesamtsummen im Blatt für Land korrekt an.

Berechnete Felder

Was passiert, wenn berechnete Felder erstellt werden? Wenn ein berechnetes Feld nur Bezug zu Feldern einer einzigen logischen Tabelle hat, wird es auch dort abgelegt. Zum Beispiel „1. Buchstabe Stadt“ oder „Umsatz +1“. Das Verhältnis von Umsatz pro Mitarbeiter benötigt Informationen aus zwei logischen Tabellen und taucht deshalb in einem separaten Bereich unterhalb der logischen Tabellen auf.

Spezifizierung des Join-Typs

Wir müssen nicht mehr bei Erstellung der Datenquelle definieren, ob wir einen linken, rechten oder inneren Join unserer Daten möchten. Dies kann pro Arbeitsblatt situationsspezifisch geschehen. Das geht mit wenigen Klicks, und zwar, indem Null-Werte ausgeschlossen werden.

Die Beziehung zwischen der Mitarbeiter- und Umsatz-Tabelle erfolgt über das Feld „Stadt“. Es gibt nur für deutsche Städte Datensätze, sodass bei den anderen Städten die Stadt Information aus der Mitarbeiter Tabelle „Null“ ist. Der Ausschluss dieser Null Werte verändert die Beziehung von einer vollständig äußeren Verknüpfung zu einem rechten Join (und in diesem Fall auch inneren Join, da es keine Null Werte in der Umsatztabelle gibt).

Zusätzliche Hinweise

Kleinere Unterschiede zwischen bisherigen Joins und den aktuellen Beziehungen können vorkommen. Zum Beispiel können Join-Berechnungen derzeit nicht zur Herstellung einer Beziehung verwendet werden. In einem solchen Fall können Sie weiterhin das physische Modell nutzen, welches funktioniert wie bisher.

Mit dem neuen Datenmodell ändert sich der komplette Unterbau einer Datenquelle in Tableau.  Obwohl Tableau sehr intensiv testet und versprochen hat, dass alle alten Datenquellen weiterhin funktionieren, kann es bei einer so großen Änderung zu Problemen kommen. Deshalb empfehlen wir den Einsatz von Tableau 2020.2.0 nicht für den produktiven Einsatz. Warten Sie auf das erste oder zweite Maintenance Release (2020.2.1 oder 2020.2.2) und testen Sie das Upgrade auf Tableau Server unbedingt zuerst mit einem Testsystem.

Fazit

Die alte, gewohnte Welt bleibt weiterhin bestehen, wenn nur eine logische Tabelle benutzt wird. Entsprechend erweitert das neue Datenmodell die bisherigen Möglichkeiten und vereinfacht die Nutzung, dennoch hat sich die Benutzeroberfläche verändert und Nutzer müssen sich erst einmal daran gewöhnen.

Es kann eine enorme Erleichterung sein, dass nun nicht mehr mehrere Datenquellen für verschiedene Aggregationsebenen oder komplexe LOD Berechnungen erstellt werden müssen. Das Data Modelling in Tableau Version 2020.2 nimmt uns mit der logischen Ebene viel Denk- und Konzeptionsarbeit ab, die wir sonst vor jedem Dashboarding-Projekt hätten leisten müssen. Doch mit großer Macht kommt auch große Verantwortung.

Gerade deswegen ist es jedoch umso wichtiger, dass jeder Tableau-Nutzer, der mit mehreren Tabellen arbeitet, genau versteht, wie diese zusammengehören und welche Beziehungen zwischen ihnen bestehen. Er oder sie muss in der Lage sein, den Konsumenten zu erklären, an welcher Stelle Vervielfältigungen stattfinden würden und warum Gesamtergebnisse auf den ersten Blick „falsch“ aussehen könnten. Andernfalls besteht die Gefahr, dass das Vertrauen der Anwender in die Softwarelösung verloren geht.

Martin Pohlers

Senior Business Intelligence Consultant