<< Back

Verbindung zu Datenbanken mit Tableau und Alteryx: generelle Übersicht

In der zehnten Woche erhielten die Analysts der Analytics Academy eine umfassende Übersicht zu verschiedenen Datenbanken.

Datenbanken beinhalten teilweise mehrere Terrabyte an Daten, was es uns unmöglich macht, diese Daten zu extraieren oder auf einen lokalen Rechner herunterzuladen. Daher ist es sinnvoll, eine direkte Verbindung zur Datenbank zu schaffen. Diese Verbindung spielt eine große Rolle, denn diese muss in Übereinstimmung mit den rechtlichen Rahmenbedindungen und Datenschutzgrundsätzen in Einklang gebracht werden. Die Verbindung zu einer Datenbank ermöglicht zusätzlich die Initiierung mehrerer Aufgaben, die von mehreren Nutzern gleichzeitig an den gleichen Datensatz abgefragt werden können.

SQL ist eine Datenbanksprache. Jede Datenbank hat seinen eigenen „SQL-Dialekt“, Tableau stellt diese für die bekanntesten Datenbanken die entsprechenden Treiber zur Verfügung. Wir haben geübt, SQL Abfragen an Datenbanken selbst zu formulieren. Dieser Mechanismus läuft im Hintergrund von Tableau ab, wenn eine direkte Verbindung zur Datenbank hergestellt wird und beispielsweise ein Filter auf die Daten angewendet wird.

Filtern in-DB, Tableau Desktop: SQL Abfrage an PostgreSQL Server, die im Hintergrund läuft.

Die Workflow-Verarbeitung kann länger dauern, wenn eine große Datenmenge in eine Datenbank und aus einer Datenbank gestreamt wird. Daher kann es sinnvoll sein, bestimmte Berechnungen und Transformationen der Daten direkt in der Datenbank durchzuführen, damit ein Workflow beschleunigt werden kann. Alteryx In-DB Tools erlauben es, einen ETL-Prozess direkt in der Datenbank durchzuführen und in dieser Weise auch die Daten vorbereiten. Das funktioniert auch über die Treiber und benötigt grundsätzlich keine bzw. sehr geringe SQL Kenntnisse der Nutzer.

Ein Beispiel des Alteryx In-DB Workflow

Das Connect In-DB Tools (1) ist immer das erste Werkzeug, das in den Workflow gesetzt wird. Hier stellen Sie eine Verbindung zur Datenbank und zur entsprechenden Tabelle her. Aufgrund der Art der datenbankinternen Verarbeitung wird der Verbindungsstatus nicht angezeigt. Deshalb sind die Browse In-DB Tools (2) extrem nützlich, da diese Ziwschenschritte anzeigen und eine Kontrolle der Daten ermöglichen. Die anderen In-DB Tools (Join, Summarize, Select) funktionieren wie Standart-Workflow Tools.

Manchmal ist es dennoch nötig, ein Teil der Daten aus der Datenbank herunterzuladen. Bei den Tools Data Stream-In und Data Stream-Out wird ein In-DB-Anker verwendet, um eine Verbindung zu In-DB-Tools herzustellen. Der Standard-Workflow-Anker wird dann verwendet, um eine Verbindung zu Standard-Workflow-Tools herzustellen. 

Ein Beispiel des Alteryx Hybrid Workflow

Ein weiteres nützliches Feature ist der datenbankinterne Cache. Dies bedeutet, dass eine Tabelle nicht erneut heruntergeladen werden muss, wenn ein Workflow erneut läuft. (Beispiel im Bild oben: Alles, was vor dem DB-Datastream Out Tool ohne Veränderung bleibt, wird nur 1x heruntergeladen [vor dem 1. roten Kasten]). Das macht den Alteryx-Workflow schneller und flexibler.

Ein detaillierte Beschreibung des Alteryx In-DB Tools finden Sie hier.

Dr. Anastasia Karpulevich

Analyst Analytics Academy