Datenvisualisierung in Tableau: Einleitung mit Praxisbeispiel

In diesem Beitrag zeige ich, wie Daten in Tableau sehr schön und einfach visualisiert werden. Als Beispiel für die Visualisierung dienen mir dabei die Statistiken der Gesundheitsberichterstattung des Bundes.

Die Idee für diesen Beitrag kam mir aufgrund eines Artikels von Angus Deaton und Anne Case (Wirtschaftswissenschaftler). Deaton und Case entdeckten zuletzt, dass die Mortalitätsraten für weiße Amerikaner im Alter von 45-55 Jahren sehr schnell ansteigen. Der Beitrag von Deaton und Case („Rising morbidity and mortality in midlife among white non-Hispanic Americans in the 21st century„) hat für großes Aufsehen gesorgt und gilt inzwischen als erstes Anzeichen für die sinkende Lebenserwartung in dieser demografischen Gruppe in den USA.

Im heutigen Beitrag werde ich versuchen ähnliche Zahlen für Deutschland nachzuzeichnen und dabei die Anwendung der grundlegenden Visualiserungstools in Tableu zu zeigen.

Empirischer Sachverhalt – Daten

Deaton und Case zeigen, dass (im Gegensatz zu USA) die Mortalitätsraten (Sterbeziffer) für die relevanten Altersgruppen in Deutschland nicht steigen.

Allerdings, nach kurzem Einblick in die Daten, konnte ich einen ähnlichen Trend in Bezug auf die Drogentote in Deutschland erkennen. Deswegen ist das Ziel dieses Beitrags zu schauen, ob man nach der visuellen Darstellung der Daten einen steigenden Trend erkennen kann.

Tableau Public herunterladen

Tableau Software ist eine Visualisierungssoftware, die es dem User ermöglicht schöne Datenvisualiserungen zu erstellen. Die Software ist in ihrer vollen Version nicht kostenlos. Glücklicherweise gibt es aber eine kostenlose Anfangsversion Tableau Public, die man auch verwenden kann.

Tableu Public kann unter dem Link https://public.tableau.com/en-us/s/ herunterladen werden.

Wieso sollte man Tableau verwenden?

Die Datenvisualiserungen in Tableau sehen optisch für mich einfach am schönsten aus. Insbesondere, wenn man sie mit Visualiserungen in Python vergleicht.

Zudem ist Tableau (wenn man die Grundprinzipien beherrscht) relativ einfach zu bedienen. In meinen Augen definitiv einfacher als Excel.

Der einzige Punkt ist, dass die Daten entsprechend aufgearbeitet werden müssen, bevor sie in Tableau visualisiert werden können. Die Software erkennt zum Beispiel nicht jede beliebige Exceltabelle als solche.

Tableau bietet auf seiner Seite kostenlose Schulungen (https://www.tableau.com/de-de/learn/training).

Ich kann definitiv die kostenlose Schulung bei Udacity (https://eu.udacity.com/course/data-visualization-in-tableau–ud1006) empfehlen. Im Rahmen dieser Schulung gibt es auch vorbearbeitete Datensätze, die man später für eigene Zwecke verwenden kann. Sie bieten gutes Beispiel, wie die Exceltabellen für eine Visualiserung aufarbeitet werden sollen, damit Tableau sie als Tabellen erkennt.

Wie bereits gesagt, die Datenbearbeitung ist der schwierigste Teil der Visualisierung. Sobald die Daten die richtige Form haben, schiebt man sie einfach mit dem Cursor auf das Arbeistblatt und die Software empfiehlt dann eine entsprechende Visualiserung.

Die Version Tableau Public zwingt den User dazu sich ein Profil auf der öffentlichen Tableau Seite anzulegen. Dort werden dann auch die eigenen Visualisierungen gespeichert. Zum Beispiel meine bisherigen Visualisierungen sind unter dem Link https://public.tableau.com/profile/aleksandra.klofat#!/ einsehbar. Von dort können sie dann als Bilder oder andere Dateiformate heruntergeladen werden. Danach kann man sie auch wieder löschen.

Tableu Public bietet sich an um die Software zu testen. Für die Leute, die lieber kein öffentliches Profil anlegen möchten, gibt es auch weitere Möglichkeit eine kostenlose Testversion von Tableau herunterzuladen.

Datensuche

Die für meine Visualisierung relevanten Daten habe ich aus zwei Quellen bezogen. Zum einen vom Statistischen Bundesamt (Destatis). Zum anderen aus der Gesundheitsberichterstattung des Bundes. Die Datengewinnung gestaltete sich schwierig. Ich musste die beiden Behörden anschreiben, um an die Daten zu kommen.

Leider habe ich bislang nicht die Sterbeziffer der Drogentoten für die relvanten Jahre erhalten. Es gibt offenbar nur die absoluten Zahlen. Da ich hier kein wissenschaftliches Paper schreibe, werde ich deswegen (im Gegensatz zu Deaton und Case) hier weiter mit absoluten Zahlen arbeiten müssen.

Zur Erinnerung, Sterbeziffer bilden die Trends besser ab als die absoluten Zahlen, da sie die Toten in Relation zur Bevölkerungsgröße setzen (meistens zu 100.000 Einwohner). Wenn wir aber annehmen, dass die Bevölkerung in Deutschland relativ stabil geblieben ist, sind die absoluten Zahlen auch verwertbar.

Visualiserungen

Nachdem Tableu Public heruntergeladen worden ist, zeigt sich beim Öffnen der Software folgendes Bild:

Dies ist das Startmenü. Links werden die Optionen für die Datenformate angezeigt. Je nachdem, wie die Daten gespeichert sind (Excel, csv, oder anderes) sollte die entsprechende Option angeklickt werden.

Dies ist, wie gesagt, auch die größte Schwierigkeit beim Visualisieren mit Tableau. Hierzu empfehle ich einfach mit den Formaten herumzuspielen und zunächst entdecken, wie die Software eigentlich funktioniert. Als Beispiel kann man zunächst einen Beispieldatensatz herunterladen und überprüfen, wie dieser gestaltet ist. In meinem Fall habe ich dann die Datensätze aus dem Udacitykurs verwendet.

Konkret in meinem Fall musste ich zum Beispiel jegliche Formatierung von Destatis entfernen und die Daten als csv speichern, denn Tableau wollte sie in ihrer Destatis Form nicht entsprechend aufarbeiten.

So schaute zum Beispiel die csv und Excel Datei vom Destatis aus:

Um es im Tableau zu visualisieren, habe ich sie auf folgende Weise umgestaltet (ich habe u.a. die Tabelle in zwei Tabellen je nach Geschlecht geteilt):

Um diese Datei zu öffnen habe ich in Tableau „Textdatei“ angeklickt und nicht Excel, da die Datei als csv Datei gespeichert worden war. In Tableu sieht die Datei dann folgendermaßen aus:

Wichtig ist die Spalten richtig zu benennen, damit man den Überblick nicht verliert. Das bedeutete in diesem konkreten Fall die F1 und F2 Beschriftungen zu ändern. Dies macht man, indem man mit der Taste darauf klickt und dann „Umbenennen“ wählt.

Die erste Spalte links ist eigentlich ein Datum, was Tableau nicht erkannt hat. Das konnte ich auch mit dem Mausklick auf diese Spalte umgestalten und die Option „Datum“ wählen.

Generell ist es wichtig alle Daten in die richtigen Kategorien zu sortieren: quantitative (Kennzahlen) und qualitative (Dimensionen). Nur dann ist die korrekte Visualisierung möglich. Nicht immer erkennt die Software die Eigenschaft dieser Daten selbst.

Die qualitativen Daten werden in der obersten Spalte als ABC bezeichnet. Die quantitativen dagegen mit einem # versehen.

Im oberen Bild sieht man, dass Tableu bei bestimmten Zahlenspalten sie trotzdem als qualitativ („ABC“) eingeordent hat. Dies habe ich dann manuell korrigiert.

Nachdem die genannten Parameter geändert wurden, klickt man auf das Blatt 1.

Jetzt kann man die Kennzahlen und Dimensionen mittels Kursor in die Spalten und/oder Zeilen schieben und damit verschiedene Visualsierungen erstellen.

Ich habe dann als Beispiel folgende Visualisierung gemacht:

Tote durch psychotische Substanzen (Gesamt) (DE) Quelle: Destatis; Psychische und Verhaltensstörungen durch andere psychotische Substanzen

Der Trend in Toten durch Drogen in der relevanten Altersgruppe scheint tatsächlich steigend zu sein.

Drogentote in Deutschland – Vergleich zu Deaton/Case Studie

Da die Daten von Destatis nach meiner Einschätzung unvollständig waren, wandte ich mich an die Berichterstattung des Bundes, um eventuell bessere Angaben zu bekommen. Tatsächlich scheinen die Daten der Berichterstattung des Bundes vollständiger zu sein.

Auch in diesem Fall aber musste die Exceltabelle von mir bearbeitet werden. Die Drogentote wurden in dieser Tabelle in verschiedenen Spalten ausgewiesen je nach Substanz und oder Stichwort. Ich musste dann die entsprechenden Spalten zusammen addieren.

Als Ergebnis kam dann letzendlich folgende Visualisierung:

Berichterstattung des Bundes

Diese Zahlen beziehen sich nur auf die Altersgruppe 45 bis 50 Jahre alt; diese Zahlen habe ich per Mail erhalten. Sie unterstützen den steigenden Trend, der in Destatiszahlen präsent ist, nicht.

Vom Prinzip müsste ich die Berichterstattung des Bundes nochmal anschreiben und mir die Zahlen auch für die Altersgruppen 50-55 geben lassen. Schade, dass diese Zahlen online nicht einfach abrufbar sind. Es wäre auf jeden Fall emfehlenswert, diese Zahlen für weitere Analysen verfügbar zu machen.

Dieser Beitrag ist work in progress. Falls ich weitere Zahlen erhalte, werden ich diesen Beitrag entsprechend updaten.

 

 

 

Anmerkung: Ich habe für diesen Beitrag kein Geld erhalten.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.