Daten sind Informationseinheiten

Unsere Welt besteht aus Daten, denn Daten sind nichts anderes als Informationen oder noch spezifischer, Informationseinheiten.

Datentypen Definition

Datenformen

Daten können vielfältige Formen annehmen. Beispielsweise können sie als Text vorkommen aber auch als Video, Datenbanken, Tabellen, Zahlen, Audiodaten, Bilder und so weiter. Menschen hinterlassen Spuren, die als Daten ausgewertet werden können und uns auf diese Weise Informationen liefern.

Daten als mathematische Strukturen

Als mentale Vorbereitung, um in die Welt der Daten einzutauchen, lohnt sich das Buch von Max Tegmark „Unser mathematisches Universum: Auf der Suche nach dem Wesen der Wirklichkeit“ zu lesen. Max Tegmark ist Physiker am MIT und durch seine populärwissenschaftliche Arbeit sehr bekannt. In seinem Buch stellte er eine kontroverse These auf, indem er behautete unsere Welt sei nichts anderes als eine komplexe mathematische Struktur.

Kontrovers daran ist, dass er nicht behauptet, unsere Welt ließe sich durch die mathematische Formeln abbilden, sondern, dass unsere Welt eine mathematische Struktur eben sei:

„Die radikalste und kontroverseste Idee in meinem Buch ist, dass unser Universum eine mathematische Struktur ist und nur mathematische Eigenschaften hat.“ Tegmark für die Zeit

Mit der mathematischen „Brille“ lässt es sich besser verstehen, was Daten eigentlich sind.

Was mache ich mit Daten?

Das interessante an Daten sind die Informationen, die sie in aggregierter Form liefern können. Beispielsweise können wir anhand bestimmter Daten das individuelle Risiko für verschiedene Krankheiten berechnen. Facebook sammelt Daten, um dann Werbung gezielter auszuspielen. Sensoren sammeln Maschinendaten, um damit den optimalen Stromverbrauch und die Abnutzung zu berechnen.

Damit ein Computer Daten aggregieren und in brauchbare Informationen umwandeln kann, müssen die Daten erst einmal eine Form haben, die für den Computer interpretierbar ist. Das ist der schwierigere Part der Aufgabe.

Hierzu ist es hilfreich zu wissen, wie Daten generell klassifiziert werden. Im Folgenden stelle ich die gängige Aufteilung in Datentypen vor.

Datentypen

Um mit Daten effektiv zu arbeiten, unterscheiden wir zwei grundlegenden Datentypen: metrische Daten und  kategoriale Daten.

Wir werden die Unterschiede zwischen den spezifischen Datentypen anhand eines konkreten Beispiel kennenlernen.

Hierzu stellen wir uns einen Bahnhof an einem beliebigen Wochentag vor. Wir beobachten die Menschen, die an diesem Tag über den Bahnhof gehen.

Metrische Daten (quantitative data)

Damit sind die klassischen numerischen Daten gemeint. Metrischen, auch quantitative Daten genannt, lassen sich sofort mathematisch bearbeiten. Wenn wir quantitative Daten in einen Rechner einspeisen, können wir mit den Berechnungen sofort loslegen.

Andere Bezeichnungen, die mit metrischen Daten in Verbindung stehen, sind: kontinuierliche Variablen (vom Prinzip sind das metrische Daten) sowie numerische Daten.

In unserem Bahnhofsbeispiel sind Daten wie:

– die Zahl der Menschen, die am beliebigen Tag am Bahnhof gewesen sind,

– das jeweilige Alter / Gewicht / Einkommen der Menschen, die am beliebigen Tag am Bahnhof gewesen sind –

alles quantitative/metrische Daten.

Was haben diese Daten gemeinsam? Wir können beispielsweise das Durchschnittsalter der Menschen am Bahnhof ermitteln. Auch das durchschnittliche Einkommen und Gewicht könnten wir berechnen. Es sind also numerische Daten, mit denen wir direkt mathematische Berechnungen durchführen können.

Diskrete vs stetige quantitative Daten

Die metrischen Daten können weiter unterteilt werden in diskrete und stetige Kategorien. Hier ist es schwieriger den Unterschied zu erkennen.

Stetige quantitative Daten sind Daten, die in unendlich viele weitere Einheiten geteilt werden können. Das wäre in unserem Beispiel das Alter der Menschen am Bahnhof. Diese Variable kann weiter in die Monate, Tage oder Sekunden geteilt werden. Sie kann auch Nachkommastellen beinhalten. Auch wäre das Einkommen dieser Menschen eine stetige Variable.

Dagegen lassen sich diskrete quantitativen Daten nicht in andere Größen umwandeln. Hier wäre ein Beispiel die Zahl der Menschen, die am Montag am Bahnhof anwesend waren. Wir können daraus keine andere Zahl bilden, auch keine mit Nachkommastellen.

 

Kategorialen Daten (categorical data)

Ein zweiter großer Datentyp sind die kategorialen Daten. Sie beziehen sich auf eine beschränkte Menge an Optionen, mit denen sich auch keine mathematische Berechnung direkt durchführen lässt. Generell beziehen sich die kategorialen Daten auf Gruppen/Mengen mit denselben Eigenschaften.

Ein Beispiel wäre hier das Geschlecht der Bahnhofsbesucher. Wir könnten hier zwar einige Kategorien bennenen: männlich, weiblich, divers. Aus diesen Kategorien lässt sich jedoch der Durchschnitt nicht berechnen, denn er hätte hier keine Aussagekraft.

Auch das Wetter am gegebenen Tag ist eine kategoriale Variable. Es kann regnen, sonnig sein oder auch schneien. Es sind jedoch qualitative und nicht quantitativen Aussagen.

Nominale vs ordinale kategoriale Daten

Auch kategoriale Daten können weiter unterteilt werden in nominale und ordinale Daten.

Kategoriale ordinale Daten bewerten Daten auf einer Skala bzw. in einem Ranking. So könnte  beispielsweise das Wetter auf einer Skala von gut bis schlecht bewertet werden.

Kategoriale nominale Daten werden nicht als Ranking klassifiziert. Zu diesem Datentyp gehört beispielsweise die Angabe der Jahreszeiten: Frühling, Sommer, Herbst und Winter.

Kategoriale Datentypen sind problematischer im Umgang bei der Berechnung von statistischen Modellen und im Machine Learning Bereich. Oft müssen sie auf irgendeine Weise quantifiziert werden. Wenn die Datenmenge groß ist und viele Variablen beinhaltet, kann der Prozess viel Rechenpower in Anspruch nehmen und auch die Ergebnisse weniger lesbar machen.

Zusammenfassung

Daten sind letzendlich Informationseinheiten, die in verschiedensten Formen vorkomen können.

Wir unterteilen Daten in folgende Typen:

  • Quantitative/metrische Daten
    • stetige Daten
    • diskrete Daten
  • Kategoriale Daten
    • ordinale Daten
    • nominale Daten

Noch Fragen? Kontaktiere mich gerne per E-Mail oder frage in den Kommentaren.

 

Bild von Free-Photos auf Pixabay