Im heutigen Beitrag schlage ich einige Bücher und Kurse vor, die aus meiner Sicht sehr gut verschiedene Themen im Bereich Data Science erklären. Diese Ressourcen erlauben es einem Data Science im Selbststudium zu vertiefen und einen guten Überblick über die Disziplin zu bekommen. Ich habe all diese Bücher (und Online Kurse) selbst gelesen bzw. ausprobiert.

Vorneweg muss ich allerdings erwähnen, dass (um diese Ressourcen zu nutzen) grundlegende Kenntnisse im Bereich Statistik und Pythonprogrammierung vorausgesetzt werden. Ohne Kenntnisse der Statistik und Python wird es schwierig sein, die Übungen in den von mir genannten Bücher und Kursen nachzuvollziehen.

Auch generell spielt Pythonprogrammierung für Data Science eine große Rolle. Hier habe ich einen Weg beschrieben, wie man relativ schnell Python in seinen Basics erlernen kann.

Manche werden die Programmiersprache R als Alternative zu Python sehen. Dies ist ein Thema für eine ganz andere Diskussion. Falls Du jedoch mit Deep Learning arbeiten möchtest, ist Python ein Muss. Zudem arbeiten Data Scientists  inzwischen immer enger mit Software Engineers zusammen und dort ist es wichtig, skalierbare Pipelines zu erstellen, die an weitere Softwaresysteme andocken. Hier ist Python der Vorreiter. Software Engineers programmieren selten in R.

Für das Erlernen statistischer Konzepte empfehle ich den Udacity Data Analyst Nanodegree. Ich habe den ersten Teil dieses Nanodegrees absolviert, jedoch schnell gemerkt, dass ich bereits alle Inhalte aus meinem Studium kenne. Der Kurs ist jedoch ein sehr guter Einstieg in die Datenanalyse. Er vemittelt sehr schnell und verständlich die grundlegenden statistischen Begrifflichkeiten. Auf jeden Fall wird man danach diese Inhalte wiederholen müssen, damit sie „sitzen“. Als Grundlage reicht es aber auf jeden Fall.

Einführung in Data Science

Statistische Konzepte

Fortgeschrittene Konzepte im Bereich Statistik vermittelt das Buch „Practical Statistics for Data Scientists“ von Peter Bruce. Es ist leider das einzige Statistik Buch speziell für Data Scientists, das ich bislang auf dem Markt gefunden habe. Die Kenntnisse werden allerdings anhand R Programmierung vermittelt. Trotzdem lohnt sich dieses Buch als Nachschlagwerk für statistische Konzepte.

Statistische Konzepte und Python

Ein Buch, welches ich als Einführung in die Konzepte der Data Science mit Python auf jeden Fall empfehlen kann, ist das Python Data Science Handbook.

Das besondere an diesem Buch ist, dass der Autor Jake vanderPlas den vollständigen Inhalt des Buches auf seiner Webseite auch online gestellt hat, inklusive Jupyter Notebooks. Ich habe das Buch trotzdem zu Hause und habe es vollständig gelesen. Bis heute verwende ich es zum Nachschlagen von Konzepten und als Anleitung für bestimmte Modelle.

Data Science und Machine Learning projektbasiert lernen

Ein etwas fortgeschrittenes Buch ist das „Hands-On Machine Learning with Scikit-Learn and TensorFlow“ von Aurélien Géron. Der Ansatz von Géron ist sehr effektiv, denn er basiert auf der „learning-by-doing“ Methode.

Géron stellt die Machine Learning Bereiche anhand konkreter End-to-End Projekte dar. Vom Prinzip ähnelt dieses Buch etwas dem von vanderPlas, allerdings ist die Einführung in die Data Science hier knapp und es geht dann schnell relativ tief in die Materie hinein.

Für dieses Buch ist das Verständing von Python unabdingbar, denn Géron behandelt hier auch die Deep Learning Pythonbibliothek TensorFlow. Diesen Teil des Buches habe ich noch nicht gelesen, da ich bislang mit PyTorch an Deep Learning Modellen arbeite. Persönlich finde ich auch PyTorch zugänglicher als TensorFlow, aber dies ist auch ein Thema für einen weiteren Beitrag.

Zum Lernen von PyTorch sind die von Udacity angebotene Kurse: Deep Learning Nanodegree sowie Data Science Nanodegree aus meiner Sicht am Besten geeignet. Ich habe den Data Science Nanodegree absolviert. Allerdings sind diese Kurse nicht kostenlos. Ansonsten können auch recht umfangreiche Tutorials auf der Webseite von Pytorch: pytorch.org gefunden werden.

SQL Kenntnisse

Für Data Scientist sind auch mindestens rudimentäre Kenntnisse im Bereich SQL unabdingbar. Hier bietet Udacity einen kostenlosen Kurs, den ich auch ausprobiert habe.

Auch die Webseite w3resource.com bietet kostenfrei praktische Anleitungen zur SQL Anwendungen an. Auf der Webseite kann kann man das Datenbankabfragen üben und eigene Datenbanken erstellen.

Zusammenfassung: Selbststudium ist möglich

Das Selbststudium der Data Science ist auf jeden Fall möglich. Es geht aber nur schwer ohne Vorkenntnisse im Bereich Statistik und Programmieren. Diese können aber auch im Selbststudium erworben werden. Langfrsitig ist es aber wichtig, sich auf irgendeinen Bereich zu spezialisieren, denn Data Science ist ein weites Feld und es ist (in meinen Augen) langfristig nicht möglich alle Bereiche gut abzudecken.

Rabatt

Für die Leser dieses Bloges habe ich über ein Affiliate Programm einen 10% Rabatt auf manche Nanodegree Programme erstellt. Das Angebot gilt bis Dezember 2019.

Upskill your career and get 10% off on a Udacity Nanodegrees Program

Dieser Beitrag enthält Affiliate Links.

Bild von Аnаsтаzja Gepp auf Pixabay