Dieser Beitrag ist der Erste aus der Reihe: „Datenjobs“. Wir werden die Probleme bei der Anstellung von Datenexperten diskutieren und die wichtigsten Unterschiede zwischen den Anforderungsprofilen erfassen, vor allem aus der Unternehmensperspektive.

Vorneweg muss man sagen, dass es relativ große Überschneidungen zwischen den besprochenen Jobprofilen gibt. Data Analyst und Data Scientist sollten beispielsweise gute Kentnisse in Statistik haben. Auf der anderen Seite sollten sowohl Data Scientist als auch Data Engineer über gute Programmierkenntnisse verfügen.

Daten Analyst / Business Analyst / Data Analyst

Kurz und knapp gesagt, analysieren die „klassischen“ Datenanalysten verschiedene Daten. Dabei geht es den Datenanalysten vor allem um die explanatorische Datenanalyse:

Was sind die wichtigsten Umsatzquellen in meiner Firma?

Was sind die Trends in der Entwicklung meiner Umsätze? Mit welchem Produkt/Dienstleistung erziele ich die meisten Umsätze? 

Um diese Fragen zu beantworten führen Datenanalysten bzw. Business Analysten statistische Analysen durch, inklusive Datenvisualisierungen.

Business Analysten arbeiten häufig mit verschiedenen Software-Anwendungen. Sie extrahieren die Daten (mittels z.B. SQL), bearbeiten die vorhandenen Daten (mittels Excel, R, Stata, SAS) und präsentieren die gewonnenen Einblicke (Tableau). 

Dabei kann jeder der einzelnen Bereiche eine Wissenschaft für sich sein. Häufig werden Business Analysten oder Datenanalysten beispielsweise speziell für Datenvisualisierung gesucht. Hier müssen oft Kenntnisse in Web Entwicklung vorhanden sein oder/und Tableu.

Data Scientist

Ein Data Scientist kann vom Prinzip das Gleiche machen wie ein Datenanalyst.

Im Data Science Job liegt der Schwerpunkt aber auf der Entwicklung passender statistischer Modelle und Algorithmen.

Im Gegensatz zu Datenanalysten/in kann ein Data Scientist die Prozesse für die Datenanalyse automatisieren. Der Schwerpunkt liegt nicht auf der Datenanalyse und der Datenvisualisierung, sondern auf dem Bauen entsprehender statistischer Algorithmen und deren Automatisierung.

Ein Data Scientist arbeitet deswegen häufig in Programmiersprachen wie R oder Python.

Auch die Datenmengen, mit denen ein Data Scientist arbeiten kann, sind deutlich größer. Deswegen kann ein Data Scientist auch mit Tools, die auf Big Data fokussiert sind, umgehen, wie Spark, Hadoop etc. 

Auch im Bereich Bildbearbeitung/ Bilderkennung kann ein Data Scientist Anwendungen entwickeln.

Sowohl Data Science als auch Datenanalyse können mathematisch anspruchsvoll sein. Im Bereich Data Science kommen aber die Spezialisierung auf verschiedene Algorithmen, Automatisierung, Deep Learning und Big Data Ökosysteme noch dazu.

Data Engineer

Data Engineer ist ein Nischenjob, welcher einem Data Scientist und/oder Machine Learning Engineer zuarbeitet. Bitte nicht verwechseln mit Machine Learning Engineer (zu diesem Berufsprofil schreibe ich noch einen gesonderten Beitrag).

Tatsache ist: ca 80% des Jobs eines/er Datenwissenschaftlers/in besteht aus der Vorbereitung der Daten für ihre weitere Verwendung. Aus diesem Grund beschäftigen insbesondere größere Firmen auch eine/n Data Engineer/in.

Ein Data Engineer pflegt Daten innerhalb der Firma. Er bereitet die Daten so vor, dass man damit schnell arbeiten kann.

Der Fokus eines Data Engineer liegt auf dem Einpflegen der Daten in die Datenbanken und Software-Ökosysteme. In diesem Job sind Kentnisse im Bereich Big Data Anwendungen und Cloud Systeme auch ein Muss.

Aus diesen Gründen verfügen Data Engineers auch über gute Kenntnisse der gängigen Programmiersprachen. In kleineren Firmen erfüllen den Data Engineer Job häufig weiterhin Datenwissenschaftler. 

Machine Learning Engineer

In der letzten Zeit ist zu diesen drei Berufsgruppen eine vierte hinzugekommen und zwar die eines Machine Learning Engineers. Bestimmte Anforderungsprofile im Bereich Data Science führen dazu, dass bei Prozessen im Data Science Bereich immer mehr Programmierkenntnisse erforderlich sind. Hier kommt dann ein Machine Learning Engineer ins Spiel.

ML Engineers sind häufig Leute, die einen starken Programmierhintergrund haben und diesen im Bereich Daten einsetzen. ML Engineeers entwickeln Software-Anwendungen, die auf Daten-Algorithmen basieren.

Das Produkt eines Machine Learning Engineers ist meistens nicht eine Datenanalyse sondern ein auf Datenanalyse basierendes Software Produkt. Zum Beispiel eine fertige App zur Blumenerkennung.

Dieser Bereich wird häufig durch Softwareentwickler abgedeckt, die sich in Data Science weitergebildet haben.

Allerdings muss man hier aufpassen! Auch im Job als Machine Learning Engineer sind statistische Kentnisse notwendig. Für einen Softwareentwickler ist es eventuell nicht so schwierig ein Deep Learning Modell in Python umzusetzen. Ohne statistische Kenntnisse wird er/sie aber die Parameter nicht einschätzen können. Hier kann es dann zu Fehlern in der Entwicklung kommen. In Zukuft könnte wir es häufiger mit dieser Problemaik zu tun bekommen, da immer mehr Softwareentwickler in deb Bereich ML Engineering strömen. 

Zusammenfassung

Es lassen sich für die jeweiligen Berfussgruppen folgende Merkmale zusammenfassen:

Datenanalysten /Businessanalysten

– erstellen Datenanalysen und Datenvisualisierungen

– arbeiten mit statistischen Softwaresystemen wie Excel, Stata, SAS und Tableau aber auch R

– rufen Daten aus Datenbanken ab (mittels SQL etc.)

– könnnen häufig spezielle Kentnisse in Datenvisualiserung haben (Webentwicklung)

Datenwissenschaftler / Data Scientists

– erstellen Datenanalysen

– automatisieren die Prozesse in der Datenanalyse

– arbeiten mit SQL, Python und/oder R

– kennen sich mit dem Umgang in Big Data Ökosystemen aus

Data Engineers

– arbeiten eng mit den Datenwissenschaftlern und Machine Learning Engineers zusammen

– beschäftigen sich mit der Pflege von Datenbanken und Datenpipelines

– verfügen über Programmierkentnisse insbesondere in SQL und Python

– arbeiten mit den Big Data Ökosystemen

Machine Learning Engineers

– erstellen auf Machine Learning basierende Algorithmen als Software-Produkte

– verfügen über sehr starke Kentnisse im Bereich Software-Entwicklung

– arbeiten eng mit Data Engineers und Data Scientists zusammen

Foto von Andrea Piacquadio bei Pexels