Written by 9:57 am Data Science, Gesamten Beiträge, Machine Learning, Use Cases

Microsoft Azure für Data Science

Wenn es um Plattformen für die Anwendung von Machine Learning und Data Science geht, ist Microsoft Azure einer der größten Player auf dem Markt.

MIcrosoft Azure Einführung

Azure ist bereits seit längerem im Bereich Software as a Service und Cloud Computing bekannt. Inzwischen hat Azure auch eigene Lösungen für Machine Learning und Data Science Platformen im Angebot. Damit steht Microsoft in direkter Konkurrenz zu Google, Amazon (AWS) und IBM.

Was sind Machine Learning Plattformen?

Machine Learning oder auch Data Science Plattformen bieten Cloud System Lösungen für Data Science Prozesse. Verkürzt gesagt erleichtern diese Plattformen Data Scientists, Data Engineers und ML Engineers die Arbeit, indem sie vom Prinzip alle Funktionen unter ein Dach bringen. Damit erleichtern sie die Arbeit mit den Daten massiv.

Die Arbeit der Datenarbeiter besteht aus sehr vielen Aufgaben in verschiedenen Bereichen: insbesondere aus Datenbeschaffung, Datenmanagement, Modellerstellung und Bereitstellung. Diese Funktionen benötigen oft den Einsatz von verschiedenen Anwendungen, die auch regelmäßig gewartet werden müssen.

Beispielsweise arbeiten viele Data Scientists mit Jupyter Notebook, welches dann oft in die entsprechende Programmierungsumgebung eingebettet werden muss. Die Daten sind in den Datenbanken gespeichert und müssen erst in den Arbeitsbereich transferiert werden. Auch benötigen die entsprechenden Konfigurationen häufige Updates.

Um es kurz zu sagen: Datenjobs bestehen in nicht unerheblichem Teil aus dem Warten der entsprechenden Softwarekonfiguration.

Diese Problematik wollen die Machine Learning Plattformen lösen. Die Plattformen bieten vom Prinzip ein Rundum-System zur Betreuung unserer Daten und der damit einhergehenden Prozesse.

Microsoft Azure als Plattform

Eine dieser Plattformen ist das Microsoft Azure Ökosystem. Azure bietet ein sehr umfangreiches Spektrum an Dienstleistungen. Dies führt aber auch dazu, dass man sich teilweise nur schwer in all den Funktionen zurecht finden kann.

Es lassen sich aber drei grundlegenden Bereiche abgrenzen, die jeder Etappe im Data Science Prozess entsprechen: Datenmanagement, Modellentwicklung und Training sowie die Bereitstellung/Deployment. Den Data Science Prozess habe ich bereits hier erklärt.

Zusätzlich dazu kommen weitere Funktionalitäten wie Automated ML. Das Automated ML ermöglicht den Nutzer den Data Science Prozess inklusive Modellauswahl komplett zu automatisieren.

Datenspeicherung / Datenmanagement

Vom Prinzip ermöglicht Azure diverse Datenspeicherungsmethoden. Auch das Importieren der Daten innerhalb des Azure Software Ökosystems ist recht einfach.

Azure stellt alles bereit: Data Storage, Softwareökosysteme sowie Serverkapazität.

Azure Arbeistfläche – Modellentwicklung

Die Arbeitsfläche von Azure sieht ungefähr so aus:

Wie aus dem Bild bereits zu entnehmen ist, gestaltet sich das Arbeiten in Azure recht einfach. Insbesondere, wenn man an die herkömliche Arbeitsweise gewöhnt ist. Es gibt automatische Vorlagen und Prozesse für so gut wie jeden Data Science Bereich.

Die Arbeitsfläche funktioniert mit dem Drag and Drop Verfahren. Man verbindet dann die entsprechenden Module/Etappen mit Linien miteinander. Die Module wählt man aus der Spalte links. Sie sind nach den Data Science Etappen und Funktionen sortiert.

Über den Azure Designer ist auch die Integration mit den externen Data Science Anwendungen wie Jupyter Notebook möglich und klappt ohne Probleme. Man kann auch eigenen Code in das System integrieren.

Bereitstellung / Deployment

Am Ende des Data Science Zyklus kommt die Bereitstellung / Model Deployment. Hier bietet Azure diverse Deployment Services je nach Notwendigkeit (Link).

Das vorläufige Modell kann auf Azure Machine Learning Compute Instance zur Einsicht und weiteren Testung bereitgestellt werden.

Das fertige Produkt kann dann unter anderem auf Azure Kubernetes Service bereit gestellt werden.

Azure Ökosystem Vor- und Nachteile

Ein großer Vorteil vom Azure ist seine Einfachheit und seine intuitive Bedienung. Man importiert die Daten und bearbeitet die komlexesten Modelle mit simplen Drag and Drop Verfahren.

Zusätzlich dazu gibt es die Möglichkeit mittels der Automated ML Anwendung auch die Modellauswahl zu automatisieren.

Dieser Vorteil kann allerdings auch schnell zum Nachteil werden, denn er kann Unternehmen dazu verleiten, Kompetenzen in diesem Bereich abzubauen. Für die Bedienung des Azure Ökosystems muss man keine besonderen statistischen und Programmierkentnisse vorweisen, denn alles kann innerhalb dieses Ökosystems automatisert werden.

Der Kompetenzabbau kann aber dazu führen, dass man im Zweifel auf diese Systeme angewiesen ist. Auch ist dann die Anpassung der Modelle an die jeweilige Gegebenheit und die Bedürfnisse der Firma schwierig.

Aus diesem Grund sollte die Schlüssigkeit der Ergbenisse und ihre statistische Validität immer auch im Auge behalten werden.

 

*Hinweis: Ich wurde von Microsoft Azure für diesen Artikel nicht bezahlt.

Foto: Canva.com

 

(Visited 34 times, 1 visits today)
Schlagwörter: , , , , Last modified: September 28, 2020
Close