Regressions- und Klassifikationsagorithmen: Definition und Unterschiede

Im vorherigen Beitrag haben wir eine der wichtigsten Klassifizierungen der ML Algorithmen kennengelernt: die Teilung in Unsupervised und Supervised Learning.* Heute geht es um eine weitere Spezialisierung von Machine Learning Methoden im Bereich von Supervised Learning und zwar Regression und Klassifikation.

Supervised Learning Algorithmen arbeiten mit beschrifteten Daten (sog. labeled data). Je nach Art der beschrifteten Daten unterscheiden wir zwei Arten der Supervised ML Algorithmen: Regressionsalgorithmen und Klassifikationsalgorithmen.

Welchen von beiden wir für unsere Daten anwenden, hängt wiederum stark von den Outputs, die unsere Modelle liefern sollen.

Inhalte Verbergen

1 Klassifikationsalgorithmen

1.1 Anwendung in der Praxis

1.2 Die populärsten Modelle im Bereich Klassifikation

2 Regressionsalgorithmen

2.1 Anwendung in der Praxis

2.2 Die populärsten Regressionsmodelle

Klassifikationsalgorithmen

Wenn der Ouptut des ML Modells in Kategorien bzw. wenigen Gruppierungen darstellbar sein soll, nutzen wir die Klassifikation.

Klassifikationsalgorithmen liefern (vereinfacht gesagt) Output in Kategorien und nicht in kontinuierlichen Zahlen.

Anwendung in der Praxis

In der Praxis wird die Klassifikation beispielsweise für die Spam-Erkennung eingesetzt. In diesem Fall haben wir zwei Kategorien: Mail/Spam. Ähnlich kann eine Bilderkennungsapp, die Pilzarten erkennt, auch mit Hilfe von Klassinfikationsalgorithmus gebaut werden. In der medizinischen Diagnostik kommen auch oft Klassifikationsalgorithmen zum Einsatz (Krank/Nicht Krank).

Die populärsten Modelle im Bereich Klassifikation

Zu den populärsten in der Praxis angewandten Klassifikationsalgorithmen gehören Naive Bayes, Random Forest und Logistic Regression. Beide Algorithmen (insbesondere Naive Bayes) sind relativ schnell und funktionieren gut als erste Anwendung.

Logistic Regression (Logistische Regression) wird oft in der binären Klassifikation angewandt d.h., wenn nur zwei Optionen als Output möglich sind. Logistische Regression gehört zu den schnelleren und effizienteren Algorithmen. Aus diesem Grund wird sie oft als ein Startpunkt auf der Suche nach optimalen Modellen angewandt. Da sie binäre Fragestellungen klassifiziert, wird sie u.a. in der Spamerkennung angewandt.

Naive Bayes oder Random Forest können auch für Probleme mit mehreren Outputs (Multiclass-Klassifikation) angewandt werden.

Dabei hat aber der Naive Bayes Klassifikator eine ganze Reihe von Anforderungen, die in der Praxis selten erfüllt werden. Unter anderem verlangt Naive Bayes, dass die Input Features (Variablen) unabhängig voneinander sind. Dennoch funktioniert er relativ zuverlässig und liefert sehr gute Ergebisse mit einer kurzen Rechendauer.

Random Forest Klassifikator baut auf einem schwächeren Algorithmus (Decison Trees) auf. Vereinfacht gesagt werden hier die Outputs mit Hilfe Entscheidungsbäumen berechnet. Eine lange Zeit war Random Forest einer der populärsten Algorithmen im Bereich Data Science. Vor kurzem wurde er von XGBoost abgelöst.

Regressionsalgorithmen

Im Gegensatz zu den Klassifikationsalgorithmen besteht der Modell-Output der Regressionsalgorithmen nicht aus wenigen Kategoriengruppen, sondern aus kontinuierlichen Zahlen. Regressionsalgorithmen schätzen (vereinfacht gesagt) kontinuierliche numerische Werte.

Anwendung in der Praxis

Aus diesem Grund werden die Regressionsalgorithmen für Probleme mit sehr vielen numerischen Outputs angewandt, wie zum Beispiel die Schätzung von Immobilienpreisen in einem Viertel, Börsenpreisentwicklung, Einkommen usw.

Die populärsten Regressionsmodelle

Generell wird die klassische lineare Regression in ihrer Grundform selten angewandt. Meistens wird sie je nach verschiedenen Anforderungen in die Lasso oder Ridge Regression abgewandelt. Für komplexere Zusammenhänge wird auch die Polynomiale Regression angewadndt. Zudem kann auch Random Forest als Regressionsalgorithmus implementiert werden (Random Forest Regression).

*Manchmal muss man Methoden aus dem Bereich Supervised und Unsupervised Learning kombinieren und dann spricht man über Semi-Supervised Learning.

1 Kommentar

Lukas am März 19, 2022 um 9:01 am

Toller Beitrag, herzlichen Dank!
Antworten

Hinterlasse eine Antwort Antworten abbrechen

Aleksandra Klofat zu Fake Follower auf Twitter anhand von Daten erkennenApril 24, 2023
Hi Alex, endlich habe ich Zeit gefunden mir das Account anzuschauen und tatsächlich gibt es auf dem Account einige Unregelmäßigkeiten.…
Aleksandra Klofat zu Fake Follower auf Twitter anhand von Daten erkennenApril 19, 2023
Hallo, ich werde mir das Profil angucken und poste hier, was ich gefunden habe. Ich brauche aber noch ca. Eine…
Alex zu Fake Follower auf Twitter anhand von Daten erkennenApril 7, 2023
Hi Aleksandra, ich glaube, mit deiner Analyse könntest du vielen Menschen helfen, die betrogen werden. Insbesondere in der Krypta-Welt. Dort…
H. georg zu Was ist ein Algorithmus? Eine einfache Erklärung…Dezember 4, 2022
Größerer und allumfassender Algorithmus: Die Schwerkraft ist keine Kraft, die von A nach B reicht, sondern ein grundlegendes und elementares…
Aleksandra Klofat zu Was ist Stable Diffusion? Definition und PraxisNovember 9, 2022
Hallo, ja. es geht um dieses Projekt (optiizedSD=Projekt von Basu Jindal)

Regressions- und Klassifikationsagorithmen: Definition und Unterschiede

Klassifikationsalgorithmen

Anwendung in der Praxis

Die populärsten Modelle im Bereich Klassifikation

Regressionsalgorithmen

Anwendung in der Praxis

Die populärsten Regressionsmodelle

Über den Autor

Aleksandra Klofat

1 Kommentar

Hinterlasse eine Antwort Antworten abbrechen

Newsletter

Wer schreibt hier?

Bloggerei

Regressions- und Klassifikationsagorithmen: Definition und Unterschiede

Klassifikationsalgorithmen

Anwendung in der Praxis

Die populärsten Modelle im Bereich Klassifikation

Regressionsalgorithmen

Anwendung in der Praxis

Die populärsten Regressionsmodelle

Über den Autor

Aleksandra Klofat

zusammenhängende Posts

Künstliche Intelligenz ist nicht besonders intelligent

KI Strategie für Unternehmen nach Andrew Ng

Der Winter naht

Einfaches und kostenloses Dashboard erstellen

1 Kommentar

Hinterlasse eine Antwort Antworten abbrechen

Newsletter

Wer schreibt hier?

Bloggerei