Moral Hazard im Machine Learning: falsche Metriken

Der Trend geht hin zur datenbesierten Entscheidungsfindung. Dies birgt allerdings einige Gefahren, die in der Expertenwelt* zunehmend besprochen werden. Eine der drängendsten Fragen ist das Problem der Erfolgsmessung dieser datenbasierten Strategien und angewandten Algorithmen.

Anders ausgedrückt:

Sind KI Algorithmen wirklich unvoreingenommen? Oder hängen sie vielmehr auch davon ab, was wir mit den Algorithmen messen wollen?

Im heutigen Beitrag werden wir diese Probleme besprechen, denn eine datenbasierte Strategie implementiert mit Hilfe von ML Algorithmen; wenn falsch angewandt, birgt dies massive Gefahren für ein Unternehmen und für jeden Einzelnen.

Algorithmen sind nicht unvoreingenommen und beinhalten oft Messfehler, die häufig nicht so leicht behebbar sind. Aus diesem Grund ist es wichtig sich der Gefahr bewusst zu sein und datenbasierten Ergebnisse mit Skepsis zu betrachten.

Die Gefahr kommt dabei vor allem aus zwei Quellen:

1. Messfehler bei der Anwenung von Machine Learning (das Nutzen von falschen Messwerten)

2. Fixierung auf einen falschen bzw. einzelnen Messwert

Beispiel der Messfehler im Gesundheitswesen

Einer der gefährlichsten Bereiche für die Anwendung von Machine Learning ist das Gesundheitswesen. Fehler, die hier entstehen, können sich auf das Überleben von Patienten auswirken.

Mittelohentzündung als Hauptfaktor für den Schlaganfall?

Medizin ist aber auch einer der schwierigsten Bereiche für Machine Learning, denn die Datensätze, die hier generiert werden, sind selten objektiv.

Im realen Leben sind die gesammelten Datensätze selten wirklich objektiv.

Es gibt einen Unterschied zwischen einem Datensatz, der aus Bildern eine Straße für ein autonomes Fahrzeug generiert, und einem Datensatz, der im Zuge menschlicher Interaktionen entsteht.

Die meisten Datensätze in der Praxis werden erst durch Interaktion generiert. Nehmen wir als Beispiel die Besucher einer Notfallambulanz. Mit so einem konkreten Datensatz beschäftigen sich die Autoren Sendhil Mullainathan und Ziad Obermeyer in ihrer Studie „Does Machine Learning Automate Moral Hazard and Error?“, publiziert in the American Economic Review. Die Autoren haben Patientendaten zu Schlaganfällen aus einer großen Notfallambulanz ausgewertet. Sie entwickelten im Anschluss ein auf Machine Learning basiertes Modell, das anhand dieser Patientendaten das Schlaganfallrisiko ermitteln soll.

Die Ergebnisse waren recht überraschend. Als einer der wichtigsten Risikofaktoren für Schlaganfall stellte sich die Mittelohrentzündung und Darmspiegelung heraus.

Diese Ergebnisse können ganz offensichtlich nicht richtig sein. Wie sind sie also zustande gekommen?

Subjektive Datengewinnung als zentraler Faktor

Die Ursache liegt  in der Zusammensetzung der Patientendaten in der Notfallambulanz und damit in dem generierten Patientendatensatz selbst. Wer sind die Menschen, die eine Notfallambulanz aufsuchen? Im Normallfall sind es eben nicht nur die Notfälle. Ein guter Teil der Patienten kommt in die Ambulanz aus anderen Gründen: manche Patienten haben keine Zeit unter der Woche einen Hausarzt aufzusuchen, manche sehen in kleineren Befindlichkeiten sofort einen Notfall usw. Dies beeiträchtigt offenbar die Aussagekraft der angewandten Algorithmen.

Als einen weiteren Aspekt, der kritisch für die Zusammensetzung des Datensatzes ist, nennen die Autoren die Subjektivität der Daten. Sowohl die Ärzte als auch die Patienten haben in ihrer Interaktion verschiedene Agenden und werden von unterschiedlichen Interessen gesteuert. Dies führt in der Folge dazu, dass die auf diese Weise generierten Daten keine Objektivität besitzen.

Im Endeffekt berechnete das ML Modell in diesem Fall eine vorausgehende Mittelohrenzündung als einer der Hauptrisiken für einen Schlaganfall.

Als Lösung schlagen die Autoren vor, die auf KI basierende Diagnostik denselben Stadards zu unterwerfen wie alle anderen medizinischen Verfahren. Ähnlich muss auch die Vorgehensweise bei allen anderen KI Modellen sein, die auf subjektiven Datensätzen basieren.

Daraus folgt, dass die Datengewinnung sehr wichtig für die Einschätzung ist, ob wir dem angewandten Algorithmus vertrauen können. Sobald die Daten durch subjektive Mechanismen generiert werden, sollten wir die Ergebnisse solcher Modelle mit Vorsicht genießen.

Indikatoren: Wir können häufig die wichtigsten Faktoren gar nicht messen

Diese Erkenntnisse wurden im Blogpost der fast.ai durch Rachel Tomas folgends zusammengefasst:

„You want to know what content users like, so you measure what they click on. You want to know which teachers are most effective, so you measure their students test scores. You want to know about crime, so you measure arrests. These things are not the same. Many things we do care about can not be measured. Metrics can be helpful, but we can’t forget that they are just proxies.“

Das Nutzen von Indikatoren um Zusammenhänge zu erfassen hat ihre Tücken, denn sie messen oft nur indirekt die Kennzahlen, die wie eigentlich erfassen möchten.

Klickzahlen als wichtigster Maßstab für den Erfolg?

Damit verbunden ist die Fixierung auf bestimmte Kennzahlen, die dann als einzig gültiger Maßtab der Datenstrategie im Unternehmen angewandt werden.

Engagement Rate

Ein bekanntes Phänomen bei Medienunternehmen und insebsondere Social Media Plattformen, ist zum Beispiel eine übermaßige Fixierung auf die Engagement Rate. Dies führt im Extremfall dazu, dass dem Nutzer aufgrund der gesteigerten Engagement Rate zum Beispiel Videos mit immer extremeren Inhalten ausgespielt werden. Der Algorithmus hat dann nur das Ziel die Klickzahlen zu erhöhen und schlägt dem User die kontroversesten Videos vor.

Im fast.ai Blogbeitrag wird diese Strategie mit einem Lebensmittelladen verglichen, der den Kunden an den prominentesten Stellen Junk Food anbietet, denn diese Produkte verkaufen sich am besten.

Schädlich für Business

Das Problem der Fixierung auf eine Kennzahlist ist nicht auf das Machine Learning begrenzt, sondern tritt im Wirtschaftsleben an vielen Stellen auf, z.B. bei der Messung des Unternehmenserfolgs oder Bonusbemessung von Mitarbeitern.

So führte es zum Beispiel bei einer namhaften US-amerikanischer Bank  zu Verlusten in Höhe von mehreren Hundertmillionen USD. Wie Michael Harris und Bill Tayler für die Harvard Business Review: „Don’t Let Metrics Undermine Your Business“ schreiben, definierte die Bank ihre Cross-Selling Kennzahl als die wichtigste Strategie. Beim Cross-Selling bemüht sich eine Firma neben dem Hauptprodukt zusätzliche passende Produkte dem Kunden zu verkaufen (hier eine Definition).

Dies hat die Bank sehr intensiv betrieben

„[…] had—and still has—a strategy of building long-term customer relationships, and management intended to track the degree to which it was accomplishing that goal by measuring cross-selling. With brutal irony, a focus on the metric unraveled many of the bank’s valuable long-term relationships.“

schreiben Michael Harris und Bill Tayler für Harvard Business Review: „Don’t Let Metrics Undermine Your Business“

Um die Cross-Selling Statistiken zu erfüllen, haben die Bankmitarbeiter Konten für die Kunden eröffnet ohne Ihren Erlaubnis:

„[…] also discovered a new problem: thousands of customers were also enrolled in online bill pay without their authorization. The review found 528,000 potentially unauthorized online bill pay enrollments.“

schreibt CNN Business.

Die Fixierung auf eine Kennzahl im Bereich Cross-Selling hatte zu einem starken internen Druck auf die Mitarbeiter geführt, bestimmte Cross-Selling Benchmarks monatlich und jährlich zu erreichen. Im Endeffekt versuchten die Mitrabeiter diese Statistik um jeden Preis zu erfüllen – auch wenn die Methoden umstritten waren.

Die Kosten für die Bank wurden im Zuge dieses Fiaskos massiv und auch die Kunden verloren das Vertrauen in die Bank.

Eine ähnliche Problematik kann auch entstehen, wenn Kunden durch Umfragen befragt werden. Mit der Zeit könnten Mitarbeiter anstelle der Kundenzufriedenheit einfach als Ziel gute Umfragenwerte haben.

Lösungsansätze

Als Lösung für Moral Hazard im Bereich Kennzahlen und Machine Learning kommen mehrere Strategien der Vorbeugung in Frage.

Ein einfacher Lösungsansatz wäre mehrere Kennzahlen zu definieren, die einen Mitarbeitererfolg messen, sowie die Inzentivierung der Mitarbeiter die Unternehmensstrategie ganzheitlicher zu betrachten und nicht nur über eine Kennzahl zu definieren.

Es sollten für eine Unternehmenstrategie immer mehrere Kennzahlen ausgewertet werden. Sobald nur eine Kennzahl genutzt wird, läuft man die Gefahr der übermäßigen Fixierung auf diese Zahl. Der Druck auf Mitarbeiter könnte steigen, der gewünschte Lenkungserfolg nicht eintreten.

Weiter sollten auch immer qualitative Merkmale und Kriterien zur Bewertung herangezogen werden. Dies beugt dem Fiasko der Engagement Rate und extremen Inhalte vor.

Als Basis aber muss auch der Datensatz für die Gewinnung dieser Kennzahlen hinterfragt werden, denn ein Datensatz wird selten wirklich objektiv gewonnen.

 

*Quellen für den Beitrag:

Rachel Thomas: „The problem with metrics is a big problem for AI“ in fast.ai

 

Bild von rawpixel auf Pixabay

Bild von GraphicMama-team auf Pixabay

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.