Die Qualität und Auswahl der Daten bei der Erstellung von KI-Algorithmen wurden eine lange Zeit unterschätzt. Der Fokus lag mehr auf der Modellauswahl und der Modellerstellung selbst. Das hat als Folge zu diversen spektakulären Fails bei der Anwendung von Algorithmen in der Praxis geführt.

Doch wie kommt es dazu? Wie könnnen die KI-Algorithmen derart versagen?

Einer der Gründe dafür liegt in der Datensammlung und/oder Datenzusammensetzung.

garbage in: garbage out

Faule Daten führen zu faulen Ergebnissen – ganz egal, wie komplex und mathematisch korrekt unser Modell sein mag.

KI-Algorithmen arbeiten mit Daten. Sie brauchen Daten als Input, um Muster in den Daten zu identifizieren. In diesem Sinne müssen beide Faktoren korrekt funktionieren: die Daten und das Modell selbst, damit das Ergebnis am Ende zufriedenstellend ist. Die Algorithmen werden an mehr oder weniger großen Datenmengen trainiert. Wenn die Trainingsdaten jedoch nicht repräsentativ sind und Verzerrungen beinhalten, wird der Algorithmus diese Verzerrungen reproduzieren und falsche Ergebnisse liefern.

Dieses Problem wurde eine lange Zeit in den Datenwissenschaften unterschätzt.

Bislang wurde mehr Aufmerksamkeit dem Erstellen von qualitativ guten Algorithmen gewidmet dabei wurde jedoch oft die Datenqualität vernachlässigt. Diese Herangehensweise kann als „model-centric approach“ gewertet werden. Hier steht die Auswahl und der Aufbau komplexer Modelle im Mittelpunkt. Seit einiger Zeit wird jedoch verstärkt auch der Fokus auf die Datenqualität und die Stichprobenauswahl („data-centric approach“) gelenkt. Es wurde offenkundig, dass (egal wie gut das Modell ist) mit verzerrten Daten das Modell auch nur die Verzerrungen reproduzieren wird.

Fehlerhafte Daten = Probleme

Fehlerhafte Daten können auf verschiedenen Wegen entstehen. Es ist nicht immer leicht zu erkennen, was die genaue Ursache der Verzerrung ist. Hier ist oft unter anderem eine starke Gebietsexpertise gefragt.

Stichprobe ist nicht repräsentativ

Die meisten Fehler passieren jedoch, weil die Stichprobe für die Gesamtpopulation nicht repräsentativ ist. Dieser Fehler kann schnell passieren.

Ein klassisches Beispiel für eine schlecht ausgewählte Stichprobe wäre etwa Daten über das Verhalten unserer Kunden nur in den Wintermonaten zu sammeln. Es ist gut möglich, dass sich unsere Kunden in den Sommermonaten anders verhalten als im Winter. Wenn wir auf der Basis der gesammelten Daten einen Empfehlungsdienst (Recommender System) bauen, wird er unseren Kunden falsche Produktvorschläge liefern bzw. nur solche, die man im Winter gebrauchen kann.

Schulen sind sicher… während der Schulschließungen

Ein Beispiel für eine verzerrte Stichprobenauswahl und daraufolgende Datenextrapolation und sind auch einige Studien zur Covid-Übertragung an den Schulen, die während Lockdowns und/oder niedriger Covid-Prävalenz durchgeführt worden sind. Sie wurden von manchen Experten und Politikern dazu genutzt, die Schulöffungen ohne Schutzmaßnahmen und ungeachtet der Inzidenz zu begründen.

Es geht hier um die Studie: „Clinical Characteristics and Transmission of COVID-19 in Children and Youths During 3 Waves of Outbreaks in Hong Kong“ (JAMA Network).

Eine Studie, die während des Lockdowns durchgeführt worden ist, eignet sich schwerlich dazu generelle Aussagen über die Sicherheit vor Covid Infektion an Schulen zu treffen.

Kinder bremsen die Infektionen?

Eine andere Studie sammelte wiederum Daten aus einer Zeit und Region, wo die Covid-Inzidenz insgesamt niedrig war. Sie kam jedoch zu einem weitgehenden Schluss: Kinder wirken eher als Bremsklötze der Infektion“.

„Die Studie sollte auch dem Kultusministerium Hinweise geben, ob eine generelle Öffnung der Schulen nach den Sommerferien möglich ist. “Wir planen ganz klar mit dem Regelbetrieb”, sagte Landeskultusminister Christian Piwarz.“

(Reuters)

Wie man den RKI-Daten (Wikipedia) entnehmen kann, bewegte sich die Inzidenz in Sachsen zu dem damaligen Zeitpunkt nahe Null (zwischen 0 und 50).

Die Wissenschaftler ruderten im laufe der Zeit auch zurück:

“Our results depict a situation with low infection rates after the initial transmission peak is under control,” Jakob Armann, a pediatric infectious-disease specialist at University Children’s Hospital in Dresden and co-author of the study, said in an email. “If you have rising infection rates — as in the United States currently — putting people in close contact will obviously lead to transmission of respiratory viruses as SARS-CoV-2.”

sagte ein Mitautor der Seattle Times.

Verzerrte Stichprobe = Falsche Ergebnisse

Es sollte klar sein: die Ergebnisse der Studien sind nur so gut, wie die Qualität der ihnen zugrundeligeneden Daten und das unabhängig davon wie gut das Modell und die statistische Auswertung ist.

Ethische Probleme mit den Algorithmen

Frauen werden bei der Kreditvergabe benachteiligt

Vor einiger Zeit entbrannte auf Twitter eine heiße Diskussion. Offenbar hatte Apple Card einem Ehepaar völlig verschiedene Kreditkartenlimits zugewiesen. Das Kontorverse daran: der Ehemann hatte ein 20-fach größeres Kreditlimit bekommen als seine Ehefrau:

Die Apple Mitarbeiter haben die Bewertung mit dem KI-Algorithmus begründet:

Goldman Sachs (Herausgeber der Apple Card) hat später in einer Stellungnahme erklärt, dass der Algorithmus nicht aufgrund des Geschlechts diskriminieren kann, da er überhaupt keine Geschlechtsvariable als Input beinhalte.

Das ist jedoch eine recht schwache Ausrede, denn natürlich ist es für ein Algorithmus einfach bestimmte Muster zu erkennen – ohne, dass sie explizit als Input benannt worden sind. Das ist sogar deren Aufgabe.

Die nicht explizit benannten bzw. messbaren Variablen sind in der Statistik u.a. als sogenannte indirekte bzw. latente Variablen bekannt. Ein Beispiel für so eine latente Variable wäre die Zahl der Menschen mit Regenschirmen auf der Straße als Indikator für die Regenwahrscheinlichkeit an dem Tag.

Ohne die Einzelheiten über den Algorithmus von Apple Card zu kennen ist es jedoch unmöglich festzustellen, wie die Bewertungsprozesse und mit welcher Gewichtung dort abgelaufen sind. Es gibt viele Möglichkeiten, wie solche Verzerrungen entstehen können. Man könnte beispielsweise annehmen, dass Frauen im Haushalt öfters fürs Einkaufen zuständig sind und dadurch mehr Ausgaben haben. Das könnte ein Algorithmus als negativ bewerten und entsprechend seine Empfehlungen bezüglich der Krediwürdigkeit anpassen. Weitere mögliche Gründe werden im Interview mit Mathematikerin Cathy O`Neil auf Slate beleuchtet.

Bilderkennung und ethnische Diskriminierung

Im Bereich der Bilderkennung gibt es weitere Risiken insbesondere im Hinblick auf die ethnische Zugehörigkeit. Wenn die Gesichtserkennung-Algorithmen mehrheitlich auf den Bildern von einer bestimmten Ethnie trainiert werden, liefern sie auch verzerrte Ergebnisse:

Dieser Algorithmus hat offensichtlich ein Problem die Gesichter einer anderen als europäischen Ethnie zu erkennen.

Experts such as Joy Buolamwini, a researcher at the MIT Media Lab, think that facial recognition software has problems recognizing black faces because its algorithms are usually written by white engineers who dominate the technology sector. These engineers build on pre-existing code libraries, typically written by other white engineers. “

Guardian

In der Praxis können solche Verzerrungen diskriminierend wirken. Zum Beispiel wenn sie als Frisurvorschlag allen Suchenden blonde Flechtfrisuren anzeigen oder bestimmte Ethnien bevorzugt zu den Bewerbungsgesprächen eingeladen werden.

Zusammenfassung: Datenqualität und Stichprobenauswahl

Für die Erstellung geeigneter KI-Algorithmen ist sowohl die Datenqualität als auch die Modellqualität von immenser Bedeutung. Ein qualitativ hochwertiges Modell wird nicht gut funktionieren, wenn es auf verzerrten oder unvollständigen Daten trainiert worden ist. Aus diesem Grund ist der Blick auf beides gleich wichtig.

Auf verzerrten Stichproben trainierte Algorithmen können für die Anwender weitgehende negative Konsequenzen haben. Zum einen können solche Algorithmen finanzielle Verluste für die Anwender und Anwenderinnen bedeuten. Im Bereich der Datenanalyse kann eine verzerrte Stichprobenauswahl zu falschen Schlussfolgerungen führen und somit zu falschen Handlungsempfehlungen. Zum anderen können dadurch aber auch ethische Probleme entstehen. Die auf faulen Daten trainierte Algorithmen können beispielsweise Menschen aufgrund ihrer äußeren Merkmale diskriminieren.

Insbesondere in Bereichen wie der Gesundheitsvorsorge oder Sicherheit können solche Fehler große Auswirkungen auf das menschliche Leben haben. Hier ist aus diesem Grund besondere Vorsicht geboten. Das zeigt u.a. ein Beispiel aus den USA. Dort war ein KI-Algorithmus für die Empfehlungen von personalisierten Behandlungsprogrammen für Patienten zuständig. Es zwigt sich, dass  dunkelhäuftige Patienten deutlich seltener für diese Programme empfohlen wurden, obwohl sie genauso krank waren wie die hellhäutigen Patienten. Eine Kombination von Verzerrungen und falscher Gewichtung von Variablen hatte zu diesem fatalen Bias geführt („Millions of black people affected by racial bias in health-care algorithms“ Nature).

Für die Zukunft ist es aus diesem Grund wichtig, dass tranparent gemacht wird, welche Algorithmen genutzt werden, und mit Hife welcher Daten sie trainiert worden sind. Es sollte möglich sein, zumindest Teile der Informationen über die Daten und die angewandten Algorithmen offenzulegen. Dieser Bereich kann nicht als „Black Box“ betrachtet werden, der immer objektiv ist. Fehler sind möglich und können gravierende Konsequenzen haben. Die Zunahme der Anwendung von KI-Lösungen wird von uns entsprechende Anworten fordern.