Faule Daten führen zu faulen Ergebnissen

Die Qualität und Auswahl der Daten bei der Erstellung von KI-Algorithmen wurden eine lange Zeit unterschätzt. Der Fokus lag mehr auf der Modellauswahl und der Modellerstellung selbst. Das hat als Folge zu diversen spektakulären Fails bei der Anwendung von Algorithmen in der Praxis geführt.

Doch wie kommt es dazu? Wie könnnen die KI-Algorithmen derart versagen?

Einer der Gründe dafür liegt in der Datensammlung und/oder Datenzusammensetzung.

Inhalte Verbergen

1 garbage in: garbage out

2 Fehlerhafte Daten = Probleme

2.1 Stichprobe ist nicht repräsentativ

2.1.1 Schulen sind sicher… während der Schulschließungen

2.2 Kinder bremsen die Infektionen?

2.3 Verzerrte Stichprobe = Falsche Ergebnisse

3 Ethische Probleme mit den Algorithmen

3.1 Frauen werden bei der Kreditvergabe benachteiligt

3.2 Bilderkennung und ethnische Diskriminierung

4 Zusammenfassung: Datenqualität und Stichprobenauswahl

garbage in: garbage out

Faule Daten führen zu faulen Ergebnissen – ganz egal, wie komplex und mathematisch korrekt unser Modell sein mag.

KI-Algorithmen arbeiten mit Daten. Sie brauchen Daten als Input, um Muster in den Daten zu identifizieren. In diesem Sinne müssen beide Faktoren korrekt funktionieren: die Daten und das Modell selbst, damit das Ergebnis am Ende zufriedenstellend ist. Die Algorithmen werden an mehr oder weniger großen Datenmengen trainiert. Wenn die Trainingsdaten jedoch nicht repräsentativ sind und Verzerrungen beinhalten, wird der Algorithmus diese Verzerrungen reproduzieren und falsche Ergebnisse liefern.

Dieses Problem wurde eine lange Zeit in den Datenwissenschaften unterschätzt.

Bislang wurde mehr Aufmerksamkeit dem Erstellen von qualitativ guten Algorithmen gewidmet dabei wurde jedoch oft die Datenqualität vernachlässigt. Diese Herangehensweise kann als „model-centric approach“ gewertet werden. Hier steht die Auswahl und der Aufbau komplexer Modelle im Mittelpunkt. Seit einiger Zeit wird jedoch verstärkt auch der Fokus auf die Datenqualität und die Stichprobenauswahl („data-centric approach“) gelenkt. Es wurde offenkundig, dass (egal wie gut das Modell ist) mit verzerrten Daten das Modell auch nur die Verzerrungen reproduzieren wird.

Fehlerhafte Daten = Probleme

Fehlerhafte Daten können auf verschiedenen Wegen entstehen. Es ist nicht immer leicht zu erkennen, was die genaue Ursache der Verzerrung ist. Hier ist oft unter anderem eine starke Gebietsexpertise gefragt.

Stichprobe ist nicht repräsentativ

Die meisten Fehler passieren jedoch, weil die Stichprobe für die Gesamtpopulation nicht repräsentativ ist. Dieser Fehler kann schnell passieren.

Ein klassisches Beispiel für eine schlecht ausgewählte Stichprobe wäre etwa Daten über das Verhalten unserer Kunden nur in den Wintermonaten zu sammeln. Es ist gut möglich, dass sich unsere Kunden in den Sommermonaten anders verhalten als im Winter. Wenn wir auf der Basis der gesammelten Daten einen Empfehlungsdienst (Recommender System) bauen, wird er unseren Kunden falsche Produktvorschläge liefern bzw. nur solche, die man im Winter gebrauchen kann.

Schulen sind sicher… während der Schulschließungen

Ein Beispiel für eine verzerrte Stichprobenauswahl und daraufolgende Datenextrapolation und sind auch einige Studien zur Covid-Übertragung an den Schulen, die während Lockdowns und/oder niedriger Covid-Prävalenz durchgeführt worden sind. Sie wurden von manchen Experten und Politikern dazu genutzt, die Schulöffungen ohne Schutzmaßnahmen und ungeachtet der Inzidenz zu begründen.

Three great new studies of COVID in children this week!

First, household transmission in Germany 🇩🇪

Contacts of PCR pos cases tested Serology

Children both less susceptible AND less infectious when index cases than adultshttps://t.co/gYK34ORw21

1/4

— Alasdair Munro (@apsmunro) May 4, 2021

This study examines a region where all schools were closed during Covid outbreaks—and throughout most of the year—and finds that most transmission didn't happen at school. Hm. pic.twitter.com/OwDLrgCcIp

— Ryan Hisner (@LongDesertTrain) May 4, 2021

Es geht hier um die Studie: „Clinical Characteristics and Transmission of COVID-19 in Children and Youths During 3 Waves of Outbreaks in Hong Kong“ (JAMA Network).

Eine Studie, die während des Lockdowns durchgeführt worden ist, eignet sich schwerlich dazu generelle Aussagen über die Sicherheit vor Covid Infektion an Schulen zu treffen.

Kinder bremsen die Infektionen?

Eine andere Studie sammelte wiederum Daten aus einer Zeit und Region, wo die Covid-Inzidenz insgesamt niedrig war. Sie kam jedoch zu einem weitgehenden Schluss: „Kinder wirken eher als Bremsklötze der Infektion“.

„Die Studie sollte auch dem Kultusministerium Hinweise geben, ob eine generelle Öffnung der Schulen nach den Sommerferien möglich ist. “Wir planen ganz klar mit dem Regelbetrieb”, sagte Landeskultusminister Christian Piwarz.“

(Reuters)

Wie man den RKI-Daten (Wikipedia) entnehmen kann, bewegte sich die Inzidenz in Sachsen zu dem damaligen Zeitpunkt nahe Null (zwischen 0 und 50).

Die Wissenschaftler ruderten im laufe der Zeit auch zurück:

“Our results depict a situation with low infection rates after the initial transmission peak is under control,” Jakob Armann, a pediatric infectious-disease specialist at University Children’s Hospital in Dresden and co-author of the study, said in an email. “If you have rising infection rates — as in the United States currently — putting people in close contact will obviously lead to transmission of respiratory viruses as SARS-CoV-2.”

sagte ein Mitautor der Seattle Times.

Verzerrte Stichprobe = Falsche Ergebnisse

Es sollte klar sein: die Ergebnisse der Studien sind nur so gut, wie die Qualität der ihnen zugrundeligeneden Daten und das unabhängig davon wie gut das Modell und die statistische Auswertung ist.

Ethische Probleme mit den Algorithmen

Frauen werden bei der Kreditvergabe benachteiligt

Vor einiger Zeit entbrannte auf Twitter eine heiße Diskussion. Offenbar hatte Apple Card einem Ehepaar völlig verschiedene Kreditkartenlimits zugewiesen. Das Kontorverse daran: der Ehemann hatte ein 20-fach größeres Kreditlimit bekommen als seine Ehefrau:

The @AppleCard is such a fucking sexist program. My wife and I filed joint tax returns, live in a community-property state, and have been married for a long time. Yet Apple’s black box algorithm thinks I deserve 20x the credit limit she does. No appeals work.

— DHH (@dhh) November 7, 2019

Die Apple Mitarbeiter haben die Bewertung mit dem KI-Algorithmus begründet:

She spoke to two Apple reps. Both very nice, courteous people representing an utterly broken and reprehensible system. The first person was like “I don’t know why, but I swear we’re not discriminating, IT’S JUST THE ALGORITHM”. I shit you not. “IT’S JUST THE ALGORITHM!”.

— DHH (@dhh) November 8, 2019

Goldman Sachs (Herausgeber der Apple Card) hat später in einer Stellungnahme erklärt, dass der Algorithmus nicht aufgrund des Geschlechts diskriminieren kann, da er überhaupt keine Geschlechtsvariable als Input beinhalte.

Das ist jedoch eine recht schwache Ausrede, denn natürlich ist es für ein Algorithmus einfach bestimmte Muster zu erkennen – ohne, dass sie explizit als Input benannt worden sind. Das ist sogar deren Aufgabe.

Die nicht explizit benannten bzw. messbaren Variablen sind in der Statistik u.a. als sogenannte indirekte bzw. latente Variablen bekannt. Ein Beispiel für so eine latente Variable wäre die Zahl der Menschen mit Regenschirmen auf der Straße als Indikator für die Regenwahrscheinlichkeit an dem Tag.

Ohne die Einzelheiten über den Algorithmus von Apple Card zu kennen ist es jedoch unmöglich festzustellen, wie die Bewertungsprozesse und mit welcher Gewichtung dort abgelaufen sind. Es gibt viele Möglichkeiten, wie solche Verzerrungen entstehen können. Man könnte beispielsweise annehmen, dass Frauen im Haushalt öfters fürs Einkaufen zuständig sind und dadurch mehr Ausgaben haben. Das könnte ein Algorithmus als negativ bewerten und entsprechend seine Empfehlungen bezüglich der Krediwürdigkeit anpassen. Weitere mögliche Gründe werden im Interview mit Mathematikerin Cathy O`Neil auf Slate beleuchtet.

Bilderkennung und ethnische Diskriminierung

Im Bereich der Bilderkennung gibt es weitere Risiken insbesondere im Hinblick auf die ethnische Zugehörigkeit. Wenn die Gesichtserkennung-Algorithmen mehrheitlich auf den Bildern von einer bestimmten Ethnie trainiert werden, liefern sie auch verzerrte Ergebnisse:

What an upscaling algorithm does to an image of Obama. Notice anything odd?

Can you guys please stop generating new examples of racist AI for a bit, so that I can finish the slides for my class on ethics of big data? It's so hard to keep up. https://t.co/kBwjsMS9h0

— Kevin Werbach @kwerb@mastodon.social (@kwerb) June 21, 2020

Dieser Algorithmus hat offensichtlich ein Problem die Gesichter einer anderen als europäischen Ethnie zu erkennen.

„Experts such as Joy Buolamwini, a researcher at the MIT Media Lab, think that facial recognition software has problems recognizing black faces because its algorithms are usually written by white engineers who dominate the technology sector. These engineers build on pre-existing code libraries, typically written by other white engineers. “

Guardian

In der Praxis können solche Verzerrungen diskriminierend wirken. Zum Beispiel wenn sie als Frisurvorschlag allen Suchenden blonde Flechtfrisuren anzeigen oder bestimmte Ethnien bevorzugt zu den Bewerbungsgesprächen eingeladen werden.

Zusammenfassung: Datenqualität und Stichprobenauswahl

Für die Erstellung geeigneter KI-Algorithmen ist sowohl die Datenqualität als auch die Modellqualität von immenser Bedeutung. Ein qualitativ hochwertiges Modell wird nicht gut funktionieren, wenn es auf verzerrten oder unvollständigen Daten trainiert worden ist. Aus diesem Grund ist der Blick auf beides gleich wichtig.

Auf verzerrten Stichproben trainierte Algorithmen können für die Anwender weitgehende negative Konsequenzen haben. Zum einen können solche Algorithmen finanzielle Verluste für die Anwender und Anwenderinnen bedeuten. Im Bereich der Datenanalyse kann eine verzerrte Stichprobenauswahl zu falschen Schlussfolgerungen führen und somit zu falschen Handlungsempfehlungen. Zum anderen können dadurch aber auch ethische Probleme entstehen. Die auf faulen Daten trainierte Algorithmen können beispielsweise Menschen aufgrund ihrer äußeren Merkmale diskriminieren.

Insbesondere in Bereichen wie der Gesundheitsvorsorge oder Sicherheit können solche Fehler große Auswirkungen auf das menschliche Leben haben. Hier ist aus diesem Grund besondere Vorsicht geboten. Das zeigt u.a. ein Beispiel aus den USA. Dort war ein KI-Algorithmus für die Empfehlungen von personalisierten Behandlungsprogrammen für Patienten zuständig. Es zwigt sich, dass dunkelhäuftige Patienten deutlich seltener für diese Programme empfohlen wurden, obwohl sie genauso krank waren wie die hellhäutigen Patienten. Eine Kombination von Verzerrungen und falscher Gewichtung von Variablen hatte zu diesem fatalen Bias geführt („Millions of black people affected by racial bias in health-care algorithms“ Nature).

Für die Zukunft ist es aus diesem Grund wichtig, dass tranparent gemacht wird, welche Algorithmen genutzt werden, und mit Hife welcher Daten sie trainiert worden sind. Es sollte möglich sein, zumindest Teile der Informationen über die Daten und die angewandten Algorithmen offenzulegen. Dieser Bereich kann nicht als „Black Box“ betrachtet werden, der immer objektiv ist. Fehler sind möglich und können gravierende Konsequenzen haben. Die Zunahme der Anwendung von KI-Lösungen wird von uns entsprechende Anworten fordern.

Hinterlasse eine Antwort Antwort abbrechen

Aleksandra Klofat zu Fake Follower auf Twitter anhand von Daten erkennenApril 24, 2023
Hi Alex, endlich habe ich Zeit gefunden mir das Account anzuschauen und tatsächlich gibt es auf dem Account einige Unregelmäßigkeiten.…
Aleksandra Klofat zu Fake Follower auf Twitter anhand von Daten erkennenApril 19, 2023
Hallo, ich werde mir das Profil angucken und poste hier, was ich gefunden habe. Ich brauche aber noch ca. Eine…
Alex zu Fake Follower auf Twitter anhand von Daten erkennenApril 7, 2023
Hi Aleksandra, ich glaube, mit deiner Analyse könntest du vielen Menschen helfen, die betrogen werden. Insbesondere in der Krypta-Welt. Dort…
H. georg zu Was ist ein Algorithmus? Eine einfache Erklärung…Dezember 4, 2022
Größerer und allumfassender Algorithmus: Die Schwerkraft ist keine Kraft, die von A nach B reicht, sondern ein grundlegendes und elementares…
Aleksandra Klofat zu Was ist Stable Diffusion? Definition und PraxisNovember 9, 2022
Hallo, ja. es geht um dieses Projekt (optiizedSD=Projekt von Basu Jindal)

Faule Daten führen zu faulen Ergebnissen

garbage in: garbage out

Fehlerhafte Daten = Probleme

Stichprobe ist nicht repräsentativ

Schulen sind sicher… während der Schulschließungen

Kinder bremsen die Infektionen?

Verzerrte Stichprobe = Falsche Ergebnisse

Ethische Probleme mit den Algorithmen

Frauen werden bei der Kreditvergabe benachteiligt

Bilderkennung und ethnische Diskriminierung

Zusammenfassung: Datenqualität und Stichprobenauswahl

Über den Autor

Aleksandra Klofat

Hinterlasse eine Antwort Antwort abbrechen

Newsletter

Wer schreibt hier?

Bloggerei

Faule Daten führen zu faulen Ergebnissen

garbage in: garbage out

Fehlerhafte Daten = Probleme

Stichprobe ist nicht repräsentativ

Schulen sind sicher… während der Schulschließungen

Kinder bremsen die Infektionen?

Verzerrte Stichprobe = Falsche Ergebnisse

Ethische Probleme mit den Algorithmen

Frauen werden bei der Kreditvergabe benachteiligt

Bilderkennung und ethnische Diskriminierung

Zusammenfassung: Datenqualität und Stichprobenauswahl

Über den Autor

Aleksandra Klofat

zusammenhängende Posts

Wie sicher sind Kinder im Straßenverkehr? Datenbasiertes Entscheiden

Lerne Data Science – Resourcen

Kobra-Effekt und die versteckten Auswirkungen von Entscheidungen

Ein Spiegel Online Artikel über Survivorship Bias

Hinterlasse eine Antwort Antwort abbrechen

Newsletter

Wer schreibt hier?

Bloggerei