Der österreichische Arbeitsmarktservice hat einen auf ChatGPT basierenden „Berufsinfomat“ eingeführt. Der Bot soll zu Berufsbildern informieren. Stattdessen erweist er sich als Lehrbuch-Beispiel dafür, welche Schwächen eine Behörde in Kauf nimmt, wenn sie solche Systeme einsetzt.
Ein Chatbot, der die Fragen von jungen Erwachsenen und Jobsuchenden nach möglichen Karrierewegen beantwortet – damit wollte das Arbeitsmarktservice (AMS) innovativ erscheinen. Doch seit der Vorstellung des „Berufsinfomats“ am vergangenen Mittwoch hagelt es stattdessen vor allem Spott und Kritik. In Sozialen Netzwerken mokieren sich Fachleute über die schlechte Umsetzung des Chatbots.
Für besondere Empörung sorgt dabei, dass der Chatbot Geschlechterstereotype reproduziert. Nutzer:innen machten sich sofort daran, die Möglichkeiten des Systems auszutesten und bekamen dabei einiges geboten. Auf die Frage nach möglichen Berufen für einen Mann mit hervorragendem Schulabschluss empfiehlt er etwa IT-Berufe und Handel. Die gleiche Frage für eine Frau führt zu der Empfehlung, Gender Studies oder Philosophie zu studieren.
ChatGPT ist ein sogenanntes Large Language Model (LLM), das mit großen Mengen an historischen Daten gefüttert wurde, um menschliche Antworten simulieren zu können. Dass solche Sprachmodelle massive rassistische und geschlechtsbezogene Vorurteile aufweisen, ist ein bekanntes Problem. Meist sind dafür unter anderem die Trainingsdaten verantwortlich, die von solchen Vorurteilen strotzen. Eine solche unbeabsichtigte Verzerrung wird auch Bias genannt. Sie im Nachhinein aus den Modellen zu entfernen, kommt einer Mammutaufgabe gleich, die selbst mit hohem Aufwand nur teilweise gelingen kann. Die Macher von ChatGPT können ein Lied davon singen.
Eine Regel soll Probleme von ChatGPT aufheben
Im AMS hat man hingegen offenbar geglaubt, ein paar zusätzliche Anweisungen an ChatGPT würden ausreichen, um gegenzusteuern. Nutzer:innen hatten mit findigen Fragen schnell herausgefunden, welche Regeln der Chatbot befolgen sollte – seinen sogenannten System Prompt. Eine Regel lautet: Unterscheide nicht zwischen Männern und Frauen bei Berufsempfehlungen. Dass dies offenbar nicht funktioniert, zeigen die vielen Versuche, die auf Plattformen wie X und Mastodon dokumentiert sind.
AMS-Chef Johannes Kopf verteidigt den Chatbot dennoch vehement. Als direkte Reaktion einer Nutzerin auf X schreibt er: „Wir haben das System so trainiert, dass es möglichst keinen Unterschied zwischen vermeintlich weiblichen oder männlichen Berufen macht. Wir haben das System bisher nicht darauf trainiert, bewusst ‚Ich bin ein Mann/Frau‘ richtig beantworten zu können.“ Man arbeite weiter an dem Problem. Wie das jedoch mit einem Modell wie ChatGPT und dessen bekannten Begrenzungen gelingen soll, darauf geht Kopf nicht ein.
300.000 Euro für ein Fertigprodukt
Auch die Kosten für das System, laut AMS rund 300.000 Euro, sieht Kopf als gerechtfertigt an. Dabei hat das AMS den Chatbot offenbar von einem externen KI-Unternehmen zugekauft, das solche Bots als fertige Lösungen quasi „von der Stange“ anbietet. Unter anderem findet sich der gleiche Chatbot auf einer Tourismus-Webseite für Basel. Für den Einsatz als Berufsberater wurde der Chatbot unter anderem mit bereits existierenden Informationsseiten des AMS wie dem Berufslexikon verknüpft. Auf bestimmte Anfragen referiert der Bot dann auch fleißig Einträge daraus, ergänzt um entsprechende Links.
Auch ein weiteres bekanntes Problem von Sprachmodellen weist der Bot auf: Er denkt sich Dinge aus. Fachleute sprechen von Halluzinationen, wenn ChatGPT oder Konkurrenten wie Google Bard voller Zuversicht Antworten präsentieren, die schlichtweg erfunden sind. Im Fall des Berufsinfomats führt das zu unbeabsichtigten Lachern, etwa wenn er auf die Frage „Was brauche ich als professioneller Nasenbär“ eine Ausbildung im Bereich Zoologie oder Tiermedizin empfiehlt.
ChatGPT als Blackbox mit eingebautem Bias
„ChatGPT ist bis zu einem gewissen Grad immer eine Black Box“, sagt Paola Lopez, die als Mathematikerin zu Künstlicher Intelligenz und Gerechtigkeit forscht. Über die Antworten eines solchen Systems habe man keine Kontrolle. Trotzdem sei das AMS als Institution dafür verantwortlich – eine schwierige Situation.
Lopez glaubt nicht, dass sich die Verzerrungen aus datenbasierten Modellen wie ChatGPT im Nachhinein noch entfernen ließen. Diese basierten nun einmal darauf, Muster zu erkennen und reproduzierten damit auch Stereotype. Den Versuch, solchen Modellen diese Stereotype abzugewöhnen, vergleicht Lopez mit einem Wasserkocher, dem man das Kochen von Wasser abgewöhnen wolle. „Sicherlich kann man im Nachhinein zu dem kochenden Wasser kaltes Wasser hinzugeben, um die Effekte zu minimieren, doch das beseitigt das grundlegende Problem nicht: Ein Wasserkocher kocht Wasser und ein datenbasiertes Modell reproduziert Muster und Stereotype.“
Die Mathematikerin kritisiert, dass das AMS den Chatbot vor der Veröffentlichung offenbar nicht einmal simpelsten Tests unterzogen hat. „Dass User*innen innerhalb von wenigen Minuten per Intuition diese Biases finden konnten, die gut bezahlten Expert*innen im Vorfeld aber nicht, ist erstaunlich.“
Effizienz um den Preis der Diskriminierung
Laut Kopf hatte das AMS das System vor dem Launch monatelang umfassend mit Berater:innen und Nutzer:innen getestet. Seine Ausführungen, die er nach wie vor auch in langen Threads auf X veröffentlicht, legen allerdings nahe, dass man die Vorurteile und anderen Schwächen des Systems bewusst in Kauf genommen hat. „Wir werden lernen, ihre Vorteile zu nützen und ihre Schwächen zu kennen“, postete Kopf heute auf X. „Das AMS hat sich bewusst dazu entschieden, als öffentliche Institution, die sich viel mit den Auswirkungen moderner Technologien auf den Arbeitsmarkt beschäftigt, hier voranzugehen.“
Lopez kritisiert, dass sich das AMS damit „gegen Qualität und für Quantität“ entschieden habe. „Das ist gerade in sensiblen Lebenssituationen wie der Jobsuche und der beruflichen Orientierung schade. Das sind Wertentscheidungen, die in naher Zukunft viele Institutionen treffen müssen: Was ist uns die vermeintliche Effizienz von KI wert? “ Effizienz habe oft einen hohen Preis, den benachteiligte Gruppen zahlen müssten. „In diesem Fall ist der Preis der Effizienz die Akzeptanz, dass systematische Biases sich durchziehen und Stereotype reproduziert werden.“
Wo es in dieser Wertefrage steht, hat das AMS bereits vor einigen Jahren klargestellt: Mit der Einführung eines Algorithmus zur Bewertung der Jobchancen von Arbeitslosen hatte die Behörde 2019 für Aufregung gesorgt. Der Algorithmus sollte den Berater:innen des AMS damals die Entscheidung erleichtern, welche Arbeitssuchenden Zugang zu Schulungen und Trainings erhalten. Frauen, Mütter oder Menschen mit Behinderungen wurden dabei schlechter bewertet. Bereits damals ging es also schon um Vorurteile eines Systems, das mit historischen Arbeitsmarktdaten trainiert wurde.
Die österreichische Datenschutzbehörde hat den Einsatz des Algorithmus im Sommer 2020 untersagt, der Testbetrieb des Algorithmus wurde daraufhin eingestellt. Inzwischen liegt der Fall beim übergeordneten Verwaltungsgerichtshof. Bis heute gibt es kein abschließendes Urteil.
Die Arbeit von netzpolitik.org finanziert sich zu fast 100% aus den Spenden unserer Leser:innen.
Werde Teil dieser einzigartigen Community und unterstütze auch Du unseren gemeinwohlorientierten, werbe- und trackingfreien Journalismus jetzt mit einer Spende.
0 Commentaires