Unternehmen wie OpenAI bewerben Künstliche Intelligenz als Allheilmittel, auch für digitale Barrierefreiheit. Sie soll Lücken schließen, wo Ressourcen knapp und Expertisen teuer sind. In ihrem Vortrag auf dem 37. Chaos Communication Congress erklärt Casey Kreer, was KI-Systeme wirklich leisten können – und wo die Technologie versagt.
Digitale Barrierefreiheit, digitale Teilhabe, Inklusion – auch das gehört zu den Versprechen der Unternehmen hinter modernen KI-Systemen. Sie zeichnen eine rosige Zukunft, in der mithilfe der KI möglichst alle Menschen mit und ohne Behinderung an der Gesellschaft teilhaben können. Casey Kreer, freiberufliche Beraterin für Barrierefreiheit und Web-Entwicklerin, kommt zu einem anderen Urteil: „Wir werden mit den Fehlern der KI leben müssen. Das ist gefährlich, aber das ist die Realität.“
Es gebe zwar ein paar brauchbare Anwendungen von KI-Systemen für Barrierefreiheit, wie Kreer auf dem 37. Chaos Communication Congress in Hamburg erklärt. Doch dann räumt sie mit dem Mythos auf, dass KI ein Allheilmittel sei. Kreer nutzt seit ihrem sechsten Lebensjahr assistive Technologien, hat eine angeborene Sehbehinderung. Sie verwendet Spezialtastaturen und -mäuse, Spracheingabe- und Vergrößerungssoftware sowie Screenreader.
KI kann, so Kreer, ein gutes Werkzeug sein, wenn wir sie selbstbestimmt benutzen. Menschen mit Behinderung kann sie im Alltag unterstützen, etwa über automatisch generierte Alternativ-Texte für Bilder. Diese Texte beschreiben, was auf einem Bild zu sehen ist. Gerade auf sozialen Medien können Nutzer:innen mithilfe Alt-Texte ihre geposteten Bilder besser zugänglich machen. Ohne Alt-Texte fehlt Menschen mit Sehbehinderung ein großer Teil an Information.
Verschiedene Produkte versuchen, diese Lücke zu schließen, etwa die Bilderkennung von Apples Betriebssystem iOS oder der Text-Generator ChatGPT, dessen aktuellste Version GPT-4 ist. Während die iOS-Lösung nur sehr wenige Informationen liefert, ist ChatGPT deutlich ausführlicher in der Beschreibung eines Bildes. Denn die großen Sprachmodelle dahinter sind multimodal und können auch zusätzliche Befehle beachten. „Beispielsweise kann ich, wenn ich in einem Museum bin, das Sprachmodell dazu auffordern, mir statt einer Beschreibung des Bildes ein Gedicht zu generieren oder ein Lied“, sagt Kreer. „Das erlaubt mir verschiedene Zugänge zu dem Bild.“ Eine solche Art der Teilhabe sei zuvor nicht möglich gewesen.
ChatGPT als Hilfsmittel
Mit der Bilderkennung von GPT-4 ist noch mehr möglich. Damit lassen sich etwa Programmoberflächen erkennen und akkurat beschreiben, wie Kreer erläutert. Das ist sehr hilfreich, wenn man einen Screenreader nutzt, um mit dem Computer zu interagieren.
Auch im Bereich leichte und einfache Sprache können Sprachmodelle wie GPT-4 unterstützen. Das ist besonders für Menschen wichtig, die eine Lern- oder kognitive Behinderung haben. Sie profitieren sehr davon, wenn Inhalte einfach aufbereitet oder zusammengefasst sind, Fremdwörter oder komplexe Text- und Satzstrukturen aufgelöst sind. Dazu gibt man Sprachmodellen ein Regelwerk vor, wie sie Texte in einfache Sprache übersetzen sollen. In Form eines Werkzeugs, das sie selbstbestimmt nutzen, erlaubt das Menschen einen Zugang zu Inhalten, den sie vorher nicht hatten.
Hilfreich sind große Sprachmodelle auch beim Programmieren; hierzu teilt Kreer Erfahrungen aus ihrem Arbeitsalltag. „Wenn man blind ist, ist es schwierig, einen Überblick über den Code zu haben.“ Mit der Sprachausgabe des Screenreaders kann sich Kreer nur jeweils eine Zeile Code anhören. Die muss sie sich im Kopf merken, um sie in den Kontext des Codes setzen zu können. Große Sprachmodelle wie bei GPT-4 erleichtern die Arbeit, indem sie auch allgemeinere Fragen zum Code verarbeiten und Antworten liefern könnten.
Schließlich seien Sprachmodelle häufig auch eine große Hilfe bei der Online-Recherche, da sie Suchergebnisse verschiedener Suchmaschinen miteinander verknüpfen und zusammenfassen. Das sei in der Form zuvor nicht möglich gewesen, so Kreer. Auch können Sprachmodelle Untertitel automatisiert generieren, was für Menschen mit Behinderung Zugang zu Videoinhalten schaffen kann.
Wenn Sprachmodelle Quatsch produzieren
Doch gerade an diesem Beispiel zeigt sich eine Gefahr von Sprachmodellen. Zum Beispiel lässt sich mit KI-Systemen gesprochenes Wort in Text umwandeln; auf diese Weise entstehen automatisch generierte Untertitel. Die Untertitel-Funktion bei YouTube-Videos zum Beispiel produziere häufig auch Quatsch, der absolut unverständlich ist, kritisiert Kreer. Oft würden Technologien auf vorhandene Strukturen aufgesetzt, ohne dass sie einen Mehrwert liefern.
KI-Systeme können auch den umgekehrte Weg gehen und geschriebene Worte und gesprochene Sprache umwandeln. Dann nennt man text to speech, kurz TTS. Die Qualität solcher TTS-Software ist häufig gut, wie Kreer erklärt. Jedoch könne es passieren, dass diese Programme Texten falsche Informationen hinzuzufügen. So berichtet Kreer von einem Vorfall, in dem iOS beim Vorlesen die Zahl Fünf in eine 50.000 verwandelte.
Problematisch wird es auch, wenn KI-Systeme aufgrund vermeintlicher Sicherheits-Einstellungen Informationen unterschlagen. Zum Beispiel, wenn ein Bilderkennungssystem keine Bilder beschreibt, in denen viel Blut zu sehen ist. Damit bestimmt das Programm, auf welche Inhalte Menschen barrierefrei zugreifen dürfen und auf welche nicht. Es verhindert selbstbestimmte Information, wie Kreer erklärt.
Vorurteile, Faulheit und kommerzielle Interessen
Ein anderes großes Problem ist der Bias, der in die Modelle eingeschrieben ist. Der Begriff meint etwa Verzerrungen, Vorurteile und die systematische Stereotypisierung von Menschen. Das zeigt ein Beispiel des Bildgenerators DALL-E der Firma OpenAI. Als Kreer damit ein Bild von einer blinden Person generieren ließ, erschien in sechs von sechs Fällen die Darstellung eines jungen, weißen Mannes; gepflegt gekleidet mit Sonnenbrille und Blindenstock. Auffällig sei an den Bildern die unrealistische Haltung des Stocks, sagt Kreer. Das liege daran, dass die Modelle unvollständige Daten haben, in denen blinde Menschen nicht adäquat repräsentiert sind.
„KI ist ein Abbild der Gesellschaft, das Vorurteile eins zu eins spiegelt“, so Kreer. Der Bias stecke bereits in den grundlegenden Daten. Es sei fatal, wenn Menschen schlechte KI-Outputs akzeptieren. Leider sei das häufig der Fall, denn Menschen „sind faul und ableistisch“, sagt Kreer.
Und da gibt es noch ein Problem: Der Treiber von Technologien für Barrierefreiheit sind in der Regel Start-ups wie etwa accessiBe oder Userway. Sie entwickeln Lösungen, die sich gewinnbringend an Staaten oder große Unternehmen verkaufen lassen. Damit sind Menschen mit Behinderung nicht mehr die eigentliche Klientel und die Produkte werden nicht für sie optimiert, wie aus Kreers Vortrag hervorgeht.
Wie der Konflikt zwischen Betroffenen und Unternehmen eskalieren kann, zeigt etwa der Fall von Adrian Rosella, den Kreer in ihrem Vortrag anspricht. Rosella ist Experte für Technologie für Barrierefreiheit und kam zu dem Schluss: „KI sorgt nicht für mehr Inklusion.“ Öffentlich hatte er auf X, ehemals Twitter, die technischen Lösungen von Unternehmen wie AudioEye kritisiert und vor überzogenen Erwartungen an die Technologie gewarnt. Letztlich drohte ihm die Firma sogar mit rechtlichen Konsequenzen.
Dass KI nicht für mehr Inklusion sorgt, liege laut Kreer daran, dass sie selbst ableistisch ist. Und das lasse sich auch nicht ändern. Technische Lösungen für digitale Barrierefreiheit zu entwickeln, das gehöre in die Hände von Menschen mit Behinderung; KI könne diese Aufgabe nicht übernehmen.
Die Arbeit von netzpolitik.org finanziert sich zu fast 100% aus den Spenden unserer Leser:innen.
Werde Teil dieser einzigartigen Community und unterstütze auch Du unseren gemeinwohlorientierten, werbe- und trackingfreien Journalismus jetzt mit einer Spende.
0 Commentaires