Offener Brief der Wissenschaft: Das Client-Side-Scanning ist zum Scheitern verurteilt

Die EU-Kommission will massenweise persönliche Nachrichten scannen, um Darstellungen von sexuellem Missbrauch zu bekämpfen. Wissenschaftler:innen aus aller Welt fordern nun, die Pläne zurückzuziehen. Sie hätten ohnehin keine Aussicht auf Erfolg. „Das lobenswerte Ziel, Kinder zu schützen, ändert an dieser technischen Realität nichts.“ Wir haben den Brief übersetzt.

Rot-weißer Briefkasten — Am Dienstag gab es Post für die EU-Kommission – Gemeinfrei-ähnlich freigegeben durch unsplash.com Bundo Kim

Wir haben bereits zuvor über diesen Brief berichtet, das englischsprachige Orginal wurde mittlerweile von über 300 Wissenschaftler:innen und Forschenden unterzeichnet.

Übersetzung: Johannes Gille

Sehr geehrte Mitglieder des Europäischen Parlaments,
Sehr geehrte Mitgliedsstaaten des Europarates,

Gemeinsame Erklärung von Wissenschaftler:innen und Forschenden zur vorgeschlagenen EU-Verordnung zum sexuellen Missbrauch von Kindern: 4. Juli 2023

Diese Erklärung wurde von Wissenschaftler:innen und Forschenden aus der ganzen Welt unterzeichnet.

Zuallererst erkennen wir an, dass sexueller Missbrauch und sexuelle Ausbeutung von Kindern ein sehr schweres Verbrechen ist, das den Überlebenden lebenslange Schäden zufügen kann. Es liegt in der Verantwortung der staatlichen Behörden, mit Unterstützung von Unternehmen und Netzwerken wirksame Maßnahmen zu ergreifen, die dieses Verbrechen verhindern und schnell darauf reagieren, wenn es dennoch geschieht.

Die Europäische Kommission hat ein Gesetz vorgeschlagen, dessen erklärtes Ziel es ist, die Verbreitung von Material über sexuellen Kindesmissbrauch und das Grooming von Kindern im Internet zu stoppen. Um dieses Ziel zu erreichen, befugt es Behörden dazu, die Anbieter von Apps oder anderen Online-Diensten zu verpflichten, die Nachrichten, Bilder, E-Mails, Sprachnachrichten und anderen Aktivitäten ihrer Nutzer:innen zu überprüfen. Im Falle von Ende-zu-Ende-verschlüsselten Apps wird behauptet, dass diese Überprüfung auf den Geräten der Nutzer:innen durchgeführt werden kann – mit sogenanntem „Client-Side Scanning“ (CSS).

Die Wirksamkeit des Gesetzes (in Hinblick auf seine erklärten Ziele) hängt von der Existenz wirksamer Technologien zum Scannen ab. Leider sind die Scanning-Technologien, die derzeit existieren oder sich abzeichnen, mit erheblichen Mängeln behaftet. Diese Mängel – die wir weiter unten im Detail beschreiben – bedeuten, dass das Scannen dazu verurteilt ist, ineffektiv zu sein. Darüber hinaus führt das Scannen von Endgeräten in großem Umfang zu Nebenwirkungen, die für alle Internet-Nutzer:innen äußerst schädlich sein können. Es könnte dazu beitragen, dass das Internet und die digitale Gesellschaft auf der ganzen Welt weniger sicher werden.

Da die von uns beschriebenen Probleme Maßnahmen betreffen, die den Kern des EU-Gesetzesvorschlags bilden, empfehlen wir als Wissenschaftler:innen, einen solchen Vorschlag nicht weiterzuverfolgen. Wir wissen bereits, dass diese Technologie nicht – oder zumindest nicht sicher – eingesetzt werden kann. Es ist weder sinnvoll noch vertretbar, private Unternehmen dennoch zu ihrer Nutzung zu verpflichten. Sexueller Missbrauch von Kindern ist ein furchtbares Vergehen. Angesichts dessen ist es verständlich und in der Tat verlockend, darauf zu hoffen, dass wir es mithilfe einer technologischen Intervention ausrotten könnten. Bei einer ganzheitlichen Betrachtung des Themas kommen wir jedoch nicht um die Schlussfolgerung herum, dass der vorliegende Vorschlag keine solche Intervention darstellt.

Dieses Gesetzes zu verabschieden untergräbt die durchdachte und bedeutende Arbeit, die europäische Forschende zur Cybersicherheit und zum Datenschutz geleistet haben, inklusive ihrer Beiträge zur Entwicklung globaler Verschlüsselungsstandards. Das wird das Arbeitsumfeld in den Bereichen Sicherheit und Datenschutz in Europa schwächen und unsere Fähigkeit zum Aufbau einer sicheren digitalen Gesellschaft beeinträchtigen.

Die vorgeschlagene Verordnung würde auch einen globalen Präzedenzfall für die Filterung des Internets schaffen; Sie würde kontrollieren, wer darauf zugreifen kann und den Menschen einige der wenigen Instrumente wegnehmen, mit denen sie ihr Recht auf ein Privatleben im digitalen Raum schützen können. Dies wird einen „chilling effect“ auf die Gesellschaft haben und sich vermutlich negativ auf Demokratien auf der gesamten Welt auswirken.

Wir warnen daher eindringlich davor, diese oder ähnliche Maßnahmen zu verfolgen. Ihr Erfolg angesichts der aktuell verfügbaren und absehbaren Technologie ist ausgeschlossen, und ihr Schadenspotenzial ist erheblich.

1. Technologien zur Erkennung haben schwere Mängel und sind anfällig für Angriffe

Werkzeuge, die für die Suche nach bekanntem Material von sexuellem Kindesmissbrauch (CSAM – Child Sexual Abuse Material) eingesetzt werden, dürfen selbst kein CSAM-Material enthalten, da dies große Risiken mit sich bringen würde. Die einzige skalierbare Technologie zur Lösung dieses Problems besteht daher darin, bekannte Inhalte mit einer sogenannten Perceptual-Hash-Funktion umzuwandeln und eine Liste der resultierenden Hash-Werte zum Vergleich mit potenziellem CSAM-Material zu verwenden. Eine Perceptual-Hash-Funktion muss zwei Anforderungen erfüllen: (I) Sie sollte leicht zu berechnen, aber schwer zu invertieren sein. (II) Kleine Änderungen an einem Bild sollten zu kleinen Änderungen der Hash-Ausgabe führen, wodurch ein bekanntes Bild auch nach einer Bildmanipulation noch erkannt werden kann. Das hört sich einfach an, aber nach mehr als zwei Jahrzehnten der Forschung gab es noch keine wesentlichen Fortschritte bei der Entwicklung von Funktionen, die diese Eigenschaften erfüllen.

Die Forschung hat gezeigt, dass es bei allen bekannten Perceptual-Hash-Funktionen praktisch immer möglich ist, durch kleine Änderungen an einem Bild eine große Änderung des Hash-Wertes zu verursachen. Damit kann eine Erkennung umgangen werden – es entsteht ein falsch negativer Fehler. Darüber hinaus ist es auch möglich, ein legitimes Bild zu erstellen, das den gleichen Hash-Wert wie ein in der Datenbank vorhandenes Bild hat. Dieses würde daraufhin fälschlicherweise als illegales Material erkannt werden – ein falsch positiver Fehler. Dies ist auch ohne Kenntnis der Hash-Datenbank möglich. Ein solcher Angriff könnte dazu verwendet werden, unschuldige Nutzer:innen zu bezichtigen. Darüber hinaus wäre es möglich, Strafverfolgungsbehörden mit falsch positiven Meldungen zu überschwemmen, wodurch Ressourcen von den eigentlichen Ermittlungen zum sexuellen Missbrauch von Kindern abgezogen werden würden.

Solche Angriffe sind nicht reine Theorie: Für konkrete Entwürfe wie PhotoDNA, die PDQ-Hash-Funktion von Facebook und die NeuralHash-Funktion von Apple wurden in der Literatur effiziente Angriffe beschrieben. Die einzige Möglichkeit, solche Angriffe zu vermeiden, besteht bislang darin, die Details der Perceptual-Hash-Funktionen geheim zu halten. Diese „Security by Obscurity“ (Sicherheit durch Verschleierung) widerspricht nicht nur grundlegenden sicherheitstechnischen Prinzipien, sondern ist in der Praxis nur dann realisierbar, wenn die Perceptual-Hash-Funktion ausschließlich dem Dienstanbieter bekannt ist. Bei der Ende-zu-Ende-Verschlüsselung muss der Hash-Vorgang jedoch auf dem Endgerät stattfinden. Daher ist die erfolgreiche Geheimhaltung der verwendeten Funktion eine Illusion.

Ein Verfahren wäre nötig, welches auf Endgeräten der Nutzer:innen laufen kann, und bekannte CSAM-Inhalte (oder Inhalte, die von diesen abgeleitet sind oder mit ihnen in Zusammenhang stehen) erkennen kann, ohne dass illegale Informationen nach außen dringen. Als Wissenschaftler:innen rechnen wir nicht damit, dass es in den nächsten 10 bis 20 Jahren möglich sein wird, eine skalierbare und zuverlässige Lösung für dieses Problem zu entwickeln.

Der Vorschlag der Europäischen Kommission geht jedoch über die Suche nach bekannten Inhalten hinaus. Er verlangt auch, dass neu erstellte CSAM-Bilder oder -Videos mithilfe von Werkzeugen der „künstlichen Intelligenz“ (KI) erkannt werden. Darüber hinaus sieht der Vorschlag vor, dass mit ähnlichen Technologien Grooming in Kommunikationsdiensten erkannt werden soll, die sowohl Text als auch Audio enthalten. Einige kommerzielle Anbieter behaupten, dass sie dahingehend Fortschritte gemacht hätten. Ihre Entwürfe bleiben jedoch geheim, und es hat keine offene und objektive Bewertung stattgefunden, die deren Wirksamkeit belegen könnte. Der Stand der Technik beim maschinellen Lernen lässt außerdem vermuten, dass so etwas weit über das hinausgehen, was heutzutage machbar ist. Jedes Mal, wenn CSS-Entwürfe evaluiert wurden (wie bei einem vom Britischen Innenministerium finanzierten Prototypen), stellte sich heraus, dass sie weder wirksam noch mit dem Datenschutz oder den Menschenrechten vereinbar waren.

KI-Werkzeuge können darauf trainiert werden, bestimmte Muster mit hoher Präzision zu erkennen. Allerdings machen sie regelmäßig Fehler, auch solche, die einem Menschen sehr einfach erscheinen. Das liegt daran, dass KI-Systemen der Kontext und der gesunde Menschenverstand fehlen. Es gibt einige Aufgaben, für die KI-Systeme gut geeignet sind. Die Suche nach einer sehr nuancierten, sensiblen Straftat – und darum handelt es sich beim Grooming-Verhalten – gehört jedoch nicht zu diesen Aufgaben.

Bei dem Ausmaß, in dem private Kommunikation online ausgetauscht wird, würde selbst das Scannen der in der EU ausgetauschten Nachrichten bei nur einem einzigen App-Anbieter jeden Tag Millionen von Fehlern erzeugen. Daraus folgt, dass beim Scannen von Milliarden von Bildern, Videos, Texten und Sprachnachrichten pro Tag die Zahl der Fehlalarme in die Hunderte von Millionen gehen würde. Außerdem ist wahrscheinlich, dass es sich bei vielen dieser Fehlalarme um sehr private, wahrscheinlich intime und völlig legale Bilder handelt, die einvernehmlich zwischen Erwachsenen verschickt werden.

Dies kann nicht durch Innovation verbessert werden: Falsch positive Meldungen (Inhalte, die fälschlicherweise als rechtswidriges Material gekennzeichnet werden) sind eine statistische Gewissheit, wenn es um KI geht. Auch beim Einsatz von Technologien zur Erkennung von CSAM-Material – selbst wenn es bereits bekannt ist – sind solche Meldungen unvermeidlich. Die einzige Möglichkeit, solche Fehler auf eine akzeptable Marge zu reduzieren, bestünde darin, nur in engen und wirklich gezielten Fällen zu scannen, in denen ein vorheriger Verdacht besteht. Darüber hinaus müsste genügend Personal zur Verfügung stehen, um die falsch-positiven Ergebnisse zu verarbeiten. Andernfalls könnten die Kosten angesichts der großen Anzahl von Personen, die zur Überprüfung von Millionen von Texten und Bildern benötigt werden, untragbar sein. Dies ist jedoch nicht das, was der Vorschlag der Europäischen Kommission vorsieht.

Das im Entwurf des CSAM-Vorschlags vorgesehene Meldesystem wird wahrscheinlich neuartige Angriffe auf Erkennungstechnologien hervorrufen. Denn derzeit liegt es im Ermessen der Anbieter, offensichtliche Fehlalarme auszusieben. Unter dem neuen System wären sie jedoch verpflichtet, auch Inhalte zu melden, bei denen es sich höchstwahrscheinlich nicht um CSAM handelt. Neben den von uns erwähnten Angriffen tauchen viele weitere in spezialisierten akademischen Foren auf. Wir gehen davon aus, dass noch mehr von Personen vorbereitet werden, die tatsächlich illegales Material verbreiten wollen.

Schließlich wurde behauptet, dass die Erkennung von CSAM möglich sein sollte, da das Scannen nach Computerviren bereits eine weit verbreitete Technologie ist. Obwohl beide Verfahren oberflächlich betrachtet ähnlich scheinen, gibt es zwischen ihnen wesentliche Unterschiede. Erstens werden Nutzer:innen gewarnt, wenn ein Computervirus entdeckt wird, woraufhin der Virus entfernt werden kann. Zweitens kann ein Virus anhand einer kleinen Zeichenkette eindeutig identifiziert werden, was bei einem Bild oder Video nicht der Fall ist: Es wäre sehr einfach, einen Teil davon zu entfernen oder leicht zu verändern, ohne das Erscheinungsbild zu verändern; bei einem Virus hingegen würde dies den Code unbrauchbar machen. Schließlich können Machine-learning-Modelle virales Verhalten manchmal erkennen, sofern dieses Verhalten genau definiert werden kann (z.B. Code, der sich selbst kopiert). Dies steht im Gegensatz zur Definition von CSAM, für das klare Grenzen nicht einfach festgelegt werden können.

2. Technische Auswirkungen einer Schwächung der Ende-zu-Ende-Verschlüsselung

Die Ende-zu-Ende-Verschlüsselung ist so konzipiert, dass nur Absender und der Empfänger den Inhalt einer Nachricht oder anderweitigen Kommunikation sehen können. Verschlüsselung ist das einzige Werkzeug, das wir zum Schutz unserer Daten in der digitalen Welt haben; alle anderen sind nachweislich kompromittiert. Die Verwendung von Verbindungsverschlüsselung (von Nutzer:inen zum Provider und vom Provider zu Nutzer:innen) mit Entschlüsselung in der Mitte, wie sie im Mobiltelefonsystem verwendet wird, ist unter der aktuellen Bedrohungslage keine akzeptable Lösung. Es liegt auf der Hand, dass eine Ende-zu-Ende-Verschlüsselung das Scannen nach bekannten oder neuen Inhalten und die Erkennung von Grooming beim Dienstanbieter unmöglich macht.

Um hier Abhilfe zu schaffen, wurde eine Reihe von Techniken mit der Bezeichnung „Client-Side Scanning“ (CSS) vorgeschlagen. Mit diesen kann auf verschlüsselte Kommunikation zugegriffen werden, ohne die Verschlüsselung brechen zu müssen. Solche Werkzeuge sollen angeblich funktionieren, indem sie Inhalte auf dem Gerät der Nutzer:innen scannen, bevor sie verschlüsselt oder nachdem sie entschlüsselt wurden. Daraufhin würden sie melden, wenn unerlaubtes Material gefunden wurde. Man könnte dies mit der Installation von Videokameras in unseren Häusern vergleichen, die jedes Gespräch belauschen und den Behörden melden, wenn wir über verbotene Themen sprechen.

Der einzige Einsatz von CSS in der freien Welt erfolgte 2021 durch Apple, das damals behauptete, es handle sich um den neuesten Stand der Technologie. Der Versuch wurde nach weniger als zwei Wochen abgebrochen, wegen Bedenken hinsichtlich des Datenschutzes und der Tatsache, dass das System bereits gekapert und manipuliert worden war.

Wenn CSS auf dem Gerät einer Person installiert wird, verhält es sich wie Spionagesoftware und ermöglicht damit Dritten, einfachen Zugang zu diesem Gerät zu erhalten. Jedes Gesetz, das CSS oder andere Technologien für den Zugriff, die Analyse oder die Weitergabe von Kommunikationsinhalten vorschreibt, untergräbt zweifellos die Verschlüsselung. Damit beeinträchtigt es die Sicherheit der Kommunikation von uns allen. Das lobenswerte Ziel, Kinder zu schützen, ändert an dieser technischen Realität nichts.

Selbst wenn ein solches CSS-System realisierbar wäre, besteht ein extrem hohes Risiko, dass es missbraucht werden würde. Wir gehen davon aus, dass auf die politischen Entscheidungsträger:inen erheblicher Druck ausgeübt werden würde, den Umfang der Maßnahme auszuweiten. Zunächst ginge es bei der Datenerfassung um die Anwerbung von Terrorist:innen, dann andere kriminelle Aktivitäten und schließlich um dissidente Äußerungen. So würde es beispielsweise für weniger demokratische Regierungen ausreichen, die Datenbank mit Hash-Werten von bekannten CSAM-Inhalten (wie oben erläutert) um Hash-Werte regimekritischer Inhalte zu erweitern. Da die Hash-Werte keine Informationen über den Inhalt selbst liefern, wäre es für Außenstehende unmöglich, diesen Missbrauch zu erkennen. Die CSS-Infrastruktur könnte dann genutzt werden, um alle Nutzer:innen mit diesen Inhalten sofort an die Regierungen zu melden.

Wenn ein solcher Mechanismus implementiert werden würde, müsste er zum Teil durch „security by obscurity“ erfolgen. Andernfalls wäre es für Nutzer:innen ein Leichtes, die Erkennungsmechanismen zu umgehen, indem sie beispielsweise die Datenbank von Hash-Werten leeren oder einige Überprüfungen umgehen. Dies bedeutet, dass die Transparenz der Anwendung beeinträchtigt wird, was von einigen Akteuren als Vorwand genutzt werden könnte, um weitere persönliche Nutzerdaten zu sammeln.

3. Effektivität

Wir haben ernsthafte Bedenken, ob die von der Verordnung beschriebenen Technologien wirksam wären: Täter:innen wären sich ihrer bewusst und würden auf neue Techniken, Dienste und Plattformen ausweichen, um CSAM-Informationen auszutauschen und dabei der Entdeckung zu entgehen.

Die vorgeschlagene Verordnung wird die Meinungsfreiheit von Kindern beeinträchtigen, da ihre Gespräche ebenfalls Alarme auslösen könnten. Die nationalen Strafverfolger befassen sich vor Ort in der Regel auf nuancierte Weise mit intimen Nachrichten zwischen Teenagern, die noch nicht volljährig sind. Diese Technologien verändern die Beziehung zwischen den Menschen und ihren Geräten, und es wird schwierig sein, eine solche Nuancierung wieder einzuführen. Für andere Nutzer:innen haben wir große Bedenken durch die „chilling effects“, die die Präsenz dieser Erkennungsmechanismen haben würde.

Schließlich erfordert die zu erwartende große Zahl falsch positiver Ergebnisse einen erheblichen Ressourceneinsatz und birgt gleichzeitig die Gefahr für alle Nutzer:innen, fälschlicherweise identifiziert zu werden. Diese Ressourcen könnten besser für andere Maßnahmen zum Schutz von Kindern vor sexuellem Missbrauch eingesetzt werden. Die meisten Maßnahmen zum Schutz von Kindern müssen vor Ort ergriffen werden. Dennoch könnte eine Gesetzgebung auf Basis der bestehenden Befugnisse (DMA/DSA) helfen, um von den sozialen Netzwerkdiensten zu verlangen, den Nutzer:innen die Beschwerde über Missbrauch zu erleichtern. In der Praxis sind es eher die Beschwerden der Nutzer:innen als eine KI, die zur Identifikation von neuem Missbrauchsmaterial führen.

Unterzeichnet,

Liste der Unterschreibenden

Die Arbeit von netzpolitik.org finanziert sich zu fast 100% aus den Spenden unserer Leser:innen.
Werde Teil dieser einzigartigen Community und unterstütze auch Du unseren gemeinwohlorientierten, werbe- und trackingfreien Journalismus jetzt mit einer Spende.