KI im Journalismus: „Laschet, Scholz oder Baerbock hätten wir nicht synthetisieren dürfen“

Es ist morgens sechs Uhr, wir stehen auf und machen uns fertig für die Arbeit. Kurz öffnen wir unsere Nachrichten-App, wählen die Tagesthemen aus und Tom Buhrow – der das Format eigentlich schon 2013 verlassen hatte – begrüßt uns als künstlich generierte, digitale Figur mit dem heutigen Tagesgeschehen. Was in deutschen Öffentlich-Rechtlichen bislang unüblich ist, beschreibt das Innovation Hub des WDR in seinem „Zukunftsreport“ als mögliches Alltagsszenario.

Auf der diesjährigen re:publica hat der WDR im Panel „Synthetische Medien, Deepfakes und der Journalismus der Zukunft“ vorgestellt, wie vier Zukunftsszenarien aussehen können, wenn durch Künstliche Intelligenz (KI) erstellte Texte, Radiosendungen oder Videobeiträge unseren Alltag prägen. Das Medienhaus hat auch einen eigenen Prototyp präsentiert: Die künstlich erzeugte Radio-Stimme ihrer Moderatorin Steffi Neu. Erst im vergangenen Jahr hatte der WDR sein sogenanntes Innovation Hub errichtet, das mit einem sechsköpfigen Team zukünftige Trends und Entwicklungen für das Medienhaus und die Medienwelt erforscht – dazu zählen synthetische Stimmen.

netzpolitik.org hat mit den beiden WDR-Innovationsmanager*innen Christina Schamp und Philipp Sevenich gesprochen. Im Gespräch ging es unter anderem darum, unter welchen ethischen und rechtlichen Rahmenbedingungen der WDR in Kooperation mit dem Tech-Konzern Microsoft synthetische Medien erstellen könnte.

Etwas „Fühlbares“ auf die Straße bringen

netzpolitik.org: In welchen Bereichen werden synthetische Medien eingesetzt?

Christina Schamp: Die bekannteste bereits genutzte, synthetische Stimme dürfte Alexa sein. Synthetische Videos verbindet man meist mit Deepfakes. Auch bei TikTok können Nutzer*innen mit Filtern beispielsweise das Gesicht mit einer anderen Person austauschen. Man kann synthetische Medien auch für die Personalisierung einsetzen – ein positiver Fall, wo KI ergänzend wirkt.

In der re:publica-Veranstaltung hatten wir bereits die synthetisierte Radiostimme vorgestellt. Man könnte ergänzend zur Radio-Moderation mithilfe der synthetisch hergestellten Stimme personalisiert die reale Stimme der bekannten Radio-Moderator*innen in Apps auf dem Handy oder auf Sprachassistenten verwenden. Und so eine persönliche Ansprache der Nutzer*innen möglich zu machen.

netzpolitik.org: Wie ist der Prototyp „Synthetische Stimme“ entstanden?

Philipp Sevenich: Christina hat den Zukunftsreport geschrieben und wir haben uns überlegt, nicht nur Papier walzen zu lassen, sondern auch etwas „Fühlbares“ auf die Straße zu bringen. Dafür haben wir diesen Prototyp gebaut, in Zusammenarbeit mit Microsoft. Microsoft ist bei dem Thema Text-to-Speech relativ gut aufgestellt, speziell bei der Synthetisierung von Stimmen.

netzpolitik.org: Wie war die Kooperation mit Microsoft gestaltet?

Philipp Sevenich: Die KI Text-to-Speech ist ja nicht neu aber neu ist, dass man bekannte Stimmen synthetisieren kann. Die Entscheidung, mit Microsoft zusammenzuarbeiten kam, da ihnen nicht egal ist, welche Person sie synthetisieren. Denn vorab muss man als Medienunternehmen einen ethischen Fragebogen ausfüllen. Microsoft hat einen ethischen Beirat, der den ganzen Prozess durchläuft. Beispielsweise hat Microsoft die Entscheidung getroffen, dass die synthetische Stimme im ersten Schritt keine News sprechen darf. Darüber hinaus dürften auch keine politischen Personen synthetisiert werden.

netzpolitik.org: Es wäre also nicht möglich gewesen, die Stimme einer politischen Person zu synthetisieren?

Philipp Sevenich: Genau, also Armin Laschet, Olaf Scholz oder Annalena Baerbock hätten wir nicht synthetisieren dürfen. Und auch nicht wollen. Schließlich tragen wir hier eine besondere Verantwortung als Medienhaus. Dazu gehört auch eine klare Kennzeichnung, wenn es zum Einsatz von KI kommt.

netzpolitik.org: Was sind die nächsten Schritte?

Philipp Sevenich: Wir haben nun einen Piloten entwickelt. Wenn wir das Projekt fortsetzen wollen, müssen wir in einem nächsten Schritt genau abklären, in welchen Bereichen wir die synthetische Stimme einsetzen wollen. Microsoft als Partner hat hier hohe ethische Standards festgelegt, einer der entscheidenden Gründe, warum wir das Projekt gemeinsam durchführen.

netzpolitik.org: Wann kann man damit rechnen, dass der WDR die synthetisierte Stimme tatsächlich einsetzt?

Philipp Sevenich: Wir haben mit dem Zukunftsreport zunächst begonnen, den Diskurs zu starten. Der WDR muss nun erst einmal für sich klären, wie er mit dem Thema umgehen will. Wollen wir als Medienhaus überhaupt so ein Projekt angehen? Der nächste Schritt ist, zu schauen, ob die Nutzer*innen eine synthetisierte Stimme befürworten. Deswegen wollen wir nun einen Nutzer*innen-Test machen und uns einen Use Case mit der Steffi Neu-Stimme ausdenken. An einer Testgruppe (etwa 10-20 Menschen) wollen wir herausfinden, ob das Produkt ankommt. Das muss stattfinden, bevor wir für die Umsetzung Geld in die Hand nehmen. Ein weiterer Schritt wird beispielsweise sein, zu klären, wie wir Lizenzierungs-Fragen beantworten können.

„Wir brauchen eine Art Leitplanke“

netzpolitik.org: Vor welche ethischen Herausforderungen stellt der Prozess den WDR als Medienhaus?

Christina Schamp: Wir brauchen eine Art Leitplanke – wir müssen beim WDR definieren: So weit würden wir gehen, das würden wir mit synthetisierten Stimmen machen. Da entstehen viele Fragen. Was lassen wir die Leute sagen und was nicht? Wie geht man beispielsweise mit einer Stimme um, wenn die Person verstorben ist? Wie weit wollen wir bei der Nutzung gehen, wie weit können wir gehen? Das muss alles getestet und ausgelotet werden, bevor wir losschießen und irgendetwas auf den Markt werfen.

netzpolitik.org: Gibt es neben der synthetisierten Stimme bereits Prototypen für Video oder Text vom WDR?

Christina Schamp: Bisher nicht, aber Video ist tatsächlich ein nächster Schritt, den wir prototypisch angehen wollen. Auch hier entstehen zunächst Fragen, ähnlich wie bei der Stimme: Würde das akzeptiert? Und bei Video ist eine zentrale Frage: Wird es ein realer Mensch oder ein Avatar sein, den wir erfinden und den es als Menschen so nicht gibt? Was akzeptiert das Publikum mehr? Gerade beim WDR im Nachrichten-Kontext sind die Bedenken: Das könnten Falschinformationen sein, man kann dem Ganzen nicht mehr trauen. Deshalb bleibt die Frage, ob wir lieber erfundene Personen beziehungsweise Avatare einsetzen, bei denen man sich sicher sein kann: Das hat keine reale Person wirklich gesagt. Das ist nur eine Figur, die unterhält oder Informationen vorträgt. Wir wollen keine Angst schüren, dass man unseren Inhalten nicht trauen kann. Stattdessen wollen wir den Leuten die Angst nehmen, damit sie wissen, keine Fake News von uns zu bekommen.

Kontext: Warum ein künstlicher Avatar die Bedenken um Fake News mindern soll, formuliert der Innovation Hub in dem vierten Szenario seines Zukunftsreports. Ausgangspunkt dieses hypothetischen Schauplatzes ist, dass Menschen keine synthetischen Menschen sehen wollen, da ständige Deep-Fake-Videos, die vor allem für die Verbreitung von Fake News eingesetzt wurden, die Menschen verunsichert haben. Ist das Misstrauen zu groß, vermuten Rezipient*innen sowohl hinter jeder synthetisierten, real existierenden Person als auch hinter normal gefilmten Personen – beispielsweise in einer Nachrichtensendung – eine Manipulation. Diese Gefahr könnten Medienproduzierende mindern, indem sie eine klare Trennung vollziehen. Die live Übertragung von Nachrichten würden ausschließlich existierende, reale Personen übernehmen, für alle anderen Inhalte würden Medien „erfundene“, künstliche Avatare einsetzen und entsprechend kennzeichnen. Dies könnte beispielsweise durch eine Einblendung passieren oder man beschränkt den Einsatz der Avatare auf den Unterhaltungsbereich.

Philipp Sevenich: Für synthetisierten Text setzen wir ein Projekt auf – Texte automatisiert aus Daten zu erstellen ist nicht neu, aber wir würden gerne den Prozess der Etablierung innerhalb von Redaktionen verfolgen. Interessant ist für uns weniger der technologische Aspekt, sondern wie man eine Redaktion dahingehend unterstützen könnte. Da können wir bestimmt in zwei bis drei Monaten mehr zu erzählen.

netzpolitik.org: Sollen die automatisierten Texte in dem Fall die von Menschen ersetzen?

Christina Schamp: Wir wollen niemanden ersetzen – der Mensch bleibt immer im Vordergrund. Es werden keine Moderator*innen oder Journalist*innen entlassen, weil alles synthetisch wird. Die KI wirkt ergänzend, sodass Freiräume für Medienproduzierende geschaffen werden.

netzpolitik.org: Was bedeuten synthetisierte Inhalte für den Journalismus in Sachen Kreativität, Individualität, Authentizität?

Christina Schamp: Es gibt ja bereits Sprachmodelle, die man trainieren kann, mit denen man beispielsweise wie Shakespeare klingt. Man kann Software auch dahingehend trainieren, wie beispielsweise der Schnitt von Bildern aussehen soll. Die Kreativität muss nicht verloren gehen. Die Frage ist, ob man Spracherzeugungs-Software überhaupt einsetzen will und wie viel. Denn der Wortwitz oder das Spontane fehlen – die Maschine macht ja wirklich nur das, was du programmiert hast. Und das will nach jetzigem Stand wahrscheinlich niemand.

Fehlende Regelungen für Öffentlich-Rechtliche

netzpolitik.org: Plant der WDR, eine menschliche Kontrollinstanz für KI einzusetzen?

Christina Schamp: Der Mensch muss das von der KI erstellte Material abnehmen. Allein schon aufgrund von möglichen Falschinformationen. KI dient hier wirklich nur als Unterstützung.

netzpolitik.org: Stellt man sich folgendes Szenario vor: Eine KI stellt synthetisiert Medieninhalte her – ein Mensch kontrolliert die automatisch hergestellten Inhalte, am Ende werden trotzdem Falschinformationen vermittelt. Wer haftet, wer trägt die Verantwortung?

Christina Schamp: Das ist einer der Punkte, den wir im Vorfeld noch klären müssen. Im Grunde gelten hier die üblichen redaktionellen Standards.

netzpolitik.org: Welche rechtlichen Bestimmungen bedarf es für die Einführung synthetischer Medien abgesehen von Lizenzrechten?

Christina Schamp: Wir müssen schauen, was wir als öffentlich-rechtlicher Sender überhaupt dürfen. Dürfen wir Texte generieren? Dürfen wir den einen Satz von synthetischen Stimmen oder Menschen sprechen lassen? In Deutschland wird es zukünftig synthetische Medien geben, aber es gibt im Moment noch keine Regelung, ob Öffentlich-Rechtliche das nutzen dürfen – auch EU-weit. Es muss geregelt werden: Was kann und soll wie genutzt werden?

netzpolitik.org: Welche Rolle spielt für den WDR das Thema Transparenz bei dem Einsatz von KI-Technologie?

Christina Schamp: Für mich ist ganz klar, dass wir transparent machen müssen, welche Algorithmen wir nutzen und auch, dass man die KI auf Diversität trainiert. Wir müssen transparent machen, wie wir sie trainiert haben und was hinter den Algorithmen steckt. Alles andere wäre auch widersprüchlich zum Innovation Hub.

Philipp Sevenich: Der Einsatz von KI muss schon vorab klar erkennbar sein, beispielsweise mit einer Art Stempel oder Vorwort. Es muss die Information gegeben sein, dass es sich hierbei um etwas künstlich Erstelltes handelt.

netzpolitik.org: Welche Entwicklungen und Diskurse finden bereits statt, die auch für den WDR von Bedeutung sind?

Philipp Sevenich: Die EU leitet unterschiedliche Schritte in die Wege. Auch vom Bundeswirtschaftsministerium gibt es geförderte Projekte.

netzpolitik.org: Was mit der Erstellung synthetischer Medien einhergeht, sind auch Kosten. Die genutzte Software für die Erstellung der synthetischen Medien dürfte kostenintensiv sein. Wie teuer kommt die Anstalten die Automatisierung?

Philipp Sevenich: Für uns ist zentral, den Nutzer*innen den möglichst größten Mehrwert zu bieten. Dafür wollen wir mit der Zeit gehen und etwas zur Verfügung stellen.

Christina Schamp: Die Technologie muss natürlich effizient sein und die Kosten müssen im Rahmen bleiben. Ziel unserer Überlegungen ist, herauszufinden, was die Nutzer*innen davon haben. Denn nur dann kommt das für uns in Frage.

Hilf mit! Mit Deiner finanziellen Hilfe unterstützt Du unabhängigen Journalismus.