Text-zu-Bild-Generierung: Der Anfang von etwas Großem

Mit StableDiffusion ist erstmals eine Software frei verfügbar, die Texte in beeindruckend gute Bilder umwandeln kann. Ich glaube, damit beginnt eine Medienrevolution. Ein Kommentar mit vier Prognosen.

Eine Vaporwave-Katze und ein Mann im Regen — Diese Bilder hat StableDiffusion generiert: Vaporwave-Katze und Mann im Regen – CC0

Jetzt isses soweit: Ich glaube, Text-zu-Bild-Generierung wird ein großes Ding. Die Technologie wird verändern, welche Bilder wir in unserem Alltag sehen und wie wir mit Bildern kommunizieren. Sie wird unsere Fantasie auf das nächste Level bringen und künftige Generationen werden uns belächeln, wenn sie hören, dass wir tatsächlich ein Leben ohne diese Technologie geführt haben.

Aber der Reihe nach. Text-zu-Bild-Generierung heißt, eine Software bekommt einen Textbefehl und wandelt ihn in ein Bild um. Sie wurde massenhaft mit Bildern und Bildbeschreibungen gefüttert, damit sie am Ende selbst aus einer Beschreibung ein eigenes Bild formen kann. Als Textbefehl eigenen sich nicht nur Motive, sondern auch Stile und Formen wie Foto, Gemälde, Zeichnung. Zum Beispiel: Tokio im Stil von Claude Monet, Öl auf Leinwand. Voilà.

Tokio im Stil von Claude Monet, erstellt mit StableDiffusion. - CC0

Viele nennen das Künstliche Intelligenz. Mitunter sehen künstlich generierte Bilder zusammengepanscht und misslungen aus. Vor sechs Jahren hatte ich für den SPIEGEL über eine rudimentäre Text-zu-Bild-Software geschrieben. Die Bilder waren so – naja. Doch seit einer Weile sind künstlich generierte Bilder revolutionär.

Gleich mehrere Anbieter arbeiten gerade an neuartigen Text-zu-Bild-Generatoren. Seit einer Weile kursieren Bilder von DALL-E 2 in sozialen Medien. Kostenlos für alle ist DALL-E 2 aber derzeit nicht zugänglich. Mit StableDiffusion ändert sich das. Die Software ist seit dieser Woche für alle verfügbar und läuft auch auf dem eigenen Rechner. Noch braucht es für die Einrichtung etwas Geduld, Klickarbeit und eine entsprechende Grafikkarte. Aber fast täglich erscheinen neue Schritt-für-Schritt-Tutorials, Entwickler:innen tüfteln an grafischen Nutzungsoberflächen, und erste Anbieter machen StableDiffusion über den Browser zugänglich.

Ich glaube, das geht jetzt sehr schnell. Deshalb lehne ich mich heute weit aus dem Fenster und formuliere vier Prognosen über die Zukunft mit Text-zu-Bild-Generierung.

Prognose 1: Unsere Welt wird buchstäblich schöner

Weltraum-Affe, erstellt mit StableDiffusion - CC0

So etwas liest man selten auf netzpolitik.org, aber ich blicke mit Begeisterung und Optimismus auf unsere digitale Zukunft, zumindest in Sachen Text-zu-Bild-Generierung. Halbherzig bebilderte Online-Artikel, schnöde T-Shirt-Motive, hingerotzte CD-Cover, Stockfotos aus der Hölle – all das und mehr kann bald der Vergangenheit angehören.

Dank Text-zu-Bild-Generierung können alle in kurzer Zeit erstaunlich schöne Bilder erschaffen. Nicht mehr handwerkliches Unvermögen wird der Grund für die fade Bebilderung unserer Umwelt sein, sondern allein fragwürdiger Geschmack. Und das ist ein Riesenfortschritt.

Heute ist es Alltag, den Liebsten mal eben ein Gruppenselfie zu schicken oder einen Schnappschuss vom Essen. Wenn wir etwas teilen wollen, das wir gerade sehen, machen wir einfach ein Foto. Künftig wird es auch möglich sein, zu teilen, was wir uns gerade vorstellen. Hey, ich habe gerade an einen Weltraum-Affen gedacht – und da ist er auch schon. Unser Leben im Netz wird kreativer und bunter, wenn wir praktisch per Knopfdruck unsere Fantasie manifestieren können.

Prognose 2: Die Technologie wird Bilderdurst wecken

Waschsalon im Stil von Edward Hopper, erstellt mit StableDiffusion - CC0

Als ich ein Junge war, hat mich ein Bild aus der TV-Zeitschrift Hörzu in seinen Bann gezogen. In der Rubrik „Original und Fälschung“ fanden Leser:innen zwei Versionen eines bekannten Kunstwerks und sollten in einer davon zehn versteckte Fehler erkennen. Das Bild, von dem ich nicht mehr loskam, war Edward Hoppers Gemälde Nighthawks. Drei Gäste und ein Barkeeper schlagen sich in einer verglasten Bar die Nacht um die Ohren. Ich war bezaubert von der kontemplativen Einsamkeit, die aus dem Bild sprach, und wollte unbedingt mehr davon.

Heutzutage würde man einfach googeln, sich andere Werke von Hopper anschauen, und merken, dass es ziemlich Mainstream ist, ausgerechnet „Nighthakws“ abzufeiern. Damals hatte ich, glaube ich, weder Zugang zu einem Computer noch zum Internet. Ich bin in die nächste Stadt gefahren, um in einer Buchhandlung einen Bildband zu finden. Den Aufwand war es mir wert. Erst mit diesem Bildband konnte ich meinen Bilderdurst stillen und mich in die anderen Werke von Hopper vertiefen.

Mit Text-zu-Bild-Generierung lassen sich solche Anflüge von Bilderdurst auf ganz neue Art ausleben. Faszinierende Bilder lassen sich nicht nur suchen und betrachten, sondern auch selbst erstellen. War ja klar, dass ich sofort ausprobieren musste, ob StableDiffusion einen Waschsalon im Stil von Edward Hopper darstellen kann. Kaum zu glauben, dass Hopper nie selbst einen Waschsalon gemalt hat.

So einen Bilderdurst habe nicht nur ich. Auf Reddit und Twitter posten massenhaft Nutzer:innen ihre ersten Kreationen mit unter anderem DALL-E 2 und StableDiffusion, und sie schreiben sich gegenseitig, wie begeistert sie sind. Ich glaube, angetrieben von Bilderdurst wird eine Welle an fantasisevollen Kreationen durchs Netz spülen. Das wird das Lebensgefühl im Netz mitbestimmen, bis sich alle daran gewöhnt haben, dass sie so etwas jetzt einfach immer tun können.

Prognose 3: Nach einer Debatte wird die Technologie akzeptiert werden

Foto eines Drachenbabys, erstellt mit StableDiffusion. - CC0

Die Debatte ist jetzt schon da, und sie wird weiter rollen: Was, wenn Menschen mit Text-zu-Bild-Generierung strafbare Motive erschaffen, die anderen schaden? Volksverhetzung und Hakenkreuze. Sexualisierte Gewalt gegen Minderjährige und nicht-einvernehmliche Deepfakes. All das gibt es schon jetzt, doch Text-zu-Bild-Generierung kann bewirken, dass sich solche Aufnahmen noch leichter erstellen lassen. StableDiffusion hat zwar Vorkehrungen getroffen, um Motive mit Nacktheit zu unterbinden, doch längst kursieren Anleitungen, wie man diesen Schutz-Mechanismus entfernt.

Es ist eine Debatte mit zwei Fraktionen, die sich wohl bei jeder neuen Technologie wiederholt. Eine Fraktion wird darauf pochen, dass die Technologie neutral sei und es in der Verantwortung von Nutzer:innen liege, nichts Böses damit anzustellen. Eine andere Fraktion wird die neue Technologie für gesellschaftliche Probleme veranwortlich machen und starke Regulierung fordern, um jeglichen Missbrauch zu verhindern.

Ich glaube, es gibt einen guten Grund, warum sich diese Debatte immer wiederholt: Manchmal haben die einen Recht, manchmal die anderen. Es kommt drauf an, in welchem Ausmaß sich gesellschaftliche Probleme bloß in einer neuen Technologie spiegeln (nicht so schlimm), und in welchem Ausmaß die Technologie gesellschaftliche Probleme verstärkt oder gar erzeugt (schlimm). In einer Gesellschaft mit ungleich verteilten Privilegien gibt es Technologien, die vulnerable Gruppen übermäßig schwächen. Manches sollte man besser nicht auf die Menschheit loslassen.

Bei frei verfügbarer Text-zu-Bild-Generierung überwiegen meine Bedenken derzeit nicht. Ähnlich wie bei Handy-Kameras für alle oder Bildbearbeitung für alle glaube ich: Was Menschen mit dieser Technologie letztlich tun, ist kaum vorgezeichnet und hinreichend offen, um das Experiment zuzulassen. Ich finde es verantwortbar, wenn alle Zugang zu dieser Technologie haben. Ich wage die Prognose: Die Fraktion, die vor allem die Nutzer:innen in der Verantwortung sieht, wird die Nase vorn haben.

Prognose 4: Es wird etwas völlig Überraschendes passieren

Unverständlicher Comicstreifen — Deutungswürdig: So stellt sich StableDiffusion „netzpolitik.org im Jahr 2070“ vor. - CC0

Selten machen Menschen mit Technologie das, was man sich vorher vorgestellt hat. Star Trek hat früh vorhergesehen, wie Computer das Wissen der Menschheit für alle zugänglich machen. Sogar Sprachsteuerung gab es schon, während die Zuschauer:innen noch Kabeltelefone mit Wählscheibe zuhause hatten. Aber Star Trek hat übersehen, dass Menschen mit Computern Informationen nicht nur abrufen werden, sondern auch generieren. In dem fiktiven Universum fehlen soziale Medien, einer der lustigsten blinden Flecken in der Science-Fiction-Geschichte.

Ich glaube, bei neuen Technologien gibt es immer diese eine Ecke, um die man nicht herumdenken kann. Was morgen schnöder Alltag ist, liegt heute jenseits der Vorstellungskraft. Bevor TikTok zur meistgehypten Video-Plattform der Welt wurde, hat man mir an der Journalist:innenschule beigebracht: Hochkant-Videos funktionieren nicht und sind peinlich. Lol.

Stand jetzt sind bei mir noch viele Fragen offen: Was bedeutet die Technologie für den Beruf von Künstler:innen und Grafik-Designer:innen? Wird es eines Tages sehenswerte Buchverfilmungen geben, die allein per Software entstanden sind? Meine Prognose über die Text-zu-Bild-Generierung lautet: Auch dieser Text wird mal eine Lachnummer werden, weil ich etwas übersehe, das sich erst später als offensichtlich herausstellt.

Die Arbeit von netzpolitik.org finanziert sich zu fast 100% aus den Spenden unserer Leser:innen.
Werde Teil dieser einzigartigen Community und unterstütze auch Du unseren gemeinwohlorientierten, werbe- und trackingfreien Journalismus jetzt mit einer Spende.