Das Internet hat ein neues Spielzeug aus der Artificial-Intelligence-Küche und es heisst Dall-E Mini. Die Idee dahinter ist einfach: Man nimmt einen Satz – möglichst einen Satz, der sich als Bildlegende eignet – und lässt dann von einem Computer ein möglichst passendes Bild generieren. Je surrealer der Satz ist, desto grösser die Chance, dass ein lustiges Bild herauskommt.
Hinter dem Spielzeug steckt ein riesiges Forschungsfeld, das seit Jahren vom Unternehmen OpenAI vorangetrieben wird: Es basiert auf einem digitalen, «neuronalen» Netzwerk, das anhand Millionen von bestehenden Bildlegenden trainiert wurde. Die Entwicklerinnen und Entwickler erhofften sich damit ein Programm zu entwickeln, das aus einer Texteingabe ein Bild generiert. Die Ergebnisse der ersten Version von «DALL-E» erschien 2021 und war – gelinde gesagt – nichts, was auch nur für spielerische Zwecke verwendet werden kann.
Das Modell wurde weitertrainiert und verbessert, seit wenigen Tagen ist nun die zweite Version für ausgewählte Tester verfügbar. Dall-E Mini ist ein Abklatsch dieses Projekts, das kleinere Bilder schneller generiert und öffentlich über ein Webformular zugänglich ist. Und es stiess in den vergangenen Tagen auf grosse Beliebtheit, weil auch irre und fiktive Szenen bildlich dargestellt werden können. Mit dem Resultat, dass zeitweise die Server überlastet sind und lange auf ein Ergebnis gewartet werden muss.
Dem Erfolg schadete diese Instabilität nicht: Auf Twitter und Reddit entstand mittlerweile eine Gemeinschaft, die «Weird Dall-E Generations» sammelt. Viele davon eignen sich als Memes und haben populärkulturelle Referenzen. Die Verbreitung des Spielzeugs auf Schattenplätzen des Internets – etwa auf «4chan» – führte aber auch dazu, dass Schwächen der «künstlichen Intelligenz» offenbart wurden.
Der Begriff steht absichtlich in Anführungs- und Schlusszeichen, da neuronal aufgebaute Computer-Modelle nichts mit einer «Intelligenz» zu tun haben: Hinter solchen Spielereien steckt in erster Linie viel Mathematik und Statistik. So wurden die Programme mit Abermillionen Bildern und dazugehörigen Bildlegenden von bekannten Webseiten gefüttert. Die Programme rechneten diese Daten in Nullen und Einsen um und versuchten anhand von statistischen Verfahren eine «Gemeinsamkeit» zu entdecken. So lernte es, dass Pikachu eine gelbe Figur ist, Vögel haarige und leicht spitzige Tiere sind und Malereien des spanischen Künstlers Salvador Dalí einen fotorealistischen Stil haben (daher auch der Name des Projekts).
Es erkannte aber auch statistische Muster, wonach Politiker meist männlich und grauhaarig sind und es gewisse Berufe gibt, die zumindest anhand der Daten häufig von Frauen ausgeübt wurden. Verlangt man von Dall-E Mini ein Bild einer «kriminellen Person beim Wandern», so sieht man füllige Menschen mit einer Balaklava. Sucht man stattdessen nach einem «kriminellen Migranten beim Wandern», so fehlt die Gesichtsmütze. Dafür werden menschenähnliche Kreaturen gezeigt, die rassistisch-stereotypisch einen dunkleren Teint haben.
Das ist auch den Macherinnen und Machern des Spielzeugs bewusst. In einer versteckten Fussnote wird darauf hingewiesen, dass Bilderzeugungsmodelle «gesellschaftliche Vorurteile verstärken oder verschlimmern» können. Begründet wird das mit der Entstehungsgeschichte: Das Modell wurde anhand «ungefilterter Daten aus dem Internet» trainiert.