In Sachen Digitalisierung folgt derzeit eine Überraschung auf die nächste. Besonders im Bereich der Künstlichen Intelligenzen (KI) gibt es immer neue Errungenschaften und Einsatzbereiche. ChatGPT war offenbar erst der Anfang einer neuen digitalen Ära.
KI eröffnet eine Welt voller neuer Möglichkeiten und Ideen.
Da stellt sich etwa die Frage, ob es möglich ist, einfach und ohne grossen Aufwand eine andere Sprache sprechen zu können? Und das, obwohl man diese nicht einmal beherrscht. Ein Live-Übersetzer auf KI-Basis für Online-Meetings etwa wäre praktisch. Das alles ist offenbar keine Zukunftsmusik mehr. Ein auf Social Media zirkulierendes Video zeigt, was wirklich möglich ist. Ungefährlich ist das aber offenbar nicht.
Würde man nicht wissen, dass hier mit KI getrickst wurde, fällt es kaum auf. Der US-Tech-Influencer und Regisseur Jon Finger hat auf X (ehemals Twitter) und Youtube ein Video geteilt, in dem er eine Videoübersetzung auf KI-Basis ausprobiert. In einem Beitrag auf X schreibt er: «Übersetzung auf Französisch und Deutsch. Ich spreche keine der beiden Sprachen, also lasst mich wissen, ob es natürlich klingt.»
Testing out @HeyGen_Official translation on French and German. I don’t speak either language so let me know if it sounds natural if you do.
— Jon Finger (@mrjonfinger) September 11, 2023
I hope if you pay you can turn off the color correction.
It didn’t work on my phone so I had to upload on my pc.https://t.co/FMJp9sJEBI pic.twitter.com/iF5eONAQ3c
Er erklärt in dem Video zunächst auf Englisch, dass er mindestens 30 Sekunden sprechen müsse, um das Video in das Tool namens HeyGen zu laden und die Video-Übersetzung zu starten. Er habe nicht viel zu sagen, sei jedoch gespannt auf die Übersetzung. Dann sieht man den gleichen Ausschnitt wie in der Frequenz zuvor: Jon Finger, wie er vor der Kamera sitzt. Nur, dass er diesmal die gleichen Worte in Französisch – und schlussendlich auch in Deutsch – spricht.
Einer Meinung ist man sich in den Kommentaren über die Qualität der Übersetzung zwar nicht. Was im Video zu sehen ist, liefert aber offenbar dennoch Gesprächsstoff auf Social Media. Innerhalb eines Tages wurde der Tweet bereits über 2200 Mal repostet, über 1000 Mal zitiert, erntete rund 10'000 «Gefällt mir»-Angaben und über 500 Kommentare.
«Das gibt's nicht!», heisst es in den Kommentaren mehrmals. «Unglaublich gut», finden andere. Zwar betonen einige User:innen, dass die Übersetzung nicht absolut perfekt, wohl aber beeindruckend sei. Mehrere X-User:innen betonen, dass der Ton der Stimme noch zu mechanisch klinge. Beeindruckt zeigen sich die meisten Personen hingegen von den Lippenbewegungen, die bei der Video-Übersetzung automatisch mit angepasst werden. Dazu ist zu sagen, dass Finger für das Video nach eigenen Angaben nur eine gratis Testversion verwendet hat.
I speak both French and German, and it's overall good but apart from translation inaccuracies and the robotic voice:
— Alex Carlier (@alexcarliera) September 11, 2023
- the translated voices didn't match the casual tone of the original audio, kind of too formal, the laugh disappears etc.
- French is usually spoken faster, this…
Ob perfekt oder nicht – klar ist: Die Video-Übersetzung ist aussergewöhnlich gut und gibt einen Vorgeschmack auf das, was wohl bald möglich ist.
Fest steht nämlich auch: Diese Form der Übersetzung wird vermutlich in rasender Geschwindigkeit noch besser werden. Und: Bald wird diese Form des KI-Einsatzes ausserdem wohl auch live möglich sein. Je etablierter die Funktion, desto zugänglicher wird diese im Laufe der Jahre dann auch für die breite Masse. Was das für das alltägliche Leben bedeutet, kann nur gemutmasst werden.
Einer, der auf das viral gegangene Video nun reagiert hat, ist Lutz Mache. Der arbeitet als Government Relations Senior Analyst bei Google. Er retweetet die KI-Aufnahmen und verweist auf eine potenzielle Gefahr durch den Übersetzer. Dabei verweist er darauf, dass auch der Tech-Gigant Google bereits einen «Universal Translator» vorgestellt habe. Dieser übersetze die Stimme eine:r Sprecher:in und synchronisiere die Lippenbewegungen. Ähnlich wie der vorgestellte Übersetzer von HeyGen.
Dabei spricht er eine Warnung aus: «Das Risiko, diese Technologie missbräuchlich einzusetzen, ist gross. Stichwort Deepfakes.» In einem weiteren Tweet fügt er hinzu: Deswegen wird das Tool derzeit nur ausgewählten Partnern zur Verfügung gestellt. Mittels Watermarking soll auch in Zukunft klar sein, dass dies ein KI-generiertes Video ist."
Da dieses Video rumgeht: @Google hat im Mai den "Universal Translator" vorgestellt, der die Stimme eine:r Sprecher:in übersetzt und Lippenbewegungen synchronisiert. Aber: Das Risiko, diese Technologie missbräuchlich einzusetzen, ist groß. Stichwort #Deepfakes. https://t.co/kX8yfQngXL pic.twitter.com/JHt5IRYC6Z
— Lutz Mache (@lutzmache) September 12, 2023
Und tatsächlich: Deepfakes aller Art machen immer häufiger auch Schlagzeilen in negativem Kontext. So gibt es etwa Betrugsmaschen mit Deepfake-Anrufen, bei denen Betrüger die Stimme von Verwandten ihrer potenziellen Opfer durch KI generieren und so versuchen, an Geld oder sensible Daten zu kommen. Das Bundesamt für Sicherheit in der Informationstechnik (BSI) warnt bereits seit einiger Zeit davor. Demnach ist es auch heute schon möglich, solche Fälschungen in Echtzeit mit einer vergleichsweise hohen Qualität zu erstellen.
Durch Social Media ist es für potenzielle Betrüger zudem zunehmend einfacher, an die entsprechenden Daten für die Erstellung von Deepfakes zu kommen.
Was heisst schon "live"?
Der Algorithmus MUSS,
gerade bei den im Deutschen üblichen Satzkonstruktionen, wo das entscheidende Verb oft erst ganz am Schluss steht, und der Hauptsatz unter Umständen erst nach mehreren, womöglich untereinander verschachtelten - und eventuell auch mit zusätzlichen Einschüben versehenen - Nebensätzen folgt, um eine halbwegs sinnvolle Übersetzung zu erreichen, zwingend zuerst den gesamten, möglicherweise sehr langen, im Einzelfall bis zu sechshundert Zeichen umfassenden Satz
KENNEN. 😉
Das Problem:
Der Übersetzungsdienst weiss danach alles, was gesprochen wurde.
Der Übersetzungsdienst kann auch was ganz anderes übersetzen, als ich sagte und so z.B. einen geschäftlichen oder politischen Deal gefährden…