Ich habe schon mit dem Gen-2 Text-to-Video-Generator von Runway experimentiert und ein gruseliges Imagevideo und ein noch gruseligeres Musikvideo für watson erstellt. Jetzt habe ich beschlossen, einen anderen Ansatz zu verfolgen.
Es gibt mehrere Video-Generatoren, die lebensechte digitale Avatare erstellen, die zu einem eingegebenen Text ihre Lippen bewegen können. Ich habe ChatGPT gebeten, ein Skript in Schweizerdeutsch für mich zu schreiben. Ich beschrieb das Konzept von «Wein doch» und sagte ihm, er solle so tun, als hätte er Gefühle und würde sich über all die lästigen Fragen beschweren, die er beantworten musste.
Ursprünglich wollte ich Synthesia für das Video verwenden, aber ich verstiess immer wieder gegen die Regeln der Inhaltsmoderation, die besagen, dass der Avatar keine Schimpfwörter verwenden oder so tun darf, als sei er eine echte Person. Die Avatare von Synthesia sind realen Personen nachempfunden, und die Regeln sollen sie schützen. Kein Spass erlaubt.
Dann habe ich mich an D-ID gewendet, das die Möglichkeit bietet, den Avatar nach deinen Vorgaben vom Computer generieren zu lassen. Ich habe vorgegeben, dass die Person vor einem Greenscreen sitzen sollte, damit ich das Filmmaterial mit unserem normalen «Wein doch»-Hintergrund verwenden konnte. Das sah dann so aus und ich konnte den Hintergrund auskeyen.
Ausserdem habe ich ChatGPT gebeten, sein Skript für die Untertitel ins Hochdeutsche zu übersetzen.
Hier das Resultat: