Wissen
Blogs

KI entdeckt die Welt: «World Models» und was sie versprechen

Vom Rechnen zum Verstehen: Weltmodelle sollen KI befähigen, die physische Welt zu simulieren und vorauszuplanen.
Vom Rechnen zum Verstehen: Weltmodelle sollen KI befähigen, die physische Welt zu simulieren und vorauszuplanen.bild: severin trösch
KI-Kosmos

KI entdeckt die Welt: «World Models» und was sie versprechen

Künstliche Intelligenz soll die Welt künftig nicht nur beschreiben, sondern verstehen. Sogenannte World Models versprechen Maschinen ein grundlegendes Verständnis von Ursache, Wirkung und physischer Realität – und gelten als nächster grosser Schritt der KI-Forschung.
20.02.2026, 13:5120.02.2026, 16:38

Es braut sich etwas zusammen in der KI-Szene – ein neuer Typ von Modell: Die grossen KI-Firmen investieren Millionen in dessen Erforschung und viele prominente Namen singen Loblieder darauf. Die Rede ist von «KI-Weltmodellen» oder «AI World Models». Höchste Zeit, da mal genauer hinzuschauen.

Was ist ein «Weltmodell»?

Beginnen wir mit einem Gedankenexperiment: Stell dir vor, ein schönes Weinglas steht auf einem wackligen Tisch nahe der Kante. Der Tisch steht mitten in einem Raum, in dem mehrere Leute zügig umhergehen. Eine Person nimmt das Weinglas und stellt es auf eine massive Kommode in der Ecke. Warum?

Unsere Intuition ist klar: Wenn jemand am Tisch anstösst, was schnell passieren kann, fällt das Glas und geht kaputt. Deshalb bringt man es besser in Sicherheit. Klingt trivial, bedingt aber ein multidimensionales Verständnis der Lage – inklusive Bewegung der Menschen, Grösse des Raums, Statik des Tisches etc. – sowie ein Beurteilen von möglichen Interventionen und deren Konsequenzen.

Ein Weltmodell hilft, das Weinglas rechtzeitig in Sicherheit zu bringen.
Ein Weltmodell hilft, das Weinglas rechtzeitig in Sicherheit zu bringen.bild: severin trösch

Wir Menschen haben ein solches Verständnis – ein mentales «Modell» der Situation – und steuern unser Handeln damit. Dieses Modell beschränkt sich natürlich nicht nur auf Weingläser, sondern ist stark verallgemeinerbar: Wir verbinden automatisch Ursache und Wirkung in der physischen Welt, verstehen intuitiv mechanische Dynamiken, können Konsequenzen von unseren Handlungen antizipieren und diese entsprechend planen. Generell gesagt: Wir haben ein inneres, abstraktes Modell der Welt, an welchem wir uns orientieren. Ein «Weltmodell» eben.

Unser Weltmodell wird schon als Kind ausgebildet – oft dank wildem Experimentieren: Wie klingt es, wenn ich da draufschlage? Was passiert, wenn ich hier ziehe? Und was, wenn ich dort drücke? Das Modell wird mit jeder unserer Handlungen neu kalibriert, indem wir implizit erwartete und tatsächliche Wirkung vergleichen und so dazulernen.

Kurz: Ein Weltmodell zu haben bedeutet, die einem System zugrundeliegenden Gesetzmässigkeiten zu verstehen und so Vorhersagen über die Zukunft des Systems machen zu können. Ein robustes und doch anpassungsfähiges Weltmodell ist zentral, um die physische Welt effizient und intelligent zu navigieren – für Menschen und wohl auch für Maschinen. Daher hat sich in den letzten Jahren immer mehr Interesse an KI-Weltmodellen entwickelt.

Wo stehen die heutigen KI-Systeme?

Wenn ich heute ChatGPT frage, warum im vorherigen Gedankenexperiment das Weinglas versetzt wurde, antwortet das System sofort richtig: Weil das Glas so sicherer ist. Der Mechanismus, wie es zur richtigen Antwort kommt, ist jedoch fundamental anders als bei uns Menschen: KI-Sprachmodelle werden darauf trainiert, das nächste Wort in einer Wortfolge zu prognostizieren und daraus kohärente Antworten zu erzeugen.

Sie lernen statistische Muster in der Sprache und verwenden diese, ohne dabei fundamentale Konzepte wie «Gravitation» oder «Kausalität» zu verstehen. ChatGPT und Co. haben also kein ausgereiftes Weltmodell, keine generelle, innere Repräsentation der physikalischen Welt, auf die sie zur Simulation und Planung von Handlungen zurückgreifen können.

Jedoch ist auch festzuhalten, dass aktuelle KI-Systeme mehr sind als nur leistungsfähige Muster-Finder: Forschung vom KI-Powerhouse Anthropic hat gezeigt, dass heutige Sprachmodelle aus den Tonnen an Text, die sie verarbeiten, Proto-Weltmodelle lernen können. Unabsichtlich und noch unvollständig, aber dennoch mehr als blinde Mustererkennung.

Speziell Video-generierende Systeme sind ein Schritt Richtung KI-Weltmodell: Um realistische Videos generieren zu können, müssen sie die Dynamik einer Szene konsistent und plausibel über die Zeit weiterentwickeln – und tun dies oft überraschend gut. Es wirkt, als hätten sie viele mechanische Zusammenhänge der Welt richtig erfasst. Noch kein verlässliches, generelles Weltmodell, aber ein deutliches Signal für ein wachsendes Struktur- und Kausalitätsverständnis.

Und es geht noch weiter: Bei Google DeepMind beispielsweise zielt das System «Genie 3» darauf ab, gewünschte Umgebungen zu erzeugen, die auf Handlungen reagieren – es schafft also eine erkundbare, realistische Welt statt «nur» ein echt aussehendes Video. Ich kann so also Genie sagen, dass ich an einem Pferdeevent teilnehmen möchte, und dann vorzu entscheiden, in welche Richtung ich reiten will.

Das System «Genie 3» simuliert in Echtzeit die physische Konsequenz meiner Handlung.
Das System «Genie 3» simuliert in Echtzeit die physische Konsequenz meiner Handlung.bild: google deepmind

Genie erzeugt eine interaktive, realistische Welt mit allen gewünschten Komponenten on-the-fly – und so eine schier unendliche Trainingslandschaft für KI-Systeme, die in der physischen Welt operieren sollen. Dies nutzten beispielsweise bereits die selbstfahrenden Autos von Waymo: Sie legen dank Genie Milliarden von Kilometern in virtuellen Welten zurück und meistern komplexe, seltene Szenarien wie Geisterfahrer, Tornados oder Überschwemmungen, lange bevor diese ihnen auf öffentlichen Strassen begegnen.

Heutige KI-Systeme zeigen und nutzen also eindeutig Ansätze von generelleren Weltmodellen, welche aber genauso eindeutig noch nicht auf dem Niveau jener von uns Menschen sind.

Wo führt das alles hin?

Ein grosses Ziel der Entwicklungen im Bereich der KI-Weltmodelle sind physische Roboter: Um sicher in der Welt zu operieren, müssen diese vorhersagen können, wie sich ihre Umgebung entwickelt und welchen kausalen Einfluss die eigenen Handlungen haben. Sie brauchen also ein physikalisch einwandfreies Weltmodell.

Heutige videobasierte Proto-Weltmodelle geben jedoch oft physikalische Zusammenhänge wieder, die zwar von Auge richtig aussehen, aber im Detail falsch sind – und das reicht für Robotik noch nicht. Gemäss KI-Vordenker und DeepMind-CEO Demis Hassabis ist daher als Nächstes sicherzustellen, dass die Weltmodelle physikalische Gesetze im Detail korrekt anwenden können.

Ist ChatGPT ein Weltmodell?
Systeme wie ChatGPT basieren auf statistischer Mustererkennung in Text und nicht auf einem generellen Weltmodell, das die Mechanik der Welt versteht. Es zeigt sich allerdings, dass heutige Sprachmodelle aus den Tonnen an Text, die sie verarbeiten, Proto-Weltmodelle lernen können.

Danach – um «die Welt» als Ganzes zu navigieren – brauchen Roboter neben akkurater Physik auch ein gutes Modell der sozialen Dynamiken. Solche zu modellieren, ist sogar für uns Menschen oft eine grosse Herausforderung – und daher für die Maschinen noch mehr.

Parallel zur Robotik werden spezialisierte Weltmodelle für komplexe Systeme wie dem Wetter entwickelt: Modelle, welche die zugrundeliegenden Dynamiken einer spezifischen Domäne lernen und so bessere und effizientere Vorhersagen liefern als aktuelle Systeme.

Zusammengenommen sind generelle Weltmodelle und das damit einhergehende Grundverständnis der Welt ein potenziell wichtiger Schritt in Richtung «Artificial General Intelligence». Ein Schritt Richtung Systeme also, die in allen Bereichen intelligenter sind als der Mensch – auch in der physischen Welt.

Bis dahin ist es allerdings noch eine lange Reise. Aber das selbstfahrende Schiff, das die Welt(modelle) erobern will, ist bereits aus dem Hafen ausgelaufen.

Zur Person
Severin Trösch ist der Kopf hinter der künstlichen Intelligenz bei der Datahouse AG – einer Firma, die alles mit Daten macht und fast alles davon kann. Die Komplexität hinter der KI hat ihn nicht nur seine letzten Haare gekostet, sondern auch motiviert, das KI-Kauderwelsch so zu erklären, dass auch Nicht-Nerds den Durchblick kriegen.
Severin Trösch
DANKE FÜR DIE ♥
Würdest du gerne watson und unseren Journalismus unterstützen? Mehr erfahren
(Du wirst umgeleitet, um die Zahlung abzuschliessen.)
5 CHF
15 CHF
25 CHF
Anderer
Oder unterstütze uns per Banküberweisung.
35 Beweisfotos, die zeigen, dass KI-Fotos herrlich kurios sein können
1 / 37
35 Beweisfotos, die zeigen, dass KI-Fotos herrlich kurios sein können
Ein KI-generierter Trump beim Zubereiten der Urwalddroge Ayahuasca.
Auf Facebook teilenAuf X teilen
Mit wenigen Klicks zum Deep Fake
Video: watson
Das könnte dich auch noch interessieren:
Du hast uns was zu sagen?
Hast du einen relevanten Input oder hast du einen Fehler entdeckt? Du kannst uns dein Anliegen gerne via Formular übermitteln.
34 Kommentare
Dein Kommentar
YouTube Link
0 / 600
Hier gehts zu den Kommentarregeln.
34
7 Sex-Mythen, die du getrost vergessen kannst
Von den unzähligen Irrglauben zum Thema Sexualität präsentiert watson sieben Mythen, die Expertinnen und Experten – Sexualwissenschaftler, Ärztinnen, Psychologinnen und Paartherapeuten – endgültig richtigstellen wollen, damit du die Intimität mit deiner Partnerin oder deinem Partner unbeschwerter geniessen kannst. Notizbuch bereithalten und los geht's!
Es heisst oft, Männer hätten von Natur aus ein grösseres sexuelles Verlangen. Studien zeigen jedoch hauptsächlich Unterschiede im Ausdruck sexueller Lust, keine biologische Hierarchie. Männer berichten im Durchschnitt mehr von spontaner Lust oder Fantasien, während die weibliche Libido häufiger vom emotionalen und beziehungsmässigen Kontext abhängt.
Zur Story