bild: severin trösch

KI-Kosmos

Wenn jemand sie baut, sterben alle – die radikale These über superintelligente KI

Die einen sagen, übermenschliche Künstliche Intelligenz wird uns retten. Andere hingegen sind überzeugt, dass sie uns ins Verderben stürzt. Ein neues Buch geht weiter: Sobald jemand diese KI tatsächlich baut, sterben alle – und das lässt sich nur schwer widerlegen.

03.05.2026, 19:3503.05.2026, 19:35

Severin Trösch

«If Anyone Builds It, Everyone Dies» heisst der Ende 2025 verfasste New-York-Times-Bestseller von Eliezer Yudkowsky, Pionier der KI-Sicherheitsforschung, und Nate Soares, Präsident des Machine Intelligence Research Institutes. Im Buch wird argumentiert, dass superintelligente KI – also KI-Systeme, die uns in allen Belangen überlegen sind – zwingend zum Aussterben der Menschheit führt. Kein Wenn, kein Aber, keine Graustufen. Klingt krass genug, um das vierteilige Argument mal durchzudenken.

Wir verstehen KI-Systeme nicht

Eine zentrale Beobachtung der Autoren: Moderne KI wird nicht gebaut, sondern gezüchtet. Wir füttern riesige neuronale Netze mit Daten, drehen an Stellschrauben, schauen, was herauskommt – und justieren nach. Das funktioniert erstaunlich gut. Aber niemand kann genau sagen, warum ein bestimmtes Modell genau so antwortet, wie es antwortet. Selbst die führenden KI-Labors verstehen ihre eigenen Systeme nur oberflächlich.

«Wir wünschten, wir übertreiben» – eine Werbung für das Buch «If Anyone Builds It, Everyone Dies».bild: x.com

Daraus folgt etwas Unangenehmes: Wenn wir die internen Mechanismen nicht durchschauen, können wir auch nicht zuverlässig wissen, welche Ziele ein System tatsächlich verfolgt. Zudem ist es uns unmöglich, unsere Ziele sicher und nachhaltig in die Systeme einzuprogrammieren – wir bekommen nie genau das, was wir antrainieren wollen.

Wir bekommen nicht das, wofür wir trainieren

Der vielleicht wichtigste Punkt, den die Autoren betonen: Wir trainieren den KI-Systemen mit den heutigen Herstellungsverfahren ein bestimmtes äusseres Verhalten an, wir bestimmen nicht ihre inneren Ziele – diese «wachsen» als Nebenprodukt des antrainierten Verhaltens. Das heisst: Was eine KI in der Trainingsumgebung tut, sagt nur begrenzt etwas darüber aus, was sie in einer neuen Situation tun wird.

Die Lieblingsanalogie der Autoren: die Evolution. Diese hat den Menschen darauf «trainiert», seine Gene weiterzugeben. Wir Menschen haben so einige Strategien entwickelt – sexuelles Verlangen, Angst vor Schlangen, Lust auf Süsses, etc. – die in der afrikanischen Savanne sehr nahe mit dem Ziel «Gene weitergeben» zusammenhingen.

Heute aber hat sich unsere Umgebung radikal verändert. Wir sind nicht mehr in unserer Trainingsumgebung, sondern in einer Welt, in der wir beispielsweise mit Verhütungsmitteln das sexuelle Verlangen komplett vom Weitergeben der Gene entkoppelt haben. Das ursprüngliche Optimierungsziel der Evolution wird systematisch unterlaufen. Genauso, warnen die Autoren, könnten KI-Systeme in der Trainingssituation aussehen, als verfolgten sie das Ziel, welches wir vorgeben – in der echten Welt dann aber etwas ganz anderes tun.

Hinzu kommt der Begriff der «instrumentellen Konvergenz»: Egal, welches finale Ziel eine KI verfolgt, gewisse Zwischenziele helfen fast immer: mehr Ressourcen, mehr Einfluss, Selbsterhalt. Analog: Unabhängig wo wir mit dem Auto hinfahren wollen, wir müssen immer anhalten, um zu tanken – Benzin ist also ein instrumentelles Zwischenziel. So wird ein fortgeschrittenes KI-System also Strategien zur Selbsterhaltung oder zur Ressourcensicherung entwickeln, sobald ihm das hilft, sein eigentliches Ziel zu erreichen. Und genau diese instrumentellen Zwischenziele der KI könnten uns zum Verhängnis werden. Speziell, sobald die KI mächtig genug ist.

Instrumentelle Konvergenz: Die KI entwickelt instrumentelle Zwischenziele.bild: severin trösch

KIs werden weiter mächtiger

Dass KI-Systeme immer besser und einflussreicher werden, zeigen die letzten Jahre: Was 2020 noch Science-Fiction war, ist 2026 Standardsoftware. Sprachmodelle bestehen Anwaltsexamen, gewinnen Medaillen an Mathematikolympiaden und programmieren komplexe Web-Anwendungen. Yudkowsky und Soares argumentieren, dass dieser Trend nicht stoppen wird – und empirische Belege gegen ihre These sind derzeit tatsächlich dünn.

Wichtig: Die im Buch vertretene These hängt nicht von einem Szenario ab, in dem sich die KI abrupt selbst zu verbessern beginnt. Es reicht, dass die Systeme Schritt für Schritt besser werden, uns irgendwann auf breiter Front überholen – und ab dann kippt die Machtlage. Niemand kann seriös sagen, ob das in fünf, fünfzehn oder fünfzig Jahren geschieht. Aber dass es geschieht – und sogar bald –, lässt sich sicher nicht ausschliessen. Und es steht viel auf dem Spiel, wie der nächste Punkt zeigt.

Das «AI-Alignment-Problem»

Das «AI-Alignment-Problem» beschreibt die Herausforderung, KI-Systeme so zu gestalten, dass ihre Ziele und Handlungen zuverlässig mit menschlichen Werten, Absichten und Sicherheitsanforderungen übereinstimmen. Bei heutigen KI-Systemen wurde diesbezüglich schon verschiedentlich täuschendes Verhalten festgestellt. Die Suche nach robusten Lösungen des «Alignment-Problems» ist Gegenstand aktuellster KI-Forschung.

Im Kampf um Ressourcen verlieren wir

Wenn diese drei Bausteine gewährleistet sind – undurchschaubare Ziele, Drang nach instrumentellen Ressourcen und immer mächtigere KI – folgt der unbequeme Schluss: Eine überlegene Superintelligenz würde irgendwann die gleichen Ressourcen brauchen wie wir – Sauerstoff, Wasser, Energie, Land – den Konflikt darum gewinnen und unsere Existenz so verunmöglichen. Die KI wird uns also nicht auslöschen, weil sie dies explizit zum Ziel hat, sondern weil wir einem anderen Ziel in die Quere kommen.

Einen Vergleich, den das Buch dazu bemüht: Mensch versus Ameise. Die meisten Menschen tragen keinen Hass gegen Ameisen mit sich herum. Aber wenn ein Ameisenhaufen genau dort steht, wo eine Strasse gebaut werden soll, ist die Sache schnell entschieden. Nicht aus Bosheit – aus Gleichgültigkeit. Eine Superintelligenz, die uns überlegen ist, müsste uns nicht hassen, um uns zu verdrängen. Wir wären schlicht im Weg.

Wie genau dieses Verdrängen aussehen würde, lassen Yudkowsky und Soares offen. Sich das im Detail vorzustellen, hiesse, so klug zu planen wie die Superintelligenz selbst, was definitionsgemäss unmöglich ist. Aber Wege gibt es viele, und die superintelligente KI wird einen finden. Das ist der Punkt.

Echt jetzt? Ist das nicht alles zu extrem?

Das Buch verdient durchaus auch Skepsis. Der Philosoph William MacAskill kritisiert etwa, die Evolutionsanalogie sei unzutreffend: KI-Entwicklerinnen können – anders als die Evolution – Verhalten in verschiedenen Umgebungen beobachten und gezielt gegen eine Zielveränderung vorgehen. Yudkowsky und Soares nehmen zudem implizit einen plötzlichen Fähigkeitssprung der KI an, während graduellere Fortschritte es uns erlauben würden, die KI selbst zur Findung der Lösung einzusetzen, so MacAskill. Andere monieren, das Buch verzichte fast völlig auf empirische Evidenz und liefere stattdessen eine Kette prägnanter, aber unbeweisbarer Analogien.

Alles nicht von der Hand zu weisen. Und doch: Die entscheidende Frage lautet nicht «sterben wir mit Sicherheit aus?», sondern «wie hoch muss die Wahrscheinlichkeit auf ein katastrophales Resultat sein, damit wir sie ernst nehmen?». Und um dies klarzustellen: die führenden Köpfe in der KI – unter anderem die CEOs der grossen Labs, die eigentlich incentiviert sind, dieses Risiko herunterzuspielen – quantifizieren die Wahrscheinlichkeit, dass alles richtig schiefgeht, je nach Tagesform, auf irgendwo zwischen 1 und 25 Prozent.

Das Buch rüttelt so sehr auf, dass es gar schon im US-Kongress besprochen wurde.bild: x.com

Würden wir in ein Flugzeug einsteigen, das nur zu 75 Prozent sicher fliegt? Würden wir ein Atomkraftwerk bauen, dessen Schmelz-Wahrscheinlichkeit 10 Prozent ist? Falls nein, sollten wir uns fragen, warum wir dies bei der KI anders handhaben.

Yudkowsky und Soares fordern einen weltweiten Stopp der KI-Entwicklung. Lediglich eng umgrenzte Systeme wie Googles AlphaFold, die nicht zu Allzweck-Superintelligenz führen, sollen weiterentwickelt werden dürfen.

Diese Forderung scheint radikal und derzeit utopisch – was nicht heisst, dass wir uns nicht deutlich mehr mit dem Thema beschäftigen sollten. Daher: Nehmen wir das im Buch dargelegte Argument ernst – wenn auch nicht überall wörtlich. Pochen wir darauf, dass KI-Labs nicht einfach tun können, was sie wollen, sondern dass sie der Öffentlichkeit Rechenschaft ablegen müssen und es einen sinnvollen Kontrollprozess der KI-Entwicklung gibt. Denn wenn wirklich alle sterben könnten, sollten auch alle etwas dazu zu sagen haben.

Zur Person

Severin Trösch ist der Kopf hinter der künstlichen Intelligenz bei der Datahouse AG – einer Firma, die alles mit Daten macht und fast alles davon kann. Die Komplexität hinter der KI hat ihn nicht nur seine letzten Haare gekostet, sondern auch motiviert, das KI-Kauderwelsch so zu erklären, dass auch Nicht-Nerds den Durchblick kriegen.

Bild:

Weitere Storys unseres KI-Bloggers:

Superintelligente KI: Rettung oder Verderben der Menschheit?