Teaserbild CEO-Bench, neuartiger KI-Vergleichstest.

Wenn KI-Agenten Management-Entscheide treffen …Bild: watson / imago-images.de

Kann KI deinen Chef ersetzen? Forscher haben's ausprobiert

Mit «CEO-Bench» haben amerikanische Wissenschaftler einen neuartigen Vergleichstest für Sprachmodelle entwickelt. Dabei führen KI-Agenten ein Start-up und legen mit einer Million Dollar Startkapital los.

02.07.2026, 20:0002.07.2026, 20:00

Daniel Schurter

Ein Forscherteam der Princeton University, einer amerikanischen Privatuniversität, wollte herausfinden: Können aktuelle, leistungsfähige KI-Modelle ein ganzes Unternehmen lenken? Dafür haben sie «CEO-Bench» entwickelt.

Inhaltsverzeichnis

Wenn KIs für 500 Tage ein Start-up führen

Warum ist das spannend?

Startkapital: 1 Million 💰

Wie führt eine KI eine Software-Bude?

Datenanalyse gegen den Blindflug – wie im echten Leben

Die Testwelt ist ziemlich unberechenbar

Social Media kann zur Stolperfalle werden

Und das Fazit? 🙈

Die (derzeit) beste KI

Quellen

Anmerkung: Im Folgenden werden die spannendsten Erkenntnisse (hoffentlich) verständlich zusammengefasst. Technisch Interessierte erfahren mehr via Quellen.

Wenn KIs für 500 Tage ein Start-up führen

Die Versuchsanordnung bei «CEO-Bench»: Sogenannte KI-Agenten schlüpfen in die Rolle eines Geschäftsführers. Sie sollen ein nur virtuell existierendes Software-Startup über einen Zeitraum von 500 simulierten Tagen leiten. Und wenn möglich Gewinn schreiben.

Als virtueller CEO agiert ein KI-Agent. Dieser greift im Test auf ein bestimmtes Sprachmodell von Anthropic, Deepseek, Google, OpenAI oder xAI als Beraterin zurück.

Was macht eigentlich ein KI-Agent?

Ein KI-Agent ist ein System der künstlichen Intelligenz, das nicht nur Texte generiert oder Fragen beantwortet, sondern auf einem Computer eigenständig agiert, um ein vorgegebenes Ziel zu erreichen. Man kann ihn sich als eine Weiterentwicklung herkömmlicher KI-Chatbots vorstellen: Er kann nicht nur «denken» und «sprechen», sondern digital «handeln»

Wie funktioniert das?

Herkömmliche KI-Modelle warten auf eine detaillierte Eingabe des Users und liefern darauf eine direkte Reaktion. Ein KI-Agent hingegen durchläuft einen mehrstufigen Prozess: Er analysiert das übergeordnete Ziel, zerlegt es in logische Teilschritte, entscheidet über das beste Vorgehen und nutzt digitale Werkzeuge, um die Aufgabe Schritt für Schritt abzuarbeiten.

Was bringt das?

Ein KI-Agent kann beispielsweise selbstständig im Internet recherchieren, Kalendereinträge erstellen, E-Mails versenden oder ein komplexes Programm entwickeln.

Warum ist das riskant?

Damit ein KI-Agent nützliche Aufgaben übernehmen kann, benötigt er weitreichende Zugriffsrechte – von E-Mail-Konten bis hin zu internen Datenbanken. Dies birgt nicht nur das Risiko von Datenlecks, sondern macht das System auch anfällig für böswillige Manipulationen von aussen.

Wenn ein KI-Chatbot einen Fehler macht (eine sogenannte «Halluzination»), steht ein falscher Satz auf dem Display. Zieht ein KI-Agent hingegen eine falsche Schlussfolgerung, handelt er auf dieser Basis weiter. Dies kann böse Folgen haben.

Da der KI-Agent seine Lösungswege eigenständig wählt, ist nicht immer klar, wie er ein Ziel erreichen wird. Und da er die Aufgaben in rasender Geschwindigkeit abarbeitet, fehlt oft die Zeit für menschliche Kontrolle.

bild: imago-images.de

Warum ist das spannend?

Bei herkömmlichen KI-Tests wird bewertet, wie gut ein Sprachmodell (LLM) schwierige Prüfungsfragen bewältigt. Mit CEO-Bench lässt sich herausfinden, ob eine KI Weitsicht, Anpassungsfähigkeit und Entscheidungsfindung unter Beweis stellen kann. Und zwar über einen langen Zeitraum bei gleichzeitig unvollständiger Informationslage.

Die Princeton-Forscher sprechen von Steuerungsintelligenz («Steering Intelligence») und nennen als menschliches Beispiel Steve Jobs. Der Apple-Gründer habe es «mit einer Art strategischer Intelligenz» geschafft, die Firma in den 1990ern nicht nur vor dem Bankrott zu bewahren, sondern mit einer einfachen Produktstrategie steinreich zu machen.

Startkapital: 1 Million 💰

Jeder KI-Agent erhält zum Start ein Kapital von exakt einer Million US-Dollar. Simuliert, natürlich. Die alleinige und unbestechliche Messgrösse für den Erfolg oder Misserfolg am Ende der 500 Tage ist der finale Kontostand.

Wie führt eine KI eine Software-Bude?

Das Sprachmodell liefert nur die «Intelligenz», um Datenbanken auszuwerten oder den passenden Befehl auszuwählen. Der KI-Agent ist das Gesamtsystem, das 500 simulierte Tage lang selbstständig in einer Schleife agiert:

Der KI-CEO erteilt seine Anweisungen nicht an Menschen, sondern handelt selbst mithilfe von 34 Tools. Das Ganze passierte automatisiert über eine Python-Schnittstelle.

So kann er Preise anpassen, bei Bedarf Serverkapazitäten hinzubuchen, aber auch Forschungsbudgets festlegen und über die Verteilung von Werbegeldern entscheiden.

Screenshot: ceobench.com

Datenanalyse gegen den Blindflug – wie im echten Leben

Bei «CEO-Benchmark» wird nichts vorgekaut.

Den KI-Testkandidaten werden keine übersichtlichen Management-Zusammenfassungen gefüttert. Sie müssen aktiv eine umfangreiche Datenbank (SQL) abfragen, um «selbstständig» Kennzahlen wie Umsätze, Kündigungsraten oder Werbekosten zu berechnen und daraus ihre Schlüsse ziehen.

Die Testwelt ist ziemlich unberechenbar

Die Simulation findet nicht im Vakuum statt. Die KI-Agenten müssen auf volkswirtschaftliche Schwankungen und sich verändernde Kundenbedürfnisse reagieren. Zudem sollen sie Mitbewerber beobachten und wenn nötig handeln, um die Erwartungen der Kundschaft zu erfüllen.

Social Media kann zur Stolperfalle werden

Die KI-Agenten müssen einen chaotischen, simulierten Social-Media-Feed überwachen. Sie lesen Kundenbeschwerden über Serverausfälle oder verfolgen PR-Aktionen der Konkurrenz. Reagiert die KI mit den richtigen Postings, kann das den eigenen Ruf verbessern und mehr Kunden gewinnen.

Und das Fazit? 🙈

«Die meisten modernen Modelle haben Schwierigkeiten, die Simulation ohne Insolvenz abzuschliessen.»

Aus dem Fazit der Forscher

Die Mehrheit der aktuellen KIs versagte offenbar in der Chefetage kläglich. Bekannte Sprachmodelle wie Gemini 3 Flash (Google), DeepSeek V4 Pro oder Grok 4.20 (xAI) trieben ihr Start-up im Test unweigerlich in den Bankrott.

Ein einfacher Algorithmus demütigte die hochgelobten KI-Agenten, die als besonders leistungsfähig gelten. Konkret liessen die Forscher ein Script mit starren Wenn-Dann-Regeln ebenfalls in einer Schleife durchlaufen. Dieses erwirtschaftete im Vergleichstest fast 16 Millionen Dollar.

Die (derzeit) beste KI

Es gab laut CEO-Bench aktuell nur drei Sprachmodelle, die in Höchstform die anfängliche Million vermehren konnten: Claude Fable 5, Claude Opus 4.8 und GPT-5.5.

Interessant: Die KIs verfolgen laut Bericht «selbst bei ähnlichem Endkapital sehr unterschiedliche Strategien».

Der klare Gewinner der Princeton-Studie war Claude Fable 5, das Anthropic-Sprachmodell kam in der Spitze auf einen Endstand von über 47 Millionen US-Dollar. Claude Fable 5 war zudem das einzige Modell, das in mehr als nur einem einzigen Testlauf einen Gewinn verzeichnen konnte.

Quellen

golem.de: KI-Agenten scheitern als virtuelle Chefs
ceobench.com: CEO-Bench
arxiv.org: CEO-Bench: Can Agents Play the Long Game?

Das könnte dich auch interessieren:

Suchmaschinen-KI behauptet, Trump sei an Tollwut gestorben – nach Biss durch Vize

Beluga

02.07.2026 21:21registriert Mai 2018

Wenn man das liest, kommt nman zum schluss, dass menschliche CEOs auch nur stochastische Papageien sind...
Die versuchen ja auch, unbelastet jeglicher Fachkenntnisse, irgendwelche Sesselfurzertheorien, welche ihnen ein teurer "Consultant" in Hochglanzpowerpoint untergejubelt hat, in den Betrieb zu quetschen!

593

Melden

Zum Kommentar

Kenshiro

02.07.2026 23:08registriert Dezember 2017

Mein Chef könnte sogar durch ein Glas Wasser ersetzt werden, wäre auf jedefall erfrischender.

331

Yvy76

02.07.2026 20:55registriert Juli 2020

Wenn echte CEOs Startups führen sind auch nur wenige erfolgreich. Und genauso skrupellos wie KI das wahrscheinlich wäre. So what...

220

KI als Chef-Ersatz? Forscher haben es mit «CEO-Bench» ausprobiert

Kann KI deinen Chef ersetzen? Forscher haben's ausprobiert

Wenn KIs für 500 Tage ein Start-up führen

Was macht eigentlich ein KI-Agent?

Warum ist das spannend?

Startkapital: 1 Million 💰

Wie führt eine KI eine Software-Bude?

Datenanalyse gegen den Blindflug – wie im echten Leben

Die Testwelt ist ziemlich unberechenbar

Social Media kann zur Stolperfalle werden

Und das Fazit? 🙈

Die (derzeit) beste KI

Quellen

Das könnte dich auch interessieren: