Wirtschaft
Digital

KI als Chef-Ersatz? Forscher haben es mit «CEO-Bench» ausprobiert

Teaserbild CEO-Bench, neuartiger KI-Vergleichstest.
Wenn KI-Agenten Management-Entscheide treffen …Bild: watson / imago-images.de

Kann KI deinen Chef ersetzen? Forscher haben's ausprobiert

Mit «CEO-Bench» haben amerikanische Wissenschaftler einen neuartigen Vergleichstest für Sprachmodelle entwickelt. Dabei führen KI-Agenten ein Start-up und legen mit einer Million Dollar Startkapital los.
02.07.2026, 20:0002.07.2026, 20:00

Ein Forscherteam der Princeton University, einer amerikanischen Privatuniversität, wollte herausfinden: Können aktuelle, leistungsfähige KI-Modelle ein ganzes Unternehmen lenken? Dafür haben sie «CEO-Bench» entwickelt.

Anmerkung: Im Folgenden werden die spannendsten Erkenntnisse (hoffentlich) verständlich zusammengefasst. Technisch Interessierte erfahren mehr via Quellen.

Wenn KIs für 500 Tage ein Start-up führen

Die Versuchsanordnung bei «CEO-Bench»: Sogenannte KI-Agenten schlüpfen in die Rolle eines Geschäftsführers. Sie sollen ein nur virtuell existierendes Software-Startup über einen Zeitraum von 500 simulierten Tagen leiten. Und wenn möglich Gewinn schreiben.

Als virtueller CEO agiert ein KI-Agent. Dieser greift im Test auf ein bestimmtes Sprachmodell von Anthropic, Deepseek, Google, OpenAI oder xAI als Beraterin zurück.

Was macht eigentlich ein KI-Agent?

Ein KI-Agent ist ein System der künstlichen Intelligenz, das nicht nur Texte generiert oder Fragen beantwortet, sondern auf einem Computer eigenständig agiert, um ein vorgegebenes Ziel zu erreichen. Man kann ihn sich als eine Weiterentwicklung herkömmlicher KI-Chatbots vorstellen: Er kann nicht nur «denken» und «sprechen», sondern digital «handeln»

Wie funktioniert das?

Herkömmliche KI-Modelle warten auf eine detaillierte Eingabe des Users und liefern darauf eine direkte Reaktion. Ein KI-Agent hingegen durchläuft einen mehrstufigen Prozess: Er analysiert das übergeordnete Ziel, zerlegt es in logische Teilschritte, entscheidet über das beste Vorgehen und nutzt digitale Werkzeuge, um die Aufgabe Schritt für Schritt abzuarbeiten.

Was bringt das?

Ein KI-Agent kann beispielsweise selbstständig im Internet recherchieren, Kalendereinträge erstellen, E-Mails versenden oder ein komplexes Programm entwickeln.

Warum ist das riskant?

Damit ein KI-Agent nützliche Aufgaben übernehmen kann, benötigt er weitreichende Zugriffsrechte – von E-Mail-Konten bis hin zu internen Datenbanken. Dies birgt nicht nur das Risiko von Datenlecks, sondern macht das System auch anfällig für böswillige Manipulationen von aussen.

Wenn ein KI-Chatbot einen Fehler macht (eine sogenannte «Halluzination»), steht ein falscher Satz auf dem Display. Zieht ein KI-Agent hingegen eine falsche Schlussfolgerung, handelt er auf dieser Basis weiter. Dies kann böse Folgen haben.

Da der KI-Agent seine Lösungswege eigenständig wählt, ist nicht immer klar, wie er ein Ziel erreichen wird. Und da er die Aufgaben in rasender Geschwindigkeit abarbeitet, fehlt oft die Zeit für menschliche Kontrolle.

Editorial Bild
bild: imago-images.de

Warum ist das spannend?

Bei herkömmlichen KI-Tests wird bewertet, wie gut ein Sprachmodell (LLM) schwierige Prüfungsfragen bewältigt. Mit CEO-Bench lässt sich herausfinden, ob eine KI Weitsicht, Anpassungsfähigkeit und Entscheidungsfindung unter Beweis stellen kann. Und zwar über einen langen Zeitraum bei gleichzeitig unvollständiger Informationslage.

Die Princeton-Forscher sprechen von Steuerungsintelligenz («Steering Intelligence») und nennen als menschliches Beispiel Steve Jobs. Der Apple-Gründer habe es «mit einer Art strategischer Intelligenz» geschafft, die Firma in den 1990ern nicht nur vor dem Bankrott zu bewahren, sondern mit einer einfachen Produktstrategie steinreich zu machen.

Startkapital: 1 Million 💰

Jeder KI-Agent erhält zum Start ein Kapital von exakt einer Million US-Dollar. Simuliert, natürlich. Die alleinige und unbestechliche Messgrösse für den Erfolg oder Misserfolg am Ende der 500 Tage ist der finale Kontostand.

Wie führt eine KI eine Software-Bude?

Das Sprachmodell liefert nur die «Intelligenz», um Datenbanken auszuwerten oder den passenden Befehl auszuwählen. Der KI-Agent ist das Gesamtsystem, das 500 simulierte Tage lang selbstständig in einer Schleife agiert:

Der KI-CEO erteilt seine Anweisungen nicht an Menschen, sondern handelt selbst mithilfe von 34 Tools. Das Ganze passierte automatisiert über eine Python-Schnittstelle.

So kann er Preise anpassen, bei Bedarf Serverkapazitäten hinzubuchen, aber auch Forschungsbudgets festlegen und über die Verteilung von Werbegeldern entscheiden.

KI-Agent führt ein virtuelles Start-up, um die Leistungsfähigkeit bekannter Sprachmodelle zu testen. Screenshot: ceobench.com
Screenshot: ceobench.com

Datenanalyse gegen den Blindflug – wie im echten Leben

Bei «CEO-Benchmark» wird nichts vorgekaut.

Den KI-Testkandidaten werden keine übersichtlichen Management-Zusammenfassungen gefüttert. Sie müssen aktiv eine umfangreiche Datenbank (SQL) abfragen, um «selbstständig» Kennzahlen wie Umsätze, Kündigungsraten oder Werbekosten zu berechnen und daraus ihre Schlüsse ziehen.

Die Testwelt ist ziemlich unberechenbar

Die Simulation findet nicht im Vakuum statt. Die KI-Agenten müssen auf volkswirtschaftliche Schwankungen und sich verändernde Kundenbedürfnisse reagieren. Zudem sollen sie Mitbewerber beobachten und wenn nötig handeln, um die Erwartungen der Kundschaft zu erfüllen.

Social Media kann zur Stolperfalle werden

Die KI-Agenten müssen einen chaotischen, simulierten Social-Media-Feed überwachen. Sie lesen Kundenbeschwerden über Serverausfälle oder verfolgen PR-Aktionen der Konkurrenz. Reagiert die KI mit den richtigen Postings, kann das den eigenen Ruf verbessern und mehr Kunden gewinnen.

Und das Fazit? 🙈

«Die meisten modernen Modelle haben Schwierigkeiten, die Simulation ohne Insolvenz abzuschliessen.»
Aus dem Fazit der Forscher

Die Mehrheit der aktuellen KIs versagte offenbar in der Chefetage kläglich. Bekannte Sprachmodelle wie Gemini 3 Flash (Google), DeepSeek V4 Pro oder Grok 4.20 (xAI) trieben ihr Start-up im Test unweigerlich in den Bankrott.

Ein einfacher Algorithmus demütigte die hochgelobten KI-Agenten, die als besonders leistungsfähig gelten. Konkret liessen die Forscher ein Script mit starren Wenn-Dann-Regeln ebenfalls in einer Schleife durchlaufen. Dieses erwirtschaftete im Vergleichstest fast 16 Millionen Dollar.

Die (derzeit) beste KI

Es gab laut CEO-Bench aktuell nur drei Sprachmodelle, die in Höchstform die anfängliche Million vermehren konnten: Claude Fable 5, Claude Opus 4.8 und GPT-5.5.

Interessant: Die KIs verfolgen laut Bericht «selbst bei ähnlichem Endkapital sehr unterschiedliche Strategien».

Der klare Gewinner der Princeton-Studie war Claude Fable 5, das Anthropic-Sprachmodell kam in der Spitze auf einen Endstand von über 47 Millionen US-Dollar. Claude Fable 5 war zudem das einzige Modell, das in mehr als nur einem einzigen Testlauf einen Gewinn verzeichnen konnte.

Quellen

DANKE FÜR DIE ♥
Würdest du gerne watson und unseren Journalismus unterstützen? Mehr erfahren
(Du wirst umgeleitet, um die Zahlung abzuschliessen.)
5 CHF
15 CHF
25 CHF
Anderer
Oder unterstütze uns per Banküberweisung.
Die verrückte Geschichte von OpenAI und ChatGPT
1 / 26
Die verrückte Geschichte von OpenAI und ChatGPT

ChatGPT hat die Welt im Sturm erobert. In dieser Bildstrecke erfährst du, wie aus der Non-Profit-Organisation ein Milliardenbusiness wurde. Und wir erinnern an die technischen Meilensteine, die schliesslich zur bahnbrechenden Technologie führten.

quelle: shutterstock
Auf Facebook teilenAuf X teilen
«Korrupteste Regierung, die das Land je hatte» – Biden rechnet mit Trump ab
Video: watson
Das könnte dich auch noch interessieren:
Du hast uns was zu sagen?
Hast du einen relevanten Input oder hast du einen Fehler entdeckt? Du kannst uns dein Anliegen gerne via Formular übermitteln.
25 Kommentare
Dein Kommentar
YouTube Link
0 / 600
Hier gehts zu den Kommentarregeln.
Die beliebtesten Kommentare
avatar
Beluga
02.07.2026 21:21registriert Mai 2018
Wenn man das liest, kommt nman zum schluss, dass menschliche CEOs auch nur stochastische Papageien sind...
Die versuchen ja auch, unbelastet jeglicher Fachkenntnisse, irgendwelche Sesselfurzertheorien, welche ihnen ein teurer "Consultant" in Hochglanzpowerpoint untergejubelt hat, in den Betrieb zu quetschen!
593
Melden
Zum Kommentar
avatar
Kenshiro
02.07.2026 23:08registriert Dezember 2017
Mein Chef könnte sogar durch ein Glas Wasser ersetzt werden, wäre auf jedefall erfrischender.
331
Melden
Zum Kommentar
avatar
Yvy76
02.07.2026 20:55registriert Juli 2020
Wenn echte CEOs Startups führen sind auch nur wenige erfolgreich. Und genauso skrupellos wie KI das wahrscheinlich wäre. So what...
220
Melden
Zum Kommentar
25
US-Regierung hebt Blockade von Anthropics KI-Modellen auf
Die US-Regierung hat ihre Exportsperren für die neuesten KI-Modelle des OpenAI-Rivalen Anthropic nach mehr als zwei Wochen aufgehoben. Man werde nun damit anfangen, den Zugang zu den Programmen Mythos 5 und Fable 5 wiederherzustellen, teilte Anthropic in der Nacht auf Mittwoch in einem neuen Beitrag im Firmen-Blog mit.
Zur Story