Kann KI deinen Chef ersetzen? Forscher haben's ausprobiert
Ein Forscherteam der Princeton University, einer amerikanischen Privatuniversität, wollte herausfinden: Können aktuelle, leistungsfähige KI-Modelle ein ganzes Unternehmen lenken? Dafür haben sie «CEO-Bench» entwickelt.
Anmerkung: Im Folgenden werden die spannendsten Erkenntnisse (hoffentlich) verständlich zusammengefasst. Technisch Interessierte erfahren mehr via Quellen.
Wenn KIs für 500 Tage ein Start-up führen
Die Versuchsanordnung bei «CEO-Bench»: Sogenannte KI-Agenten schlüpfen in die Rolle eines Geschäftsführers. Sie sollen ein nur virtuell existierendes Software-Startup über einen Zeitraum von 500 simulierten Tagen leiten. Und wenn möglich Gewinn schreiben.
Als virtueller CEO agiert ein KI-Agent. Dieser greift im Test auf ein bestimmtes Sprachmodell von Anthropic, Deepseek, Google, OpenAI oder xAI als Beraterin zurück.
Was macht eigentlich ein KI-Agent?
Ein KI-Agent ist ein System der künstlichen Intelligenz, das nicht nur Texte generiert oder Fragen beantwortet, sondern auf einem Computer eigenständig agiert, um ein vorgegebenes Ziel zu erreichen. Man kann ihn sich als eine Weiterentwicklung herkömmlicher KI-Chatbots vorstellen: Er kann nicht nur «denken» und «sprechen», sondern digital «handeln»
Wie funktioniert das?
Herkömmliche KI-Modelle warten auf eine detaillierte Eingabe des Users und liefern darauf eine direkte Reaktion. Ein KI-Agent hingegen durchläuft einen mehrstufigen Prozess: Er analysiert das übergeordnete Ziel, zerlegt es in logische Teilschritte, entscheidet über das beste Vorgehen und nutzt digitale Werkzeuge, um die Aufgabe Schritt für Schritt abzuarbeiten.
Was bringt das?
Ein KI-Agent kann beispielsweise selbstständig im Internet recherchieren, Kalendereinträge erstellen, E-Mails versenden oder ein komplexes Programm entwickeln.
Warum ist das riskant?
Damit ein KI-Agent nützliche Aufgaben übernehmen kann, benötigt er weitreichende Zugriffsrechte – von E-Mail-Konten bis hin zu internen Datenbanken. Dies birgt nicht nur das Risiko von Datenlecks, sondern macht das System auch anfällig für böswillige Manipulationen von aussen.
Wenn ein KI-Chatbot einen Fehler macht (eine sogenannte «Halluzination»), steht ein falscher Satz auf dem Display. Zieht ein KI-Agent hingegen eine falsche Schlussfolgerung, handelt er auf dieser Basis weiter. Dies kann böse Folgen haben.
Da der KI-Agent seine Lösungswege eigenständig wählt, ist nicht immer klar, wie er ein Ziel erreichen wird. Und da er die Aufgaben in rasender Geschwindigkeit abarbeitet, fehlt oft die Zeit für menschliche Kontrolle.
Warum ist das spannend?
Bei herkömmlichen KI-Tests wird bewertet, wie gut ein Sprachmodell (LLM) schwierige Prüfungsfragen bewältigt. Mit CEO-Bench lässt sich herausfinden, ob eine KI Weitsicht, Anpassungsfähigkeit und Entscheidungsfindung unter Beweis stellen kann. Und zwar über einen langen Zeitraum bei gleichzeitig unvollständiger Informationslage.
Die Princeton-Forscher sprechen von Steuerungsintelligenz («Steering Intelligence») und nennen als menschliches Beispiel Steve Jobs. Der Apple-Gründer habe es «mit einer Art strategischer Intelligenz» geschafft, die Firma in den 1990ern nicht nur vor dem Bankrott zu bewahren, sondern mit einer einfachen Produktstrategie steinreich zu machen.
Startkapital: 1 Million 💰
Jeder KI-Agent erhält zum Start ein Kapital von exakt einer Million US-Dollar. Simuliert, natürlich. Die alleinige und unbestechliche Messgrösse für den Erfolg oder Misserfolg am Ende der 500 Tage ist der finale Kontostand.
Wie führt eine KI eine Software-Bude?
Das Sprachmodell liefert nur die «Intelligenz», um Datenbanken auszuwerten oder den passenden Befehl auszuwählen. Der KI-Agent ist das Gesamtsystem, das 500 simulierte Tage lang selbstständig in einer Schleife agiert:
Der KI-CEO erteilt seine Anweisungen nicht an Menschen, sondern handelt selbst mithilfe von 34 Tools. Das Ganze passierte automatisiert über eine Python-Schnittstelle.
So kann er Preise anpassen, bei Bedarf Serverkapazitäten hinzubuchen, aber auch Forschungsbudgets festlegen und über die Verteilung von Werbegeldern entscheiden.
Datenanalyse gegen den Blindflug – wie im echten Leben
Bei «CEO-Benchmark» wird nichts vorgekaut.
Den KI-Testkandidaten werden keine übersichtlichen Management-Zusammenfassungen gefüttert. Sie müssen aktiv eine umfangreiche Datenbank (SQL) abfragen, um «selbstständig» Kennzahlen wie Umsätze, Kündigungsraten oder Werbekosten zu berechnen und daraus ihre Schlüsse ziehen.
Die Testwelt ist ziemlich unberechenbar
Die Simulation findet nicht im Vakuum statt. Die KI-Agenten müssen auf volkswirtschaftliche Schwankungen und sich verändernde Kundenbedürfnisse reagieren. Zudem sollen sie Mitbewerber beobachten und wenn nötig handeln, um die Erwartungen der Kundschaft zu erfüllen.
Social Media kann zur Stolperfalle werden
Die KI-Agenten müssen einen chaotischen, simulierten Social-Media-Feed überwachen. Sie lesen Kundenbeschwerden über Serverausfälle oder verfolgen PR-Aktionen der Konkurrenz. Reagiert die KI mit den richtigen Postings, kann das den eigenen Ruf verbessern und mehr Kunden gewinnen.
Und das Fazit? 🙈
Die Mehrheit der aktuellen KIs versagte offenbar in der Chefetage kläglich. Bekannte Sprachmodelle wie Gemini 3 Flash (Google), DeepSeek V4 Pro oder Grok 4.20 (xAI) trieben ihr Start-up im Test unweigerlich in den Bankrott.
Ein einfacher Algorithmus demütigte die hochgelobten KI-Agenten, die als besonders leistungsfähig gelten. Konkret liessen die Forscher ein Script mit starren Wenn-Dann-Regeln ebenfalls in einer Schleife durchlaufen. Dieses erwirtschaftete im Vergleichstest fast 16 Millionen Dollar.
Die (derzeit) beste KI
Es gab laut CEO-Bench aktuell nur drei Sprachmodelle, die in Höchstform die anfängliche Million vermehren konnten: Claude Fable 5, Claude Opus 4.8 und GPT-5.5.
Interessant: Die KIs verfolgen laut Bericht «selbst bei ähnlichem Endkapital sehr unterschiedliche Strategien».
Der klare Gewinner der Princeton-Studie war Claude Fable 5, das Anthropic-Sprachmodell kam in der Spitze auf einen Endstand von über 47 Millionen US-Dollar. Claude Fable 5 war zudem das einzige Modell, das in mehr als nur einem einzigen Testlauf einen Gewinn verzeichnen konnte.
Quellen
- golem.de: KI-Agenten scheitern als virtuelle Chefs
- ceobench.com: CEO-Bench
- arxiv.org: CEO-Bench: Can Agents Play the Long Game?
