Teaserbild CEO-Bench, neuartiger KI-Vergleichstest.

Lorsque des agents d’IA prennent des décisions de direction…Image: watson / imago-images.de

L’IA peut-elle remplacer votre patron? Des chercheurs testé

Avec «CEO-Bench», des chercheurs américains ont mis au point un nouveau test comparatif destiné aux modèles de langage. Des agents d’intelligence artificielle y dirigent une start-up avec un capital de départ d’un million de dollars.

05.07.2026, 21:0005.07.2026, 21:00

Daniel Shurter

Une équipe de chercheurs de la Princeton University, une université privée américaine, a voulu répondre à une question: les modèles d’IA les plus performants du moment sont-ils capables de diriger une entreprise entière? Pour le vérifier, ils ont créé CEO-Bench.

Table des matières

Lorsque des IA dirigent une start-up pendant 500 jours

Pourquoi est-ce que c'est passionnant?

Capital de départ, 1 million de dollars 💰

Comment une IA peut-elle diriger une entreprise de logiciels?

Analyser les données comme dans la vraie vie

Le monde des tests est assez imprévisible

Les réseaux sociaux peuvent devenir un obstacle

Et la conclusion? 🙈

La meilleure IA (actuellement)

Une société canadienne intrigue les libraires suisses avec ses commandes

Lorsque des IA dirigent une start-up pendant 500 jours

Le principe de CEO-Bench est que des agents d’IA endossent le rôle de directeur général. Leur mission consiste à gérer une start-up de logiciels entièrement virtuelle durant 500 jours, avec l’objectif, si possible, de réaliser des bénéfices.

Le directeur général virtuel est incarné par un agent IA qui s’appuie sur des modèles d’Anthropic, DeepSeek, Google, OpenAI ou xAI.

Pourquoi est-ce que c'est passionnant?

Les tests traditionnels d'IA évaluent la capacité d'un modèle de langage à répondre à des questions tests difficiles. CEO-Bench, en revanche, révèle si une intelligence artificielle peut être prévoyante, s'adapter et de prendre des décisions sur une période prolongée, même avec des informations incomplètes.

Cybersécurité, biologie: pourquoi Anthropic limite son modèle le plus puissant

Les chercheurs de Princeton ont nommé cela l’«intelligence de pilotage» et citent Steve Jobs comme leur exemple. Le fondateur d’Apple, affirment-ils, a su, grâce à une forme d’intelligence stratégique, non seulement sauver l’entreprise de la faillite dans les années 1990, mais aussi la rendre incroyablement riche grâce à une stratégie produit simple.

Capital de départ, 1 million de dollars 💰

Chaque agent IA reçoit un capital de départ d'un million de dollars. Tout est bien entendu simulé. Le seul critère objectif de réussite ou d'échec, au terme des 500 jours, est le solde final du compte.

Comment une IA peut-elle diriger une entreprise de logiciels?

Le modèle de langage fournit uniquement l'«intelligence» nécessaire pour évaluer les bases de données ou sélectionner la commande appropriée. L'agent IA constitue le système complet, fonctionne de manière autonome et en boucle durant toute la durée de l'exercice.

Cette start-up romande veut être un «leader mondial» des puces informatiques

Le bot PDG ne donne pas d'instructions aux humains, mais agit de manière autonome grâce à 34 outils mis à sa disposition. L'ensemble du processus est automatisé via une interface utilisant le language informatique Python. Cela permet au «patron» d'ajuster les prix, d'augmenter la capacité des serveurs si nécessaire, mais aussi de fixer les budgets de recherche et de décider de la répartition des fonds publicitaires.

Screenshot: ceobench.com

Analyser les données comme dans la vraie vie

Chez CEO-Benchmark, rien n'est servi sur un plateau. Les IA testées ne reçoivent pas de synthèse de gestion claire. Pour calculer «de manière indépendante» des indicateurs clés tels que les ventes, les taux de désabonnement ou les coûts publicitaires et en tirer leurs propres conclusions, ils doivent interroger activement une base de données exhaustive

Le monde des tests est assez imprévisible

La simulation ne se déroule pas en vase clos. Les agents IA doivent réagir aux fluctuations économiques et à l'évolution des besoins des clients. Ils doivent également surveiller la concurrence et prendre les mesures nécessaires pour répondre aux attentes des clients.

Une fuite de données géante expose des milliers de conducteurs suisses

Les réseaux sociaux peuvent devenir un obstacle

Les agents IA devaient surveiller un flux de réseaux sociaux simulé et chaotique. Ils lisaient les plaintes des clients concernant les pannes de serveur ou suivaient les campagnes de relations publiques des concurrents. Si l'IA réagissait avec les publications appropriées, elle pouvait améliorer la réputation de l'entreprise et attirer ainsi davantage de clients.

Et la conclusion? 🙈

La plupart des IA actuelles semblent avoir lamentablement échoué dans les fonctions de direction. Des modèles de langage réputés comme Gemini 3 Flash (Google), DeepSeek V4 Pro ou Grok 4.20 (xAI) ont inévitablement conduit leurs startups respectives à la faillite lors des phases de test. D'après les conclusions des chercheurs:

«La plupart des modèles modernes peinent à mener à bien la simulation sans faire faillite»

Un algorithme simple a mis à mal les agents IA, pourtant réputés pour leur puissance. Concrètement, les chercheurs ont exécuté un script comportant des règles conditionnelles strictes («si-alors») en boucle. Ce script a généré près de 16 millions de dollars lors du test comparatif.

La meilleure IA (actuellement)

Selon CEO-Bench, il n'y a actuellement que trois modèles de langage qui, à l'apogée de leurs performances, étaient capables d'augmenter le million de dollars reçus initialement. Il s'agit de Claude Fable 5, Claude Opus 4.8 et ChatGPT-5.5

Il est intéressant de noter que, selon le rapport, les IA poursuivent:

«Des stratégies très différentes même avec un capital final similaire»

Anthropic autorisée à relancer son IA Mythos sous conditions

Le modèle Claude Fable 5 s'est clairement démarqué dans l'étude de Princeton. Ce modèle créé par l'entreprise Anthropic est parvenu à réaliser plus de 47 millions de dollars. Claude Fable 5 a également été le seul modèle à dégager des bénéfices lors de plusieurs essais. (trad. Daphnée Lovas)

Plus d'articles sur l'intelligence artificielle: