International
Technologie

L’IA peut-elle remplacer votre patron? Des chercheurs ont fait le test

Teaserbild CEO-Bench, neuartiger KI-Vergleichstest.
Lorsque des agents d’IA prennent des décisions de direction…Image: watson / imago-images.de

L’IA peut-elle remplacer votre patron? Des chercheurs testé

Avec «CEO-Bench», des chercheurs américains ont mis au point un nouveau test comparatif destiné aux modèles de langage. Des agents d’intelligence artificielle y dirigent une start-up avec un capital de départ d’un million de dollars.
05.07.2026, 21:0005.07.2026, 21:00
Daniel Shurter

Une équipe de chercheurs de la Princeton University, une université privée américaine, a voulu répondre à une question: les modèles d’IA les plus performants du moment sont-ils capables de diriger une entreprise entière? Pour le vérifier, ils ont créé CEO-Bench.

Lorsque des IA dirigent une start-up pendant 500 jours

Le principe de CEO-Bench est que des agents d’IA endossent le rôle de directeur général. Leur mission consiste à gérer une start-up de logiciels entièrement virtuelle durant 500 jours, avec l’objectif, si possible, de réaliser des bénéfices.

Le directeur général virtuel est incarné par un agent IA qui s’appuie sur des modèles d’Anthropic, DeepSeek, Google, OpenAI ou xAI.

Pourquoi est-ce que c'est passionnant?

Les tests traditionnels d'IA évaluent la capacité d'un modèle de langage à répondre à des questions tests difficiles. CEO-Bench, en revanche, révèle si une intelligence artificielle peut être prévoyante, s'adapter et de prendre des décisions sur une période prolongée, même avec des informations incomplètes.

Les chercheurs de Princeton ont nommé cela l’«intelligence de pilotage» et citent Steve Jobs comme leur exemple. Le fondateur d’Apple, affirment-ils, a su, grâce à une forme d’intelligence stratégique, non seulement sauver l’entreprise de la faillite dans les années 1990, mais aussi la rendre incroyablement riche grâce à une stratégie produit simple.

Capital de départ, 1 million de dollars 💰

Chaque agent IA reçoit un capital de départ d'un million de dollars. Tout est bien entendu simulé. Le seul critère objectif de réussite ou d'échec, au terme des 500 jours, est le solde final du compte.

Comment une IA peut-elle diriger une entreprise de logiciels?

Le modèle de langage fournit uniquement l'«intelligence» nécessaire pour évaluer les bases de données ou sélectionner la commande appropriée. L'agent IA constitue le système complet, fonctionne de manière autonome et en boucle durant toute la durée de l'exercice.

Le bot PDG ne donne pas d'instructions aux humains, mais agit de manière autonome grâce à 34 outils mis à sa disposition. L'ensemble du processus est automatisé via une interface utilisant le language informatique Python. Cela permet au «patron» d'ajuster les prix, d'augmenter la capacité des serveurs si nécessaire, mais aussi de fixer les budgets de recherche et de décider de la répartition des fonds publicitaires.

KI-Agent führt ein virtuelles Start-up, um die Leistungsfähigkeit bekannter Sprachmodelle zu testen. Screenshot: ceobench.com
Screenshot: ceobench.com

Analyser les données comme dans la vraie vie

Chez CEO-Benchmark, rien n'est servi sur un plateau. Les IA testées ne reçoivent pas de synthèse de gestion claire. Pour calculer «de manière indépendante» des indicateurs clés tels que les ventes, les taux de désabonnement ou les coûts publicitaires et en tirer leurs propres conclusions, ils doivent interroger activement une base de données exhaustive

Le monde des tests est assez imprévisible

La simulation ne se déroule pas en vase clos. Les agents IA doivent réagir aux fluctuations économiques et à l'évolution des besoins des clients. Ils doivent également surveiller la concurrence et prendre les mesures nécessaires pour répondre aux attentes des clients.

Les réseaux sociaux peuvent devenir un obstacle

Les agents IA devaient surveiller un flux de réseaux sociaux simulé et chaotique. Ils lisaient les plaintes des clients concernant les pannes de serveur ou suivaient les campagnes de relations publiques des concurrents. Si l'IA réagissait avec les publications appropriées, elle pouvait améliorer la réputation de l'entreprise et attirer ainsi davantage de clients.

Et la conclusion? 🙈

La plupart des IA actuelles semblent avoir lamentablement échoué dans les fonctions de direction. Des modèles de langage réputés comme Gemini 3 Flash (Google), DeepSeek V4 Pro ou Grok 4.20 (xAI) ont inévitablement conduit leurs startups respectives à la faillite lors des phases de test. D'après les conclusions des chercheurs:

«La plupart des modèles modernes peinent à mener à bien la simulation sans faire faillite»

Un algorithme simple a mis à mal les agents IA, pourtant réputés pour leur puissance. Concrètement, les chercheurs ont exécuté un script comportant des règles conditionnelles strictes («si-alors») en boucle. Ce script a généré près de 16 millions de dollars lors du test comparatif.

La meilleure IA (actuellement)

Selon CEO-Bench, il n'y a actuellement que trois modèles de langage qui, à l'apogée de leurs performances, étaient capables d'augmenter le million de dollars reçus initialement. Il s'agit de Claude Fable 5, Claude Opus 4.8 et ChatGPT-5.5

Il est intéressant de noter que, selon le rapport, les IA poursuivent:

«Des stratégies très différentes même avec un capital final similaire»

Le modèle Claude Fable 5 s'est clairement démarqué dans l'étude de Princeton. Ce modèle créé par l'entreprise Anthropic est parvenu à réaliser plus de 47 millions de dollars. Claude Fable 5 a également été le seul modèle à dégager des bénéfices lors de plusieurs essais. (trad. Daphnée Lovas)

Les Ray-Ban de Meta débarque en Europe mais sans intelligence artificielle
Video: watson
Ceci pourrait également vous intéresser:
Avez-vous quelque chose à nous dire ?
Avez-vous une remarque ou avez-vous découvert une erreur ? Vous pouvez nous transmettre votre message via le formulaire.
0 Commentaires
Votre commentaire
YouTube Link
0 / 600
Un incendie s'est déclaré près de la très touristique Costa Brava
Le feu est parti dans la matinée près de la commune de La Bisbal d'Empordà, à proximité de Gérone, en Espagne, à une vingtaine de kilomètres de la côte méditerranéenne. Une dizaine de communes sont confinées.
Un incendie s'est déclaré vendredi près de la touristique Costa Brava, dans le nord-est de l'Espagne, une zone du littoral catalan très fréquentée en été. Le feu est parti dans la matinée près de la commune de La Bisbal d'Empordà, à proximité de Gérone, à une vingtaine de kilomètres de la côte méditerranéenne.
L’article