L’IA peut-elle remplacer votre patron? Des chercheurs testé
Une équipe de chercheurs de la Princeton University, une université privée américaine, a voulu répondre à une question: les modèles d’IA les plus performants du moment sont-ils capables de diriger une entreprise entière? Pour le vérifier, ils ont créé CEO-Bench.
Lorsque des IA dirigent une start-up pendant 500 jours
Le principe de CEO-Bench est que des agents d’IA endossent le rôle de directeur général. Leur mission consiste à gérer une start-up de logiciels entièrement virtuelle durant 500 jours, avec l’objectif, si possible, de réaliser des bénéfices.
Le directeur général virtuel est incarné par un agent IA qui s’appuie sur des modèles d’Anthropic, DeepSeek, Google, OpenAI ou xAI.
Pourquoi est-ce que c'est passionnant?
Les tests traditionnels d'IA évaluent la capacité d'un modèle de langage à répondre à des questions tests difficiles. CEO-Bench, en revanche, révèle si une intelligence artificielle peut être prévoyante, s'adapter et de prendre des décisions sur une période prolongée, même avec des informations incomplètes.
Les chercheurs de Princeton ont nommé cela l’«intelligence de pilotage» et citent Steve Jobs comme leur exemple. Le fondateur d’Apple, affirment-ils, a su, grâce à une forme d’intelligence stratégique, non seulement sauver l’entreprise de la faillite dans les années 1990, mais aussi la rendre incroyablement riche grâce à une stratégie produit simple.
Capital de départ, 1 million de dollars 💰
Chaque agent IA reçoit un capital de départ d'un million de dollars. Tout est bien entendu simulé. Le seul critère objectif de réussite ou d'échec, au terme des 500 jours, est le solde final du compte.
Comment une IA peut-elle diriger une entreprise de logiciels?
Le modèle de langage fournit uniquement l'«intelligence» nécessaire pour évaluer les bases de données ou sélectionner la commande appropriée. L'agent IA constitue le système complet, fonctionne de manière autonome et en boucle durant toute la durée de l'exercice.
Le bot PDG ne donne pas d'instructions aux humains, mais agit de manière autonome grâce à 34 outils mis à sa disposition. L'ensemble du processus est automatisé via une interface utilisant le language informatique Python. Cela permet au «patron» d'ajuster les prix, d'augmenter la capacité des serveurs si nécessaire, mais aussi de fixer les budgets de recherche et de décider de la répartition des fonds publicitaires.
Analyser les données comme dans la vraie vie
Chez CEO-Benchmark, rien n'est servi sur un plateau. Les IA testées ne reçoivent pas de synthèse de gestion claire. Pour calculer «de manière indépendante» des indicateurs clés tels que les ventes, les taux de désabonnement ou les coûts publicitaires et en tirer leurs propres conclusions, ils doivent interroger activement une base de données exhaustive
Le monde des tests est assez imprévisible
La simulation ne se déroule pas en vase clos. Les agents IA doivent réagir aux fluctuations économiques et à l'évolution des besoins des clients. Ils doivent également surveiller la concurrence et prendre les mesures nécessaires pour répondre aux attentes des clients.
Les réseaux sociaux peuvent devenir un obstacle
Les agents IA devaient surveiller un flux de réseaux sociaux simulé et chaotique. Ils lisaient les plaintes des clients concernant les pannes de serveur ou suivaient les campagnes de relations publiques des concurrents. Si l'IA réagissait avec les publications appropriées, elle pouvait améliorer la réputation de l'entreprise et attirer ainsi davantage de clients.
Et la conclusion? 🙈
La plupart des IA actuelles semblent avoir lamentablement échoué dans les fonctions de direction. Des modèles de langage réputés comme Gemini 3 Flash (Google), DeepSeek V4 Pro ou Grok 4.20 (xAI) ont inévitablement conduit leurs startups respectives à la faillite lors des phases de test. D'après les conclusions des chercheurs:
Un algorithme simple a mis à mal les agents IA, pourtant réputés pour leur puissance. Concrètement, les chercheurs ont exécuté un script comportant des règles conditionnelles strictes («si-alors») en boucle. Ce script a généré près de 16 millions de dollars lors du test comparatif.
La meilleure IA (actuellement)
Selon CEO-Bench, il n'y a actuellement que trois modèles de langage qui, à l'apogée de leurs performances, étaient capables d'augmenter le million de dollars reçus initialement. Il s'agit de Claude Fable 5, Claude Opus 4.8 et ChatGPT-5.5
Il est intéressant de noter que, selon le rapport, les IA poursuivent:
Le modèle Claude Fable 5 s'est clairement démarqué dans l'étude de Princeton. Ce modèle créé par l'entreprise Anthropic est parvenu à réaliser plus de 47 millions de dollars. Claude Fable 5 a également été le seul modèle à dégager des bénéfices lors de plusieurs essais. (trad. Daphnée Lovas)
