Le portail d'info technologique américain Ars Technica a publié un article inquiétant dans la nuit de lundi à mardi: ChatGPT aurait affiché des contenus confidentiels issus de discussions privées provenant du compte d'un utilisateur tiers de ChatGPT.
Et ce malgré le fait que l'utilisateur en question n'a pas tenté, auparavant, de tromper le chatbot IA pour qu'il se comporte mal en saisissant du texte.
Pour les profanes, rappelons que lorsque vous dialoguez avec ChatGPT, c'est via un portail de discussion (comme si vous échangiez des SMS avec quelqu'un). Vous pouvez ensuite multiplier les tchats pour, par exemple, faire des requêtes sur des thèmes différents.
Accéder à des tchats de tiers est donc problématique. Cet incident soulève de nombreuses questions.
Selon Ars Technica, un utilisateur a soumis sept captures d'écran au total, dont deux seraient particulièrement problématiques. En effet, celles-ci comprenaient entre autres des données d'utilisateur et des mots de passe pour un service en ligne.
Ces données inattendues seraient apparues soudainement, lundi matin, peu après que l'utilisateur a utilisé ChatGPT «pour une requête qui n'avait rien à voir avec ce portail».
L'utilisateur, qui a découvert ces données étrangères à ses propres tchats, explique:
Ces discussions n'étaient pas présentes lorsqu'il a utilisé ChatGPT la veille, explique l'utilisateur. Et il n'aurait pas non plus fait de requêtes qui auraient pu mener à ce genre de résultat. Les données (inconnues) étaient affichées dans son historique ChatGPT (dans la barre latérale) et ne provenaient certainement pas de lui.
D'autres messages comprenaient le nom d'une présentation sur laquelle quelqu'un avait travaillé, les détails d'une proposition de recherche non publiée et un script utilisant le langage de programmation PHP.
Les tchats qui ont fuité semblent provenir de plusieurs comptes utilisateurs qui n'ont rien à voir les uns avec les autres, peut-on lire dans l'article. La conversation au sujet du portail de pharmacie mentionne l'année 2020, mais aucune date n'est indiquée dans les autres conversations.
Un commentateur d'Ars Technica écrit que les données de connexion divulguées datent d'avant la mise à disposition publique de ChatGPT. Selon lui, les données étaient probablement contenues dans les ensembles de données avec lesquels le modèle linguistique (LLM) d'OpenAI a été entraîné et dessiné.
Un autre utilisateur a fait remarquer que le modèle de langage GPT-2 d'OpenAI était disponible dès février 2019. Il n'y aurait donc aucune raison de penser qu'il s'agit de «données d'entraînement». Il s'agirait plutôt d'historiques de tchat de ce que l'on appelle les «early adopters», c'est-à-dire des utilisateurs qui ont travaillé très tôt avec l'IA.
Un autre commentateur voit les choses autrement. ChatGPT enregistre l'historique des requêtes de l'utilisateur et des réponses générées par le système d'IA, dit-il. Il semblerait qu'une erreur se soit produite et que l'historique des requêtes et des réponses ait été affiché dans les comptes d'autres personnes.
Un représentant d'OpenAI a déclaré à Ars Technica que la société enquêtait sur la situation.
Toujours selon Ars Technica, cet incident, parmi d'autres, souligne l'importance de supprimer les données personnelles dans les demandes adressées à ChatGPT et à d'autres services d'IA.
En mars 2023, OpenAI avait mis hors ligne le chatbot IA après qu'un bug avait conduit le site à afficher des titres de l'historique de discussion d'un utilisateur actif à des tiers.
En novembre 2023, des chercheurs ont publié un article technique (PDF) dans lequel ils expliquaient comment ils avaient pu utiliser des requêtes pour inciter ChatGPT à révéler des adresses électroniques, des numéros de téléphone et de fax, des adresses physiques et d'autres données privées. Les données en question auraient été contenues dans le matériel utilisé pour entraîner le grand modèle de langage d'OpenAI.
Ars Technica rappelle également que plusieurs grandes entreprises, dont Apple, ont limité, voire interdit, l'utilisation de ChatGPT et d'autres chatbots d'intelligence artificielle par leurs propres employés.
Traduit et adapté de l'allemand par Léa Krejci