ChatGPT aurait laisser fuiter des données confidentielles

OpenAI, cofinancé par Microsoft, enquête sur un cas étrange.

OpenAI, cofinancé par Microsoft, enquête sur un cas étrange.Image: Shutterstock

De mystérieux messages privés alarment les utilisateurs de ChatGPT

Une info alarmante nous arrive des Etats-Unis: ChatGPT aurait divulgué à des tiers des mots de passe privés. Des noms de travaux de recherche non publiés, des présentations et des scripts PHP auraient également été divulgués.

01.02.2024, 09:3601.02.2024, 11:31

Daniel Schurter

Le portail d'info technologique américain Ars Technica a publié un article inquiétant dans la nuit de lundi à mardi: ChatGPT aurait affiché des contenus confidentiels issus de discussions privées provenant du compte d'un utilisateur tiers de ChatGPT.

Et ce malgré le fait que l'utilisateur en question n'a pas tenté, auparavant, de tromper le chatbot IA pour qu'il se comporte mal en saisissant du texte.

Pour les profanes, rappelons que lorsque vous dialoguez avec ChatGPT, c'est via un portail de discussion (comme si vous échangiez des SMS avec quelqu'un). Vous pouvez ensuite multiplier les tchats pour, par exemple, faire des requêtes sur des thèmes différents.

Accéder à des tchats de tiers est donc problématique. Cet incident soulève de nombreuses questions.

On fait le point 👇

De quelles fuites parle-t-on?Comment cela a-t-il pu se produire?Quelle leçon en tirer?

De quelles fuites parle-t-on?

Selon Ars Technica, un utilisateur a soumis sept captures d'écran au total, dont deux seraient particulièrement problématiques. En effet, celles-ci comprenaient entre autres des données d'utilisateur et des mots de passe pour un service en ligne.

«Les deux [captures d'écran] contenaient plusieurs paires de noms d'utilisateur et de mots de passe apparemment liées à un système d'assistance utilisé par les employés d'un portail de pharmacies proposant des médicaments sur ordonnance. Il semblerait qu'un employé ait utilisé le chatbot de l'IA pour résoudre des problèmes rencontrés lors de l'utilisation du portail.»

Screenshot soll zeigen, dass ChatGPT vertrauliche Inhalte leakte, bzw. ungewollt an eine Drittperson durchsickern liess.

Cette capture d'écran montre que ChatGPT a divulgué des informations confidentielles d'un chat privé, ou les a involontairement fait fuiter à une tierce personne.Screenshot: Ars Technica

Ces données inattendues seraient apparues soudainement, lundi matin, peu après que l'utilisateur a utilisé ChatGPT «pour une requête qui n'avait rien à voir avec ce portail».

L'utilisateur, qui a découvert ces données étrangères à ses propres tchats, explique:

«J'ai fait une requête (en l'occurrence, j'ai demandé de l'aide pour trouver des noms intéressants pour les couleurs d'une palette) et lorsque je suis revenu au tchat un moment plus tard, j'ai remarqué les conversations supplémentaires.»

source: arstechnica.com

Ces discussions n'étaient pas présentes lorsqu'il a utilisé ChatGPT la veille, explique l'utilisateur. Et il n'aurait pas non plus fait de requêtes qui auraient pu mener à ce genre de résultat. Les données (inconnues) étaient affichées dans son historique ChatGPT (dans la barre latérale) et ne provenaient certainement pas de lui.

Le grand boss d'OpenAI a lancé une monnaie numérique

Le créateur de ChatGPT et OpenAI lance une monnaie numérique

D'autres messages comprenaient le nom d'une présentation sur laquelle quelqu'un avait travaillé, les détails d'une proposition de recherche non publiée et un script utilisant le langage de programmation PHP.

Les tchats qui ont fuité semblent provenir de plusieurs comptes utilisateurs qui n'ont rien à voir les uns avec les autres, peut-on lire dans l'article. La conversation au sujet du portail de pharmacie mentionne l'année 2020, mais aucune date n'est indiquée dans les autres conversations.

Comment cela a-t-il pu se produire?

Un commentateur d'Ars Technica écrit que les données de connexion divulguées datent d'avant la mise à disposition publique de ChatGPT. Selon lui, les données étaient probablement contenues dans les ensembles de données avec lesquels le modèle linguistique (LLM) d'OpenAI a été entraîné et dessiné.

La «calculette de la mort» peut prédire votre décès avec précision

Un autre utilisateur a fait remarquer que le modèle de langage GPT-2 d'OpenAI était disponible dès février 2019. Il n'y aurait donc aucune raison de penser qu'il s'agit de «données d'entraînement». Il s'agirait plutôt d'historiques de tchat de ce que l'on appelle les «early adopters», c'est-à-dire des utilisateurs qui ont travaillé très tôt avec l'IA.

Un autre commentateur voit les choses autrement. ChatGPT enregistre l'historique des requêtes de l'utilisateur et des réponses générées par le système d'IA, dit-il. Il semblerait qu'une erreur se soit produite et que l'historique des requêtes et des réponses ait été affiché dans les comptes d'autres personnes.

«Cela n'a rien à voir avec le modèle linguistique. Il s'agit d'un problème similaire qui s'est produit des centaines, voire des milliers de fois dans différentes entreprises avec des e-mails, des historiques de tchat d'utilisateurs, etc. Il s'agit presque toujours d'une erreur triviale avec une solution triviale.»

Un représentant d'OpenAI a déclaré à Ars Technica que la société enquêtait sur la situation.

Quelle leçon en tirer?

Toujours selon Ars Technica, cet incident, parmi d'autres, souligne l'importance de supprimer les données personnelles dans les demandes adressées à ChatGPT et à d'autres services d'IA.

En mars 2023, OpenAI avait mis hors ligne le chatbot IA après qu'un bug avait conduit le site à afficher des titres de l'historique de discussion d'un utilisateur actif à des tiers.

Le papa de ChatGPT est Ilya Sutskever

Qui est Ilya Sutskever, l'ingénieur qu'Elon Musk met sur un piédestal

En novembre 2023, des chercheurs ont publié un article technique (PDF) dans lequel ils expliquaient comment ils avaient pu utiliser des requêtes pour inciter ChatGPT à révéler des adresses électroniques, des numéros de téléphone et de fax, des adresses physiques et d'autres données privées. Les données en question auraient été contenues dans le matériel utilisé pour entraîner le grand modèle de langage d'OpenAI.

Ars Technica rappelle également que plusieurs grandes entreprises, dont Apple, ont limité, voire interdit, l'utilisation de ChatGPT et d'autres chatbots d'intelligence artificielle par leurs propres employés.

Traduit et adapté de l'allemand par Léa Krejci

Vidéo: watson