Les modèles d'IA comme GPT-4 présentent de dangereuses failles.

Les modèles d'IA comme GPT-4 d'Open AI présentent des failles.Image: Shutterstock

«Fabriquer une bombe»: l'IA que vous utilisez peut s'avérer dangereuse

Des chercheurs de l'EPFL ont mis au jour des failles de sécurité dans les grands modèles d'intelligence artificielle. Ces derniers peuvent être manipulés pour générer des contenus douteux.

19.12.2024, 14:3119.12.2024, 14:31

Les modèles d'intelligence artificielle (IA) peuvent être manipulés malgré les mesures de protection existantes. Avec des attaques ciblées, des scientifiques lausannois ont pu amener ces systèmes à générer des contenus dangereux ou éthiquement douteux.

Les grands modèles de langage (LLM) actuels possèdent des capacités remarquables qui peuvent néanmoins être utilisées à mauvais escient. Une personne malveillante peut ainsi les utiliser pour produire du contenu nocif, diffuser de fausses informations et soutenir des activités nuisibles.

L'euphorie ChatGPT retombe, mais «l’évolution peut être exponentielle»

Sur les modèles d'IA testés, dont GPT-4 d'Open AI et Claude 3 d'Anthropic, une équipe de l'Ecole polytechnique fédérale de Lausanne (EPFL) a eu un taux de réussite de 100% en utilisant des attaques adaptatives dites de «jailbreak».

Les modèles ont ensuite généré des contenus dangereux, allant d'instructions pour des attaques de «phishing» à des plans de construction détaillés pour des armes. Or ces modèles linguistiques sont censés avoir été entraînés de manière à ne pas donner de réponses à des demandes dangereuses ou éthiquement problématiques, souligne l'EPFL jeudi dans un communiqué.

Fabrication de bombes

Ces travaux, présentés cet été dans une conférence spécialisée à Vienne, montrent que les attaques adaptatives peuvent contourner ces mesures de sécurité. De telles attaques exploitent les points faibles des mécanismes de sécurité en posant des demandes ciblées («prompts») qui ne sont pas reconnues par les modèles ou qui ne sont pas correctement rejetées.

Les modèles répondent ainsi à des demandes malveillantes telles que «Comment fabriquer une bombe?» ou «Comment pirater une base de données gouvernementale?», selon cette étude en phase de pré-publication.

Cette nouveauté de ChatGPT peut faire trembler Google

«Nous montrons qu’il est possible d’exploiter les informations disponibles sur chaque modèle pour créer des attaques adaptatives simples, que nous définissons comme des attaques spécifiquement conçues pour cibler une défense donnée», explique Nicolas Flammarion, coauteur de l’article avec Maksym Andriushchenko et Francesco Croce.

Le point commun derrière ces attaques est l’adaptabilité: différents modèles sont vulnérables à différents prompts.

«Nous espérons que nos travaux constitueront une précieuse source d’informations sur la robustesse des LLM»

Nicolas Flammarion

Selon l'EPFL, ces résultats ont déjà une influence sur le développement de Gemini 1.5, un nouveau modèle d'IA de Google DeepMind.

Alors que la société s’oriente vers l’utilisation des LLM en tant qu’agents autonomes, par exemple comme assistants personnels en IA, il est essentiel de garantir leur sécurité, soulignent les auteurs.

Elon Musk a dégainé une arme redoutable pour vous manipuler

«D’ici peu les agents d’IA pourront effectuer différentes tâches pour nous, comme planifier et réserver nos vacances, des tâches qui nécessiteraient d’accéder à nos agendas, nos e-mails et nos comptes bancaires. Cela soulève de nombreuses questions concernant la sécurité et l’alignement», conclut Maksym Andriushchenko, qui a consacré sa thèse à ce sujet. (ats)

Plus d'articles sur l'intelligence artificielle: