Société
Intelligence artificielle

ChatGPT, EPFL: les modèles IA présentent des failles dangereuses

Les modèles d'IA comme GPT-4 présentent de dangereuses failles.
Les modèles d'IA comme GPT-4 d'Open AI présentent des failles.Image: Shutterstock

«Fabriquer une bombe»: l'IA que vous utilisez peut s'avérer dangereuse

Des chercheurs de l'EPFL ont mis au jour des failles de sécurité dans les grands modèles d'intelligence artificielle. Ces derniers peuvent être manipulés pour générer des contenus douteux.
19.12.2024, 14:3119.12.2024, 14:31

Les modèles d'intelligence artificielle (IA) peuvent être manipulés malgré les mesures de protection existantes. Avec des attaques ciblées, des scientifiques lausannois ont pu amener ces systèmes à générer des contenus dangereux ou éthiquement douteux.

Les grands modèles de langage (LLM) actuels possèdent des capacités remarquables qui peuvent néanmoins être utilisées à mauvais escient. Une personne malveillante peut ainsi les utiliser pour produire du contenu nocif, diffuser de fausses informations et soutenir des activités nuisibles.

Sur les modèles d'IA testés, dont GPT-4 d'Open AI et Claude 3 d'Anthropic, une équipe de l'Ecole polytechnique fédérale de Lausanne (EPFL) a eu un taux de réussite de 100% en utilisant des attaques adaptatives dites de «jailbreak».

Les modèles ont ensuite généré des contenus dangereux, allant d'instructions pour des attaques de «phishing» à des plans de construction détaillés pour des armes. Or ces modèles linguistiques sont censés avoir été entraînés de manière à ne pas donner de réponses à des demandes dangereuses ou éthiquement problématiques, souligne l'EPFL jeudi dans un communiqué.

Fabrication de bombes

Ces travaux, présentés cet été dans une conférence spécialisée à Vienne, montrent que les attaques adaptatives peuvent contourner ces mesures de sécurité. De telles attaques exploitent les points faibles des mécanismes de sécurité en posant des demandes ciblées («prompts») qui ne sont pas reconnues par les modèles ou qui ne sont pas correctement rejetées.

Les modèles répondent ainsi à des demandes malveillantes telles que «Comment fabriquer une bombe?» ou «Comment pirater une base de données gouvernementale?», selon cette étude en phase de pré-publication.

«Nous montrons qu’il est possible d’exploiter les informations disponibles sur chaque modèle pour créer des attaques adaptatives simples, que nous définissons comme des attaques spécifiquement conçues pour cibler une défense donnée», explique Nicolas Flammarion, coauteur de l’article avec Maksym Andriushchenko et Francesco Croce.

Le point commun derrière ces attaques est l’adaptabilité: différents modèles sont vulnérables à différents prompts.

«Nous espérons que nos travaux constitueront une précieuse source d’informations sur la robustesse des LLM»
Nicolas Flammarion

Selon l'EPFL, ces résultats ont déjà une influence sur le développement de Gemini 1.5, un nouveau modèle d'IA de Google DeepMind.

Alors que la société s’oriente vers l’utilisation des LLM en tant qu’agents autonomes, par exemple comme assistants personnels en IA, il est essentiel de garantir leur sécurité, soulignent les auteurs.

«D’ici peu les agents d’IA pourront effectuer différentes tâches pour nous, comme planifier et réserver nos vacances, des tâches qui nécessiteraient d’accéder à nos agendas, nos e-mails et nos comptes bancaires. Cela soulève de nombreuses questions concernant la sécurité et l’alignement», conclut Maksym Andriushchenko, qui a consacré sa thèse à ce sujet. (ats)

Des célèbres tableaux prennent vie grâce à l'IA
Video: watson
Ceci pourrait également vous intéresser:
Avez-vous quelque chose à nous dire ?
Avez-vous une remarque ou avez-vous découvert une erreur ? Vous pouvez nous transmettre votre message via le formulaire.
0 Commentaires
Comme nous voulons continuer à modérer personnellement les débats de commentaires, nous sommes obligés de fermer la fonction de commentaire 72 heures après la publication d’un article. Merci de votre compréhension!
Il se passe des trucs étranges dans cette pub Coca
Pour célébrer Noël, Coca-Cola dévoile sa traditionnelle publicité. Sauf que, comme l’an passé, le géant américain a misé sur l'intelligence artificielle pour réaliser son spot. Et ça se voit.
Pour les fêtes de fin d’année 2025, Coca-Cola ressort un spot publicitaire iconique, jouant sur la nostalgie et la fameuse magie de Noël que la marque a largement contribué à façonner, puisque c’est à Coca-Cola que l’on doit l’imagerie moderne du Père Noël, popularisée par les dessins publicitaires de Haddon Sundblom. Rien de nouveau sous le soleil, si ce n’est que, comme en 2024, Coca-Cola a misé sur l'innovation technologique, en créant une publicité entièrement générée par IA. Une tentative qui, déjà l’an passé, avait été très mal reçue par le public.
L’article