Un site kosovar révèle un sérieux problème de l’IA en Suisse
La bonne nouvelle d’abord, c’est que lorsqu’on demande à l’intelligence artificielle s'il faut réduire la migration en Suisse, elle ne fournit pas de réponse par oui ou par non. Google, Gemini, ChatGPT répondent que la question est complexe et fait l’objet de débats controversés. Mais pour d'autres questions, la réponse devient toutefois unilatérale.
Nous avons posé cette question, ainsi que deux autres, à plusieurs reprises sur plusieurs jours, et avons enregistré au total 266 réponses. La recherche a été menée avec des questions en allemand, mais le véritable enjeu n’est pas la langue utilisée: c’est la pauvreté et le biais des sources des réponses IA.
- 43 provenaient de l’aperçu généré par l’IA de Google (celle toujours affiché en tête de page au moment de la recherche),
- 44 de ChatGPT
- 179 de Gemini (qui appartient également à Google).
A la question «La migration doit-elle être restreinte en Suisse?», nous n'avons certes pas reçu pas de réponse unilatérale de type oui/non. Mais dans la moitié des réponses, une seule enquête de 20 Minuten et Tamedia datant de 2023 était systématiquement citée. Or, il existe d’autres sondages plus récents qui traitent de la question.
L’IA répond également souvent de manière limitée. C’est ce que montre l’analyse réalisée pour nous par le spécialiste de l’intelligence artificielle, Moritz Friess. Ce dernier travaille pour l’agence de communication Feinheit, qui développe des campagnes et des outils numériques pour ses clients. Il travaille également pour assurer leur présence en ligne.
Par son métier, Moritz Friess a un intérêt à comprendre le fonctionnement des modèles d’IA. Mais il ajoute:
Les réponses IA reposent sur peu de sources
Alors que jusqu’ici, en naviguant sur Internet, les moteurs de recherche nous proposaient une liste quasi infinie de liens vers des sites parmi lesquels nous choisissions nous-mêmes, l’intelligence artificielle décide désormais des informations que nous recevons.
Les principales sources mises en avant sont la SRF, Blick et la page fédérale news.admin.ch. Puis apparaît bpb.de. Jamais entendu parler? Eh bien, pour un sujet suisse, il s'agit du site de l’Office fédéral allemand pour l’éducation civique.
Les grands médias bloquent l'IA
Mais attendez un instant, où sont passés les autres grands groupes de médias suisses? Ils sont en réalité nettement sous-représentés. L’IA n’est pas ici volontairement ignorante, mais ses crawlers, chargés de parcourir Internet, ont été bloqués par ces groupes. De plus en plus de médias dans le monde refusent d’offrir gratuitement leur travail à l'intelligence artificielle, qui détournent le public de leurs sites d’information pour lesquels un abonnement est nécessaire.
Cela n’explique toutefois pas vraiment le problème du faible nombre de sources dans les réponses. Pour notre deuxième question, nous voulions savoir, avant que la Suisse n’obtienne un meilleur accord avec Trump, la réponse à cette question:
Dans un cas, sur plus de 50 réponses au total, Gemini s’est appuyé sur seulement cinq sources. Dans une réponse, les trois bots citent en moyenne seulement 1,3 site web. Pour la question sur la migration, c'est 2,3. Dans les trois questions, ChatGPT fait meilleure figure que Gemini, avec deux fois plus de sources, tandis que Google montre de fortes variations.
«La diversité, ce n’est pas cela», explique Moritz Friess, «avec les réponses de l’IA, nous sommes davantage placés sous tutelle qu’auparavant.»
Les limites des réponses ne sont pas évidentes: aucune n’est formulée de la même manière que la précédente. Moritz Friess explique:
Moritz Friess estime en outre que les bots qui font preuve d'autorité ont un réel problème de compétence pour interpréter certaines questions. Parmi les sources utilisées pour répondre au sujet de la responsabilité de Karin Keller-Sutter et les 39% de droits de douane, aucune des 20 pages les plus consultées n’émanait de la Confédération. Ni pour ChatGPT, ni pour Gemini, ni pour Google. Moritz Friess précise:
Un site kosovar utilisé comme source
Comme source fréquemment consultée, ChatGPT met plutôt en avant le site local d’actualité linth24.ch. La situation est encore plus surprenante chez Gemini. Après Blick, c’est en effet le portail d’actualité kosovar gazetaexpress.com qui arrive en deuxième position. Le site autrichien d’informations financières fondsprofessionell.at suit à la 5e place. La moitié des 10 premières sources sont donc étrangères.
Moritz Friess explique:
Le spécialiste se demande si les sujets américains seraient sensibles pour les logiciels. Les sites suisses sont ici sous-représentés, et cela l’inquiète.
Les sources des réponses à notre 3e question sont tout aussi déconcertantes. Nous voulions savoir:
Selon l’IA, l’autorité compétente pour interpréter la réponse serait watson, Blick, la SRF, la NZZ, mais tout en haut se trouve un cabinet d’avocats zurichois (publicsector.ch).
Les déclarations du cabinet sont considérées comme largement crédibles. De même, ChatGPT a consulté à plusieurs reprises le site aargauerpolitik.ch, géré par un journaliste retraité qui ne reçoit qu’environ 170 clics par mois. Mais les bots de recherche sont autorisés à y extraire gratuitement des informations, alors ils semblent le favoriser.
Le fait que la NZZ apparaisse tout de même dans la liste des sources pour cette question tient au fait que les fournisseurs d’IA ne respectent pas toujours les blocages mis en place.
C’est alors que des réponses unilatérales ont surgi. Google et Gemini écrivent, comme si le débat sur la majorité des cantons était déjà tranché, par exemple:
Une analyse réalisée en octobre par l’Union européenne de radio-télévision a montré à quel point ces réponses pouvaient être fausses. Selon cette analyse, 31% des réponses comportaient des indications de sources trompeuses, erronées ou manquantes.
Personne ne sait comment fonctionne l'IA
Personne ne sait vraiment comment les modèles d’intelligence artificielle hiérarchisent leurs sources. Alors que le classement sur Google est relativement transparent pour les entreprises, les propriétaires de sites web ignorent le pus souvent comment devenir une source qui sera utilisée pour une réponse d’IA.
Se peut-il que l’IA ait autant privilégié l’étude de la société d’avocats zurichoise pour la question du vote des cantons simplement parce que le nom du site publicsector.ch sonne comme une page officielle de l’Etat? Nul ne le sait.
Il n’est même pas absolument certain que les réponses de l’IA reposent réellement sur les sources indiquées. Car, si cela n’est pas apparu dans cette analyse-ci, dans d’autres cas l’IA a tout simplement inventé les sources qu'elle mentionnait.
«Beaucoup de suppositions circulent, explique Moritz Friess, et tout le monde expérimente.» Lui aussi a plusieurs théories, mais il peut seulement dire avec certitude que l’IA privilégie les sites web qui structurent leurs données et marquent, par exemple au moyen de repères invisibles dans le code, ce qui correspond au nom de l’auteur, à la date, etc, qui facilitent pour les bots la lecture de la page.
Moritz Friess explique:
Il ajoute:
Ce qui est clair, c’est que tant que le travail des groupes de presse ne sera pas rémunéré de manière adéquate, ou que ces groupes continueront de refuser de mettre leurs contenus à disposition des robots d’indexation, les réponses de l’intelligence artificielle portant sur la politique suisse resteront lacunaires.
Le Conseil fédéral prévoit pour l’heure que de grands services en ligne comme Google devront à l’avenir verser des droits d’auteur lorsqu’ils affichent dans les résultats de recherche des aperçus d’articles de presse. En octobre dernier, la commission compétente du Conseil national avait également demandé une réglementation pour les fournisseurs de modèles d’IA.
Traduit de l'allemand par Joel Espi
