Technologie

Démystifier les IA génératives

Thibault GRANDJEAN • grandjean.thibault@gmail.com

© Odin AI – stock.adobe.com, © ParinPIX – stock.adobe.com, © Jing – stock.adobe.com, © Apple

Certains pensent qu’elles vont révolutionner le cours de l’humanité, d’autres qu’elles vont en précipiter la chute… Le moins que l’on puisse dire, c’est que les Intelligences Artificielles Génératives comme Midjourney, DALL-E ou ChatGPT déchaînent les passions technologiques. Mais derrière le buzz, que cachent ces drôles d’outils à portée de clavier ?

 
Vous pouvez demander à ChatGPT la date de naissance de Napoléon Bonaparte, de vous fournir une recette à partir de ce qu’il vous reste dans le frigo ou un programme de remise en forme suite à une maladie, il le fera. Sans jamais rechigner, à toute heure du jour ou de la nuit, et dans un français impeccable, sans faute d’orthographe. Vous pouvez aussi demander à Dall-E (prononcez Dali) ou Midjourney la photo apaisante d’un ruisseau forestier bordé de rochers et de mousse, et là encore, quelques secondes plus tard, s’affichera sous vos yeux l’image demandée. La facilité déconcertante avec laquelle ces nouveaux outils dénommés «Intelligences Artificielles Génératives» répondent à nos demandes est bluffante. Tellement bluffante qu’elle fait penser aux propos de l’écrivain de science-fiction Arthur C. Clarke, l’auteur de 2001: L’Odyssée de l’espace, qui disait que «toute technologie suffisamment avancée est indiscernable de la magie».

De magie il n’en est bien sûr pas question, car les réseaux de neurones sur lesquels sont basées ces technologies ont été imaginés il y a plus de 70 ans. «Dès les débuts de l’intelligence artificielle dans les années 1950, 2 traditions se sont opposées, raconte Hugues Bersini, Professeur d’informatique et co-directeur du Laboratoire de recherche sur l’IA de l’ULB, IRIDIA. L’IA symbolique et logique, basée sur des règles, et l’IA basée sur une architecture dite en réseaux de neurones. La première a longtemps prédominé. Pour trouver une solution à un problème, elle se basait sur les règles édictées par le programmeur. Par exemple, pour qu’une IA conduise un véhicule, il s’agissait avant tout de modéliser l’environnement, de formaliser la conduite en langage mathématique, etc. Mais cette sorte d’IA, même si elle a eu quelques succès, comme pour la conception des correcteurs orthographiques ou du meilleur itinéraire possible sur une carte, s’est heurtée à des obstacles comme la reconnaissance des formes ou la perception visuelle

L’IA en réseaux de neurones, nommée ainsi parce que son mode de fonctionnement s’inspire de la façon dont fonctionnent nos propres neurones, est donc petit à petit revenue à la mode dans les laboratoires dans les années 2000, aidée par le développement technologique. «Les réseaux de neurones ont eu soudain accès à la fois à une puissance de calcul et à une quantité de données issues d’Internet, que ce soient des textes ou des images, inimaginables dans les années 1950», indique Hugues Bersini.

Des as des probabilités

Les réseaux de neurones, contrairement aux IA symboliques, n’obéissent pas à des règles préétablies et doivent trouver la solution à un problème par leurs propres moyens. Mais alors, comment sont-elles capables de rédiger un texte cohérent et sensé ou de créer de toute pièce une photo du Pape François en doudoune blanche ? «Les IA génératives sont des outils probabilistes, dont le but est de créer des données qui ressemblent à ce qu’elles ont vu avant, explique Jérôme Fink, doctorant à l’UNamur et spécialiste des réseaux de neurones. Par exemple, si l’on souhaite créer un nouveau visage humain, on donne à la machine 3 000 visages, pour qu’elle s’entraîne ensuite elle-même à en reconnaître les caractéristiques et ainsi en créer un nouveau

Et que ce soit pour une image ou pour un texte, la méthode est sensiblement la même. «Dans le cas de ChatGPT par exemple, la société OpenAI a récolté sur Internet tous les textes possibles et en a masqué certains mots, développe Jérôme Fink. L’IA avait alors pour objectif de les retrouver, comme dans un exercice de texte à trous. Elle a donc dû apprendre des concepts et tirer profit du contexte. Par exemple, s’il est écrit que mélanger de la farine, des œufs et du lait en telles proportions donne une pâte à crêpes, mais que l’on masque le mot « crêpes », elle a appris, en s’inspirant des autres textes qu’elle a ingurgité, comment est composée une pâte à crêpes. Mais bien sûr, sans avoir aucune notion de ce qu’est une crêpe ou de la farine.»

Cependant, si cette technique se révèle extrêmement puissante pour générer de nouveaux textes et images, elle n’est pas sans rencontrer quelques limites. La première tient à la manière dont les réseaux de neurones se nourrissent de ces données. «Combiner des textes ne signifie pas pour autant en combiner la véracité, avertit le Pr Bersini. Le savoir contenu dans Wikipedia a beaucoup nourri ChatGPT et sur de nombreux sujets généraux comme les sciences, il s’agit d’un savoir stabilisé. Mais on ne peut pas en dire autant de sujets plus sensibles ou en évolution, comme la politique ou l’histoire. Et les IA n’ont aucune conscience de ce qui est vrai ou non.»

ChatGPT a été entraîné pour modéliser le langage avant tout. Il a donc été conçu pour générer du contenu non pas vrai ou faux, mais simplement plausible

Ainsi, selon un exemple qui a fait le tour d’Internet il y a quelques mois, et suite à la question d’un utilisateur, ChatGPT expliquait très sérieusement comment trouver des œufs de vaches. «Cela est lié au fait d’essayer de tirer de nouvelles données à partir des données existantes, sourit Jérôme Fink. Autrement dit, si on demande à la machine quelque chose qu’elle n’a jamais vu, alors elle va commencer à avoir des comportements erratiques.»

Produire des faits 

Selon Benoît Frenay, Professeur d’informatique à l’UNamur, qui intervient régulièrement auprès d’étudiants pour donner des cours sur ChatGPT, il faut insister sur le fait que ces modèles sont entraînés pour modéliser le langage avant tout, et non répondre à des questions. «ChatGPT est un produit dérivé qui est presque un accident de parcours, insiste-t-il. Il a donc été conçu pour générer du contenu non pas vrai ou faux, mais simplement plausible. Ainsi, en interrogeant l’IA sur une théorie conspirationniste, celle-ci m’a cité comme preuve un reportage de la RTBF. Une source convaincante… sauf que ce reportage n’a jamais existé ! Autrement dit, si on cherche à produire des faits, il faut se méfier de ces outils. D’autant que nous, les êtres humains, avons tendance à faire confiance à quelqu’un qui parle bien et qui a l’air sûr de ce qu’il dit.» 

 
L’autre limite majeure de ces machines réside dans la nature même des données qui ont servi à les entraîner. «Une partie du succès de ces algorithmes réside dans le fait qu’ils sont capables de s’entraîner tout seuls, poursuit Benoît Frenay. Donc, cela pose d’abord la question dont elles se représentent les choses. Si pour nous, un visage est composé de 2 yeux, un nez, une bouche, etc., nous n’avons aucune idée des critères qui, pour elles, sont constitutifs de ce visage. Ensuite, puisque toutes les images d’Internet peuvent servir de données, on va retrouver dedans une quantité non négligeable d’images pornographiques, avec des corps et des visages répondant à des critères esthétiques bien spécifiques.» Avec pour conséquence, selon le chercheur, une représentation biaisée du corps des femmes.

Et ce problème se pose également dans le corpus de textes utilisé pour l’entraînement de ChatGPT. «L’une des grandes accusation menée à l’encontre de ces IA est d’amplifier les inégalités dont souffre la société, reproche Hugues Bersini. Si vous demandez à ChatGPT un texte comprenant un médecin, il y a 9 chance sur 10 que ce médecin soit un homme blanc, alors même qu’il y a plus de femmes que d’hommes sur les bancs des facultés de médecine.» 

Une question de société

Ainsi, au-delà de la technique qui se cache derrière ces outils, il faut également pouvoir questionner leur utilité et les usages qui peuvent en être faits par les utilisateurs. «Je pense que nous devons questionner le prix à payer pour pouvoir utiliser ces outils au niveau sociétal, songe Benoît Frenay. Car en permettant avant tout à des Occidentaux de catégories socio-professionnelles supérieures de produire plus, ces technologies aggravent en réalité les fractures actuelles que sont la fracture numérique, la fracture Nord-Sud, et celle de l’accès au capital.» Une fracture d’autant plus nette que la dématérialisation d’une tâche signifie souvent en réalité l’invisibilisation d’un travail toujours effectué par des mains humaines. En effet, pour améliorer les réponses de l’algorithme suite à sa première phase d’entrainement, les textes produits par ChatGPT ont été annotés par des personnes recrutées au Kenya. Texte après texte, ces travailleurs ont été exposés des mois durant à des documents particulièrement durs, décrivant des propos haineux, violents et dégradants. L’affaire est actuellement débattue au Parlement kényan.

Enfin, il faut souligner que l’impact des IA génératives est également énergétique. À lui seul, le réseau de neurones à la base de ChatGPT a été entraîné à l’aide de 10 000 unités de traitement graphique. «Or, la phase d’entraînement du modèle LaMDA de Google, qui a servi de base pour l’IA d’OpenAI, avait consommé à lui seul l’équivalent de 400 ménages pendant un an, retrace Benoît Frenay. Autrement dit, pour ChatGPT, on est sûrement à plus d’1 million d’euros d’électricité rien que pour son entraînement. Mais il faut ajouter à cela le coût d’utilisation. Sajjad Moazeni, professeur à la University of Washington, estime par exemple que les centaines de millions de requêtes faites chaque jour à ChatGPT consomment environ 1 million de kWh, soit l’équivalent de 33 000 ménages américains sur la même journée ! Sans oublier toute l’énergie nécessaire en amont pour construire les data centers et les ressources matérielles pour le faire fonctionner et le refroidir. Malheureusement, il est très difficile d’obtenir des chiffres officiels de la part d’OpenAI sur ces questions

Ouvrir le capot

En raison de l’impact que ces outils peuvent avoir sur la société, un certain nombre de chercheurs plaident pour que le code source qui régit l’algorithme soit accessible à tous. «À l’heure actuelle, ni le modèle de ChatGPT, ni les données utilisées pour son entraînement ne sont en libre accès, ce qui signifie que nous sommes incapables d’identifier les biais présents dans la machine, ce qui est extrêmement grave», alerte Benoît Frenay. Ouvrir le code et les données d’entrainement permettrait donc à minima à la communauté scientifique d’auditer la machine. «Il faut avant tout rappeler que personne, pas même ses concepteurs, ne comprennent véritablement comment et pourquoi ChatGPT est aussi performant, remarque Hugues Bersini. Dans un premier temps, les académiciens devraient donc avoir accès au code pour participer à la correction des biais et petit à petit permettre à l’algorithme de mieux fonctionner. Car si rien n’est fait, les données produites par l’IA d’aujourd’hui risquent de nourrir l’IA de demain. Cela formerait un cercle vicieux où l’on risque d’amplifier les biais au lieu de les corriger

 
Pour autant, cette ouverture des données n’est en aucun cas une solution miracle. «ChatGPT comporte 175 milliards de paramètres, rappelle Jérôme Fink. En dehors de Microsoft, propriétaire d’OpenAI, et des GAFA (Google, Apple, Facebook, Amazon) de manière générale, personne n’a de machine assez puissante pour faire tourner ce réseau de neurones. Par exemple, Meta, la maison-mère de Facebook, a mis en libre accès son propre modèle de langage, LlaMA, destiné à concurrencer chatGPT. Moi-même, j’ai téléchargé LaMa sur mon ordinateur. Mais il me faut une demi-heure pour générer un mot ! Le mouvement open source gagne donc des adeptes, mais on ne peut pas uniquement compter sur la bonne volonté de la communauté pour résoudre tous les problèmes

En dépit de toutes les questions soulevées par ces machines, une course à la taille s’est engagée dans le monde. Sidérée par le succès de ChatGPT, chaque multinationale s’efforce de développer son propre agent conversationnel. «Il y a une sorte de pensée magique qui consiste à croire que rendre ces systèmes plus gros va, comme par magie, faire disparaître tous les problèmes, regrette Benoît Frenay. Mais ce n’est guère scientifique, voire même, d’après certaines recherches, contreproductif

Et Jérôme Fink de conclure: «Il faut se rendre compte que ces systèmes sont très nouveaux et nous n’avons pas assez de recul pour les évaluer. Pour l’instant, l’intelligence artificielle est encore largement du domaine de l’alchimie et il serait bon que cela devienne de la chimie, c’est-à-dire une discipline rigoureuse.»

Techno-Zoom

En janvier 2024 sortira la dernière création d’Apple, le Vision Pro. Présenté comme un «ordinateur spatial», il s’agit d’un casque que l’on chausse comme des lunettes de ski et qui projette, devant vos yeux, vos applications, vos pages web, vos photos et vos films. Mais contrairement à un casque de réalité virtuelle qui vous aspire tout entier dans un monde qui n’existe pas, le Vision Pro n’occulte pas votre environnement et vous pouvez continuer à vous déplacer à votre guise. L’ordinateur lui-même a été compacté pour se glisser derrière les yeux de l’utilisateur, une prouesse rendue possible par les nouvelles puces M1 et M2 et qui équipent déjà les nouveaux MacBook. Et pour naviguer entre les différents programmes et sur Internet ? Il vous suffit de regarder et bouger les doigts, comme sur un smartphone.

Sur le papier, comme dans les vidéos de promotion de la firme, l’objet est impressionnant, une sorte d’aboutissement de ce que nous promet la science-fiction depuis des années: des écrans qu’on ne verrait même plus, des images projetées devant nous comme si nous y étions et la possibilité d’effacer complètement le monde autour de soi pour plonger dans une bulle de zénitude, faite de grands espaces désertiques ou de mers infinies, bercées par le ressac. La firme à la pomme a même prévu de projeter sur votre casque une simulation de votre regard, afin de pouvoir continuer à interagir avec vos proches, sans enlever le casque. Un avantage mais également un risque, car alors même qu’il nous est parfois difficile de lever le nez de nos smartphones pour se confronter à la vie réelle, que restera-t-il de nous lorsque nous pourrons littéralement vivre à l’intérieur ? Comment s’inquiéter de la déforestation amazonienne alors que l’on peut vivre toute la journée dans une simulation de forêt vierge de toute présence humaine ? Apple Vision promet «d’étendre notre monde». On s’inquiète aussi qu’il ne le réduise un peu plus…

Share This