IA

L’IA à l’épreuve de la traduction

Thibault GRANDJEAN • grandjean.thibault@gmail.com

© somyuzu – stock.adobe.com, © Maftuh – stock.adobe.com, © Wieck/2008 Ford Motor Company,
© Diego – stock.adobe.com, © Pakorn – stock.adobe.com

Alors que le grand public a découvert la maîtrise du langage naturel par les machines avec l’arrivée de ChatGPT, les traducteurs, eux, doivent composer avec ces outils depuis 2016. Or, si les résultats sont indéniablement bluffants, cette maîtrise présente encore de très nombreuses lacunes qu’il ne faut pas occulter

 
«Depuis des années, on agite le spectre de la disparition du métier de traducteur au profit de programmes informatiques, et pourtant, la profession est toujours là,
s’amuse Perrine Schumacher, chargée de recherches au Centre Interdisciplinaire de Recherches en Traduction et en Interprétation à l’ULiège. Pendant longtemps, il n’était guère nécessaire de prouver notre valeur face à des outils comme Google Translate. Mais depuis quelques années, et surtout depuis l’arrivée des chatbots comme ChatGPT, l’opinion publique a changé. Or, en matière de traduction, les résultats sont loin d’être aussi spectaculaires qu’ils n’en ont l’air.»

Les premières recherches en linguistique computationnelle, qui sont à l’origine des systèmes de traduction automatique, sont nées dans les années 1950. Il faut dire qu’en temps de guerre froide, traduire automatiquement toute communication du russe vers l’anglais aurait eu un avantage considérable. Malheureusement, et pendant des décennies, les systèmes de traduction par ordinateur n’ont jamais très bien fonctionné.

Il faut dire que la tâche est colossale: un bon dictionnaire de français, par exemple, compte environ 60 000 mots, auxquels il faut rajouter toutes les formes conjuguées des verbes, les millions de noms propres, sans oublier les termes pointus qui n’existent que dans des dictionnaires techniques. De plus, beaucoup de mots contiennent plusieurs sens, sans oublier les métaphores et les expressions particulières à chaque langue. Dans la phrase «l’avocat a livré une plaidoirie mordante», un programme informatique doit comprendre que l’avocat n’est pas le fruit, qu’il n’a rien livré au sens littéral du terme, comme un colis, et surtout qu’il n’a mordu personne ! Finalement, c’est à se demander comment le cerveau humain manie la langue de façon aussi fluide et naturelle.

Mais surtout, il existe une raison fondamentale au fait que la traduction automatique a longtemps eu des résultats mitigés. Scientifiquement, il n’existe en effet aucune définition formelle de ce qu’est une bonne traduction. «Toute traduction comporte énormément de subjectivité, confirme Perrine Schumacher. Demandez une traduction à 6 traducteurs, et vous pourriez obtenir 6 versions tout à fait satisfaisantes. Dès lors, il a toujours été difficile, voire vain, d’établir des standards de qualité valables destinés à améliorer les systèmes de traduction automatique.»

 
L’ère des réseaux de neurones

Pourtant, depuis 2016, la traduction automatique a opéré un saut qualitatif notable dû à l’essor des réseaux de neurones, et qui sont à la base des grandes IA d’aujourd’hui. «Pendant très longtemps, les systèmes de traduction automatique ont fonctionné à base de règles, explique Katrien Beuls, Professeure à la Faculté d’informatique de l’Université de Namur. On indiquait à la machine ce qu’était un verbe, un nom, un adjectif, et l’ordre qu’ils devaient avoir dans une phrase, par exemple. La plupart sont devenus obsolètes, mais il est à noter qu’ils existent toujours pour les langues peu dotées, c’est-à-dire pour lesquelles il existe peu de données sur Internet.»

Ces systèmes à base de règles ont été remplacés par des systèmes statistiques, apparus au Japon dans les années 1980. «Ils sont dits statistiques parce qu’ils exploitent la probabilité pour les mots de se trouver dans les environs les uns des autres, et ce avec encore quelques règles de syntaxe, développe Katrien Beuls. Et ils ont été rendus possible grâce à l’exploitation d’immenses corpus de textes comme ceux publiés par la Commission européenne, qui correspondent à la retranscription des discussions du Parlement européen. En effet, il s’agit de traductions alignées, c’est-à-dire avec les mêmes phrases côte-à-côte. Et ce, dans chacune des langues de l’Union européenne.»

Aujourd’hui, les systèmes de traduction travaillent toujours de façon statistique. Mais leur fonctionnement a été bouleversé par la puissance des réseaux de neurones. «L’apprentissage profond, basé sur de grands réseaux de neurones, analyse les textes grâce à une technique qu’on appelle « le plongement de mots », explique Katrien Beuls. Cette méthode consiste à chercher un mot cible, comme le mot « maison », puis d’y associer les mots situés avant lui et après lui. Ainsi, le mot « chien », ou le mot « cuisine » ont beaucoup plus de chances de se trouver dans le voisinage du mot « maison », que le mot barque, par exemple. Cela permet, pour chaque mot, de leur donner un contexte.»

Cette méthode, appliquée aux milliards de textes que l’on trouve sur Internet, de Wikipédia aux posts des réseaux sociaux, a permis aux machines d’acquérir une représentation lexicale très riche. «Les résultats sont très impressionnants, mais évidemment, cela va de pair avec une consommation colossale d’énergie», avertit Katrien Beuls.

Plusieurs années avant l’arrivée de ChatGPT, ces systèmes de traitement automatique du langage ont donc été appliqués, avec succès, au domaine de la traduction, que ce soit dans les outils professionnels ou grand public, comme Google Translate ou DeepL. «Très rapidement, ce qu’on nomme aujourd’hui la traduction automatique neuronale (TAN) s’est immiscée dans le milieu des traducteurs professionnels, dévoile Perrine Schumacher. Au point qu’aujourd’hui, on leur demande de plus en plus d’être en fait des post-éditeurs, c’est-à-dire d’améliorer une première version produite par la machine.»

Il faut dire que, pour un traducteur chevronné et sensibilisé aux limites de ces outils, la TAN peut comporter plusieurs avantages. «En fonction du contexte et de la qualité que l’on souhaite, et pour les langues les plus courantes, l’utilisation d’une première version créée presque instantanément par la machine peut faire gagner un temps précieux, indique la chercheuse. Si le système est bien fait, cela peut également nous épargner certaines recherches documentaires, en nous proposant des synonymes en contexte ou des termes techniques très précis. Parfois, la qualité orthographique et grammaticale s’en trouve également améliorée.»

Pour autant, cette première version n’est pas exempte de nombreux défauts. «Un traducteur va avoir tendance à se fier au texte que la machine propose, et les moins expérimentés auront des difficultés à s’en distancier pour proposer une version alternative, estime Perrine Schumacher. Plusieurs études ont également montré que la TAN participe à une homogénéisation de la langue avec un appauvrissement lexical et une disparition des mots rares. Les tournures de phrases ont ainsi tendance à être plus simples, plus prévisibles et souvent beaucoup plus littérales.»

Et pour Katrien Beuls, il est peu probable que ces systèmes arrivent un jour à dépasser ces limitations. «Le langage humain a été conçu pour communiquer et atteindre un but, explique‑t‑elle. Ainsi, beaucoup de choses passent par ce que l’on ne dit pas. Si je dis par exemple « j’ai pris un café avec Bert et il a payé », je sous-entends par là que ce n’est pas son habitude. Cela signifie que le langage est utilisé au cours d’une interaction et que la machine ne comprend pas, parce qu’elle n’a pas d’autre connaissance du monde que les textes qu’elle a ingurgités.»

Un contrôle humain nécessaire

Pour toutes ces raisons, à l’heure actuelle, aucune machine n’est capable de produire une traduction de qualité publiable, sans contrôle humain. «En réalité, les résultats sont très aléatoires et dépendent de beaucoup de facteurs comme du moteur de TAN utilisé, du type de texte à traduire, du sujet traité, de la combinaison de langues, etc., indique Perrine Schumacher. Pour cette raison, il faut être sans cesse vigilant par rapport aux résultats proposés.»

«L’obtention immédiate d’un texte donne l’illusion qu’il s’agit d’un travail plus facile, poursuit-elle. Or, post-éditer une traduction automatique peut s’avérer autant, sinon plus demandeur cognitivement parlant que de créer une traduction humaine de bout en bout. Et malheureusement, c’est aussi beaucoup moins gratifiant.»

En dépit de toutes ces limites, la TAN s’est largement imposée dans le milieu de la traduction, principalement en raison du gain de productivité qu’elle est censée offrir: «On leur demande de travailler toujours plus vite, et pour des tarifs moindres», juge Perrine Schumacher.

Une évolution que regrette Katrien Beuls: «Je pense que la traduction automatique va être bénéfique pour beaucoup de domaines, mais il faut se méfier des gains de productivité vantés par la TAN. Beaucoup d’études montrent qu’ils ne sont pas si importants qu’ils en ont l’air, et malheureusement, la qualité s’en ressent. Je crois qu’il ne faut pas renoncer à la puissance de la culture et de la littérature, qui sont des gages d’une bonne traduction humaine. Plus que jamais, cela doit faire partie de la formation des traducteurs.»

Henry Ford et son modèle Ford T. Ce véhicule,  l’un des premiers, est massivement produit  grâce au principe du fordisme.

UN PEU D’HISTOIRE

Dans les années 1970, un sociologue marxiste du nom de Harry Braverman a publié un ouvrage qui a fait date dans l’analyse du travail: Travail et capitalisme monopoliste, réédité en 2023 aux Éditions Sociales. Dans cet ouvrage, le sociologue a notamment montré que le capitalisme, en souhaitant maximiser sa rente, va chercher à augmenter le rendement du travailleur, via l’organisation et le contrôle du travail. C’est ainsi qu’est né le fordisme, et son management scientifique du travail qui, en découpant chaque mission en une série de petites tâches, a conduit à déconnecter les compétences des travailleurs du processus du travail. Deux chercheuses de l’Université Paris Dauphine, en France, proposent de remettre au goût du jour ces travaux à la lumière du développement de l’IA générative dans l’entreprise. En effet, selon elles, les gains de productivité obtenus via l’IA peuvent se traduire par une dégradation de la situation des salariés pour qui l’utilisation de l’IA devient une obligation. Alors que le sens du travail passe par la création, que ce soit de textes, d’images, de vidéos, ou de code informatique, beaucoup de travailleurs se voient désormais dans le rôle de contrôler ce qu’une IA a «créé» pour eux. Elles citent par ailleurs la grève des scénaristes américains qui, en 2023, ont lutté pour ne pas devenir des correcteurs de scénarios écrits par IA. Les 2 chercheuses, en exposant leurs recherches dans le journal Le Monde, ont formulé une question éclairante: «Est-ce humainement un progrès de devoir contrôler plutôt que de créer ?»  

PETIT LEXIQUE

Il y a tant de termes obscurs qu’il est parfois difficile de s’y retrouver lorsqu’on parle de l’intelligence artificielle. Voici un petit lexique pour vous aider à vous y retrouver dans cette jungle qu’est l’IA.

RÉSEAU DE NEURONES: Les neurones artificiels sont des fonctions informatiques, qui sont capables d’effectuer un choix en fonction de différents paramètres et de leur degré d’importance. Une fois mis en réseau, ces systèmes informatiques sont capables de gérer des quantité immenses d’information comme des pixels, des mots, ou des données médicales.

LARGE LANGUAGE MODEL (LLM) OU MODÈLE DE LANGAGE: Les nouvelles IA comme ChatGPT sont de très grands réseaux de neurones qui ont été conçus pour générer du texte. 

Au départ, leurs créateurs ont commencé par récupérer de larges ensembles de textes d’Internet, par exemple Wikipédia, pour ensuite créer des textes à trous, comme des exercices pour enfants. À charge de l’IA de tenter de deviner les mots manquants. Par essais-erreurs, les IA ont acquis un sens de la langue poussé, ce qui donne l’illusion que la machine est particulièrement savante.

IA GÉNÉRATIVES (IAG): De la même manière que pour les mots, les IAG ont été nourries avec des centaines de milliers d’images issues d’Internet, avec comme objectif d’essayer de reconnaître les objets en question avant de les reproduire. Aujourd’hui, ces IA sont de plus en plus multimodales, c’est-à-dire capable de générer une image à partir d’un texte, et inversement, mais aussi de comprendre et générer du son ou des vidéos.

01

DeepSeek, l’IA chinoise qui fait tanguer les géants

C’était la grande annonce du domaine de l’IA au début de l’année 2025. Alors que les États‑Unis lançaient des investissements colossaux de l’ordre de 500 milliards de dollars, visant à supporter l’appétit insatiable des grands modèles d’IA pour les cartes graphiques et autres data centers, une start-up chinoise lançait un nouveau chatbot sur le marché: DeepSeek R-1

Capable de rivaliser avec les grands modèles de langage, comme ChatGPTClaude d’Anthropic, ou Llama de Meta, il est surtout beaucoup plus frugal: son coût d’entraînement n’aurait été que de 5,5 millions de dollars, quand Anthropic estime que le développement d’un modèle demande environ 1 milliard de dollars. De plus, DeepSeek est en open source, c’est-à-dire que son modèle est librement téléchargeable et consultable par tous.

Si DeepSeek possède de nombreux défauts (impossible, par exemple, de parler des manifestations de Tian’anmen), l’arrivée de la start-up chinoise est peut-être paradoxalement une bonne nouvelle pour le français Mistral, qui a lui aussi misé sur l’open source: son chatbot, Le Chat, possède en effet la même architecture que celle qui sous-tend DeepSeek. De quoi, sans doute, rebattre les cartes.  

02

AirGen et l’ère des agents

Aussi puissants que soit un chatbot comme ChatGPT, ses capacités d’action sont finalement assez limitées. S’il est capable d’écrire un mail, par exemple, c’est encore du ressort de l’humain de l’envoyer. Mais d’après plusieurs spécialistes, le futur de l’IA se trouve du côté des agents: des IA capables non seulement de rédiger, mais aussi d’envoyer des mails, de prendre des rendez-vous, bref, d’agir de façon autonome. Yann LeCun, l’un des pères des IA actuelles, estime que ces agents entreront bientôt dans la vie des gens, nous servant d’assistants personnels. Une start-up belge a déjà pris les devants en la matière: AirGen a développé un assistant IA spécialisé dans l’assistance aux services commerciaux des entreprises. Elle est capable d’envoyer des e-mails, d’optimiser leur agenda, et de mettre à jour les logiciels de gestion de relation client (CRM), qui permet un suivi efficace entre une entreprise et son client. D’après la start-up, son agent IA est également capable d’apprendre: en ayant accès aux e-mails, l’agent est capable d’y associer un contexte, pour un suivi plus efficace et personnalisé des échanges. Pour l’instant réservé aux services commerciaux, AirGen prévoit d’élargir son outil à d’autres professions.  

    airgen.io

03

IA Slop, la pente glissante

Si vous avez navigué ces derniers temps sur Facebook, sans doute n’avez-vous pu passer à côté d’une drôle d’image, générée par IA, qui représente une créature à mi-chemin entre Jésus-Christ et une crevette. Il s’agit d’un exemple typique d’un phénomène que l’on nomme «IA Slop», et qui désigne l’envahissement des réseaux sociaux et d’Internet en général par des images, des textes et des vidéos, de mauvaise qualité. Une partie de ces contenus sont générés en masse par des travailleurs de pays comme l’Inde ou le Vietnam, dans l’espoir de générer de l’engagement de la part des internautes, car Meta, la maison-mère de Facebook, les rémunère en fonction de la viralité de leurs posts. Ce n’est cependant pas la seule raison: il est devenu tellement aisé pour n’importe qui de créer du contenu artificiellement via l’IA que nombre d’entreprises font de même pour aller plus vite. Ce raz-de‑marée de contenu d’IA commence même à envahir la production d’articles scientifiques. Outre un déficit de confiance de la part du public pour le contenu Internet, cette pollution numérique a aussi pour conséquence d’affaiblir les IA qui, en se nourrissant de leurs propres contenus, produisent à leur tour du contenu de moindre qualité. 

Share This