Plus qu’un fond sonore

Thibault GRANDJEAN • grandjean.thibault@gmail.com

La production audiovisuelle est, elle aussi, bousculée par l’arrivée de l’intelligence artificielle. Comme avec le texte et l’image, plusieurs IA sont désormais capables de créer de toute pièce des scénarios, voire de courtes séquences vidéo qui n’ont jamais existé dans la vie réelle. Cependant, il existe un autre pan du cinéma, plus méconnu, mais tout autant chamboulé par l’IA: le son

Le son et son travail est un domaine qui reste mystérieux, du moins pour les non-initiés. Car, en dépit de toute la technique et la maîtrise des ingénieurs du son, l’ambiance sonore reste une histoire de ressenti et d’émotions. D’après les spécialistes, un bon montage sonore, voire même une bonne bande-son est quelque chose d’invisible pour une oreille non experte, et qui se fond dans le cours de l’histoire qu’on regarde.

Pour cette raison, nombre des sons que l’on entend dans un film, qu’ils soient de la fiction ou du documentaire, ont été rajoutés après le tournage. En effet, difficile dans les conditions de ce dernier d’obtenir les sons exacts permettant une immersion parfaite. Même en ce qui concerne les voix des acteurs ou des personnes interviewées, comme dans un documentaire ou un reportage, il est parfois difficile d’obtenir un son exempt de tout parasite, et certaines doivent être ré-enregistrées par la suite. Mais depuis quelques années et l’arrivée de l’IA, les choses sont en train de changer.

«Depuis très longtemps, il existe plusieurs techniques pour nettoyer le son, que ce soit pour enlever un son trop fort, ou alors pour enlever un bruit de fond continu, révèle Aurélien Lebourg, ingénieur du son et professeur à l’Institut National Supérieur des Arts du Spectacle (INSAS). La base mathématique de ces techniques est en réalité assez simple, et la qualité de restauration du son dépendait surtout de la dextérité du technicien. Cependant, depuis 2017 environ, on a commencé à voir apparaître des logiciels qui n’utilisaient pas encore le terme d’intelligence artificielle, mais qui reposait déjà sur du Machine Learning. En montrant à ces programmes des milliers d’exemples de voix humaines et de bruits spécifiques, il est devenu possible d’enlever d’une bande sonore le passage d’une voiture ou l’aboiement d’un chien.»

Mais, alors que ces outils étaient jusqu’ici réservés à des professionnels, le développement technique s’est récemment accéléré. «Tout va très vite, mais depuis 1 ou 2 ans, il n’existe pas moins de 3 programmes extrêmement efficaces pour nettoyer des voix et ôter tout bruit parasite, indique l’ingénieur du son. Très simples à utiliser, ils sont même capables de reconstruire des parties qui, auparavant, auraient été considérées comme perdues. Dans le cas d’un bruit de voiture qui couvre les paroles d’une actrice ou d’un expert interviewé, par exemple, le logiciel est capable de supprimer le tout, et de resynthétiser une voix très propre, sans son parasite ni réverbération.»

Une prouesse qui a tout de même ses limites. «La voix ainsi recréée ne sera pas exactement la même, met en garde le spécialiste. Le dialogue sera tout à fait compréhensible, mais on va perdre par exemple des intonations ou des spécificités, comme des accents régionaux par exemple. Lors de mes premiers essais avec des programmes, j’avais tenté d’enlever le bruit d’un moteur dans une séquence d’un film documentaire écossais. Pour moi, le résultat était bon, mais la réalisatrice, écossaise elle aussi, a tout de suite remarqué la disparition de l’accent du protagoniste, et nous avons dû faire marche arrière.»

Pour Aurélien Lebourg, la perte de ces spécificités peut être très problématique. «Ces programmes à base d’IA, pour puissant qu’ils soient, ont comme résultat de donner des sons que j’appelle « cliniques », c’est-à-dire sans sons parasites, mais aussi sans ambiance, sans réverbération, ou sans impression de distance, regrette-t-il. Or, que ce soit dans le documentaire ou la fiction, l’environnement sonore d’une prise de son a une importance capitale.»

Et d’après lui, le problème ne vient pas tant de la technique que des logiques qu’elles vont créer. «Il y a un état d’esprit de la part de la production ou de la réalisation qui, pour des raisons budgétaires et parce qu’elles ont eu vent des prouesses de ces programmes d’IA, vont insister pour tourner en dépit de mauvaises conditions sonores, parce qu’elles pensent que ce sera nettoyable par la suite, au lieu d’attendre ou de changer de lieu» met en garde Aurélien Lebourg.

De plus, les ajouts de couches d’IA dans le traitement du son nécessitent plus de calcul de la part des ordinateurs. «Cela a pour conséquence de ralentir la machine, et d’introduire un délai dans les pistes sonores, éclaire Aurélien Lebourg. Or, lorsque l’on mixe le son d’un film, beaucoup de choses passent par le ressenti du mixeur qui doit s’adapter à ce qu’il voit à l’écran, en jouant sur le volume sonore par exemple, pour qu’un éclat de voix ne soit pas trop perturbant pour le spectateur. Avec le délai induit par le calcul de l’IA, à certains endroits, il n’est parfois plus possible de faire ce mixage à l’oreille. On compense avec un travail à la souris d’ordinateur, mais qui fait perdre ce ressenti, et qui se ressent dans le visionnage final.»

Prouvez que vous êtes humain

Les contraintes budgétaires évoquées par Aurélien Lebourg ne touchent pas seulement les conditions de tournage. Elles sont également à l’œuvre dans la crise du doublage que connaît actuellement le cinéma, là encore à cause de l’IA. «Il existe des IA qui permettent de recréer des voix sans passer par des comédiens, et de façon de plus en plus convaincante, révèle Aurélien Lebourg. Elles manquent encore de naturel, car si elles sont capables d’introduire des moments d’hésitations pour plus de vraisemblance, ces derniers ne sont pas encore placés judicieusement. Par contre, la qualité sonore est quasiment indiscernable, même sur des enceintes de qualité cinéma. Compte tenu de la vitesse de développement de ces outils, je ne serais pas surpris que tout soit au point dans quelques mois.»

Il est même devenu possible de créer des doublages de voix de comédien.ne.s connu.e.s, sans même que ces derniers n’aient enregistré quoique ce soit. «Il suffit de donner à la machine suffisamment de données, comme des enregistrements, ou d’autres films dans lesquels ce ou cette comédienne a joué pour en recréer de toute pièce le timbre et les intonations, note l’ingénieur du son. Évidemment, tout cela n’est pas sans conséquences éthiques.»

Pour autant, Aurélien Lebourg estime que l’avenir tout artificiel, que semblent appeler de leurs vœux les grandes sociétés d’IA, n’est pas encore pour tout de suite. Ainsi, pour les sons comme les ambiances sonores ou les bruitages, tout n’est pas qu’une question de technique. «On le voit souvent dans les discussions que l’on a entre la réalisation et le montage, explique Aurélien Lebourg. Nommer le type d’élément sonore que l’on veut rajouter dans la séquence, comme le vent par exemple, ne suffit pas. Un vent constant, une bourrasque, du vent dans les arbres ou un vent sifflant qui va évoquer une sensation de froid… Tout cela suggère des choses différentes, qui dépendent de la culture des gens. Je doute qu’utiliser une IA pour créer des ambiances sonores puisse faire gagner suffisamment de temps à un professionnel en lieu et place de sa bibliothèque de sons.»

En revanche, là où l’IA peut permettre un gain de temps considérable, c’est précisément dans l’organisation de ces bibliothèques sonores. «On travaille avec de grandes banques de fichiers sonores, que l’on crée soi-même, ou que l’on achète, raconte Aurélien Lebourg. Mais il y a une grande différence entre le nom de ces fichiers et ce qu’il contient réellement. Ce qui m’intéresse c’est de savoir si le bruit des vagues est fort ou non, si elles se trouvent loin, si on y entend des conversations, des oiseaux de mer, etc. Et réécouter tous ces sons pour les étiqueter en conséquence est très chronophage. Mais il existe aujourd’hui des projets à base d’IA qui permettent de classer ces sons automatiquement, parce que la machine peut « écouter » des sons beaucoup plus rapidement que nous.»

Dans le son comme dans les autres domaines, l’IA ne semble jamais aussi efficace que lorsqu’elle est utilisée pour seconder l’humain et non l’inverse.

Un peu d’histoire

Depuis leurs débuts, les recherches en intelligence artificielle ont eu de nombreux liens avec la musique. Les fréquences, les harmonies, le tempo… Tout cela repose, au fond, sur des mathématiques, le langage des machines. Dès 1957, on trouve une suite de musique classique composée par ordinateur, l’Illiac Suite for String Quartet, du nom du laboratoire américain dans laquelle elle est née. Par la suite, l’automatisation a largement infiltré toute la musique, depuis un programme de Ray Kurzweil, le pape de l’IA chez Google, capable de reconnaître des motifs musicaux en 1965, et d’en créer de nouveaux, jusqu’à la sortie récente d’un titre des Beatles avec la voix de John Lennon recréée à l’aide de l’IA en se basant sur des enregistrement passés. Mais aujourd’hui, la technique va encore plus loin. En 2024, l’IA Suno a vu le jour, capable de générer en quelques secondes une chanson dans un style et pour un thème donné. Et désormais, on peut trouver sur Spotify des groupes qui n’existent tout simplement pas. Ainsi, le groupe The Velvet Sundown, qui produit un rock psyché tout à fait crédible, compte 400 000 fans sur Spotify et 1,5 million d’écoutes mensuelles, est entièrement fabriqué par IA. Un troisième album serait en cours de préparation, après à peine un mois d’existence. Au total, ce sont près de 20 000 titres musicaux artificiels qui seraient mis en ligne chaque jour, soit 18% de la production musicale totale. Et personne n’a la moindre idée de comment arrêter ce tsunami.

Photo à gauche: La toute première œuvre musicale créée par un ordinateur naît à l’Université de l’Illinois. C’est un quatuor à cordes conçu par 2 compositeurs et informaticiens, Lejaren Hiller et Leonard Isaacson. Intitulée Illiac Suite, en référence à l’ordinateur utilisé pour sa composition, cette pièce marque le début des expérimentations en musique assistée par ordinateur.

Ci-dessus: Tout sonnait (presque) trop bien: photos générées par l’IA, aucun réseau social, presque 3 albums en un mois… Il n’en fallait pas plus pour éveiller les soupçons. Ironie ultime: c’est en étant eux-mêmes usurpés (par des humains !) que The Velvet Sundown a fini par révéler sa vraie nature… synthétique.

PETIT LEXIQUE

Il y a tant de termes obscurs qu’il est parfois difficile de s’y retrouver lorsqu’on parle de l’intelligence artificielle. Voici un petit lexique pour vous aider à vous y retrouver dans cette jungle qu’est l’IA.

Intelligence Artificielle: S’il existe de nombreuses formes d’IA, ce terme désigne aujourd’hui et le plus souvent de grands réseaux de neurones artificiels conçus pour générer du texte, du son ou des images. C’est pourquoi on les nomme IA génératives. Entraînées à partir d’immenses ensembles de textes, ces IA ont acquis un sens poussé du langage, ce qui donne l’illusion que la machine est particulièrement savante.

Prompt: Il s’agit d’une commande textuelle permettant de déclencher une réponse chez l’IA. Alors que n’importe quelle question formulée naturellement permet d’obtenir des résultats, il est possible d’améliorer ces derniers en donnant à l’IA un cadre (une scène de film, des personnages, une intrigue), une tâche précise, et un rôle (mets-toi dans la peau d’un scénariste pour une série). Sans oublier de demander plusieurs versions.

Algorithme: Tout processus d’automatisation n’est pas forcément synonyme d’IA. Un algorithme est une suite de procédures qu’un programme informatique doit suivre pas à pas, comme une recette de cuisine. Un algorithme sophistiqué peut donner permettre à une machine d’effectuer des tâches complexes, comme par exemple enlever des fréquences précises d’un fichier sonore, et ainsi éliminer des sons parasites sans pour autant affecter la voix d’une personne interviewée.

Instructo, un assistant d’études

Les chatbots à l’image de ChatGPT peuvent être très utiles pour apprendre de nouvelles choses ou maîtriser certains concepts, à condition d’être utilisés correctement.

Alors que l’IA générative d’images est de plus en plus courante dans le milieu scolaire, 3 étudiants de l’UCLouvain ont donc eu l’idée de créer Instructo, un outil qui permet d’en tirer tout le potentiel. Il s’agit d’une plateforme, disponible gratuitement pour tous les étudiants du supérieur en Belgique, qui permet de questionner la machine directement sur un syllabus, de créer des Mindmaps à partir de ce dernier, afin de mieux visualiser les concepts clés, ou encore de créer des QCM pour mieux réviser. Instructo donne directement accès à 10 chatbots, comme ChatGPT, mais aussi le Chat de Mistral, ou Llama de Meta, afin de multiplier les sources et le traitement de l’information. Instructo fournit également une bibliothèque de prompts, c’est-à-dire de commandes textuelles, pour les étudiants les moins à l’aise avec l’utilisation de ces nouvelles machines.

instructo.be

ChatGPT rend-il idiot ?

C‘est une crainte que l’on entend souvent à l’apparition d’un nouveau médium. Que ce soit la télévision, la calculatrice, Internet, le GPS… Chacune de ces inventions a suscité nombre de commentaires (pseudo)scientifiques prédisant qu’à force de les utiliser, les gens deviendraient plus bêtes. En réalité, il se crée le plus souvent ce qu’on appelle le délestage cognitif, qui nous pousse à déposer dans ces objets une partie de notre savoir, pour nous libérer de l’espace mental. D’une certaine manière, il se passe la même chose avec les IA actuelles. Mais plusieurs travaux récents montrent que ce délestage cognitif n’affecte plus seulement notre mémoire, mais aussi notre capacité de réflexion et de créativité. Une étude, en particulier, menée au MIT, aux États-Unis, et pas encore validée par les pairs, a fait beaucoup de bruit. Elle montre que les étudiants qui avaient le loisir d’utiliser ChatGPT pour rédiger leurs dissertations ont largement eu tendance à laisser la machine faire le travail à leur place… Et n’avait donc aucune réflexion réelle sur les sujets demandés ! Ils ont également noté une moindre activité cérébrale chez ces participants. Si l’étude demande à être confirmée, les enseignants savent déjà que la chose la plus importante dans l’éducation consiste à apprendre à l’étudiant à penser par lui-même et développer son esprit critique. Ce qu’aucune machine n’a jamais pu faire à notre place.

Nataliya Kosmyna et al. Arxiv, 2025

L’IA au service des interfaces cerveau-machine

Les interfaces cerveau-machine (ICM) sont dans l’air depuis quelque temps. L’idée derrière est assez simple: il s’agit de se concentrer intensément sur une tâche, comme par exemple monter le curseur de la souris vers le haut, afin que les électrodes posées sur le cuir chevelu interprètent les ondes cérébrales comme la volonté de l’utilisateur, et transmettent la tâche voulue à la machine.

Mais cela devient bien complexe lorsqu’il s’agit de décoder les ondes cérébrales correspondant à celles d’une personne incapable de parler. Et c’est ici que l’IA rentre en scène: ces outils sont très utiles pour analyser très rapidement de gros volumes de données. Grâce à une ICM couplée à un algorithme d’apprentissage machine, un homme atteint de la maladie de Charcot a «retrouvé» une voix. Certes, cette dernière est synthétisée par l’ordinateur, mais la prouesse réside surtout dans le délai de réponse entre la pensée de l’homme et la parole. Ce dernier est imperceptible, et correspond à celui d’un langage naturel. La machine est même capable de reconnaître des mélodies simples que fredonne le patient dans sa tête, ce qui permet de mieux rendre les intonations.