Technologie

Des données très humaines

Thibault GRANDJEAN • grandjean.thibault@gmail.com

©Monica – stock.adobe.com, ©Adin – stock.adobe.com, ©Diva.be, ©karunyapas –
stock.adobe.com

Qu’est donc la science, si ce n’est la volonté de documenter un phénomène au point de l’appréhender dans toute sa complexité ? Depuis un peu plus de 10 ans, les Big Data ont parfois pu donner l’illusion qu’un tel idéal était à portée d’algorithme. Mesurons et numérisons le monde, et laissons la machine faire le reste. Une utopie qui oublie un peu vite le rôle indispensable de l’humain à chaque étape du processus

  
«Regardez-moi cette petite merveille ! Douze Megaoctets de mémoire vive, un disque dur de 500 mégaoctets, tableur intégré et un modem qui transmet à plus de 28 000 bits par seconde !» Nous sommes en 1995 lorsque Chandler Bing, personnage de la série Friends, présente ainsi son nouvel ordinateur portable, une machine plus épaisse qu’une boîte à pizza. On pourrait être tenté de se moquer, si cette situation n’était pas emblématique de la vitesse folle à laquelle nos moyens numériques se sont développés. Depuis Friends, la mémoire de travail dont disposent nos smartphones a été multipliée par plus de mille alors qu’on ne pourrait même pas stocker un épisode de The Crown sur l’ordinateur de Chandler – sans parler de réussir à le visionner.

Ce que l’on nomme les Big Data, littéralement les «grosses données», se trouve à la confluence d’au moins 2 accélérations: celle de la puissance de calcul des ordinateurs, et celle des dispositifs de stockage. Quelque part au cours des 15 dernières années, il est devenu possible à la fois d’emmagasiner quantité et quantité de données, et de les traiter via des algorithmes pour en tirer des informations pertinentes. C’est le cas bien sûr des réseaux sociaux, de la finance mondiale, des transports en commun, mais également de la recherche scientifique. 

Gattaca dépassé

Dans le laboratoire de bioinformatique de l’ULB‑VUB, IB2, les Big Data ont pris le nom d’omique, néologisme qui regroupe l’ensemble des groupes de molécules étudiées. «La génomique correspond à l’étude de l’ensemble du génome d’un organisme, résume le Pr Matthieu Defrance, bioinformaticien et directeur d’IB2. Mais nous nous sommes rendu compte que séquencer le génome n’apportait que peu d’informations sur les processus en cours au sein d’une cellule, et c’est pourquoi nous le croisons désormais avec le transcriptome, soit l’ensemble des produits de transcription de l’ADN, le protéome, et même l’épigénome, c’est-à-dire les modifications qui influencent l’expression même des gènes

Difficile pour notre esprit de concevoir la quantité astronomique de données que cela représente. «Le génome humain est composé d’environ 3 milliards de paires de bases, les fameux nucléotides ATCG, ce qui est déjà un challenge en soi, alors qu’il n’est même pas le plus grand du vivant, détaille Matthieu Defrance. Mais la complexité se trouve ailleurs, car contrairement au génome, les autres ensembles que nous mesurons sont très dynamiques. Ils varient en fonction des conditions de l’expérience, de la température, du moment de la journée…» Et du type cellulaire ! Car si au sein d’un individu, un neurone et une cellule musculaire possèdent le même génome, leur transcriptome et leur épigénome sont très différents.

En plus du développement spectaculaire de l’informatique, ces nouvelles disciplines doivent leur succès au développement des NGS (Next Generation Sequencing), une technologie qui permet de séquencer massivement en parallèle de courtes séquences d’ADN. «Même divisé en plusieurs chromosomes, le génome est trop grand pour être lu d’une traite, révèle Matthieu Defrance. Nous devons d’abord le fragmenter, ce qui revient un peu à devoir scanner un livre en ayant uniquement accès à des morceaux de pages, pour devoir ensuite tout remettre dans l’ordre.»

C’est à ce moment que les algorithmes de traitement de l’information rentrent en jeu, car seul un programme peut traiter ces immenses jeux de données. «La machine produit en réalité une image remplie de points lumineux les uns à côté des autres, chacun étant associé à un nucléotide, précise le bioinformaticien. Cette image est traitée afin de convertir le signal lumineux en information. Vient ensuite le temps de les mettre dans l’ordre, ce qui peut se révéler ardu si le génome est connu ou non, car le traitement algorithmique est alors très différent. En cas de génome inconnu, ne sachant pas ce que l’on doit trouver, on ne peut comparer les résultats à un éventuel étalon.»

Des milliards de points récoltés par un drone équipé d’un scanner laser, et reconstitué en 3D.

Une cathédrale de données

L’ordonnancement de millions et de millions de données en un tout cohérent n’est pas l’apanage des sciences naturelles. À l’ULiège, le Pr Pierre Hallot, doyen de la faculté d’architecture et du patrimoine et spécialiste de la numérisation, connaît bien cette difficulté, lui qui, depuis des années, numérise bâtiments et pièces d’orfèvrerie. «Si on utilise peu le terme Big Data dans le patrimoine, sa réalité est bien présente, raconte-t-il. Elle vient d’une évolution technologique qui rend désormais possible la création d’une copie virtuelle en 3 dimensions d’un environnement que l’on souhaite pouvoir analyser par la suite

Cette copie virtuelle est obtenue grâce à différentes techniques, que ce soit par photogrammétrie, c’est-à-dire via l’assemblage numérique de plusieurs milliers de photos d’un objet, ou par scanner laser, un dispositif capable de convertir un bâtiment en un nuage de points localisés grâce à des coordonnées spatiales. «À ces points sont éventuellement associés des éléments thématiques comme des notions de couleur ou de forme, développe le chercheur. En définitive, la fidélité de ces copies nous permet de lancer une série d’analyses scientifiques sans être physiquement en présence de l’objet ou du lieu. Un avantage indéniable, surtout lorsqu’ils sont difficiles d’accès

Le Big Data rend possible la création d’une copie virtuelle en trois dimensions d’un environnement que l’on souhaite pouvoir analyser par la suite

Et là encore, l’exhaustivité de la collecte de données fait que ces dernières se comptent en millions, voire en milliards. «Le nuage de points de la Cathédrale Saint-Paul à Liège compte entre 20 et 30 milliards de points, estime Pierre Hallot, mais en réalité, la taille de l’objet importe peu. Nous avons ainsi réalisé un modèle en 3D d’une pièce d’orfèvrerie médiévale, conservée dans un musée de Saint-Omer en France, avec un jeu de données de taille quasi comparable

À l’instar du bioinformaticien qui doit intégrer des informations hétérogènes car issues de plusieurs ensembles différents, voire de plusieurs organismes, le spécialiste en numérisation du patrimoine doit s’adapter à différents matériaux, ce qui nécessite un ajustement constant des instruments de mesure. «Le bois ou la pierre n’ont pas la même signature spectrale, explique Pierre Hallot, ce qui signifie que le laser n’est pas renvoyé de la même manière. Face à du verre, il pénètre dans la matière et fausse les mesures. Quant au métal, il est souvent réfléchissant, ce qui rend le laser inopérant. Cela nous a poussé, notamment dans le cas des pièces d’orfèvrerie, à développer d’autres techniques de numérisation, tout en préservant la colorimétrie de l’objet

Ces images sont composées de 30 milliards de points pour la Collégiale Sainte-Croix à Liège, et plusieurs milliers de  photos pour cette pyxide conservée au musée de Saint-Omer en France, reliés entre eux numériquement. Ces technologies permettent de couper virtuellement des objets et d’élargir le champ de recherche. Il est possible de  conserver une trace d’un patrimoine menacé ou en voie de destruction.

Un stockage épineux

La taille des jeux de données émis par ces nouvelles techniques pose immédiatement la question de leur stockage. Car un des piliers fondamentaux de la science aujourd’hui consiste à produire des résultats reproductibles. Les données doivent donc pouvoir être accessibles afin d’être comparées ultérieurement à de nouveaux résultats. Un défi considérable, quand les capacités de stockage ne sont pas illimitées. «On a atteint réellement un point de rupture, car les techniques de génération de données à partir du vivant ont évolué encore plus vite que les capacités de stockage, confirme Matthieu Defrance. On se pose désormais la question de ne plus stocker nos données de façon permanente. Les séquences de nucléotides sont déposées sur des bases de données européennes et américaines, mais quantité de données intermédiaires sont supprimées.»

Reste que la biologie possède une caractéristique qui lui est propre, celle de jongler avec le code génétique d’êtres humains en chair et en os. Un problème éthique, à l’heure où il existe une volonté générale d’un accès libre aux publications scientifiques. «L’accès libre aux données de recherche n’est valable que dans le cadre de données non-humaines, témoigne Matthieu Defrance. Ces dernières comportant des informations sur les individus, elles sont très strictement protégées par la loi. Ainsi, même au cours de la recherche, les données humaines ne peuvent quitter des machines sécurisées, qui ne sont accessibles que par quelques personnes.»

L’accès aux données humaines récoltées lors de recherches sont très strictement protégées sur des machines sécurisées.

La recherche liée au patrimoine dispose également de ses propres difficultés, liées à la nature même de leur objet de recherche. «Les données sont le miroir d’un objet du patrimoine, estime Pierre Hallot. Produites en vue de sa restauration ou sa réhabilitation, elles ont pour but d’en évaluer la valeur, qu’elle soit par exemple historique ou scientifique. À ce titre, non seulement ces données doivent être les plus fiables et crédibles possibles, mais elles doivent également être accessibles sur le long terme. Nous avons donc une obligation morale de faire en sorte que ce jeu de données devienne pérenne, en le stabilisant le plus possible dans le temps. Un vrai défi, compte tenu de l’évolution des techniques

Données et métadonnées

On pourrait alors croire qu’il ne s’agit finalement que d’une question technique du nombre de serveurs disponibles, mais la réalité est là encore plus complexe. Pour être exploitables, les données doivent être accompagnées d’autres, les métadonnées, qui reflètent le contexte dans lequel les big data ont été produites. «L’exploitation des données ne peut s’opérer que via les métadonnées, car sans ces dernières, on ne saurait pas à quoi les associer, révèle Matthieu Defrance. Lorsqu’une étude porte par exemple sur un patient, il est nécessaire de connaître son âge, son genre ou encore le stade d’avancement de la maladie, car tout cela change l’interprétation des résultats. Or, malheureusement, la qualité de ces métadonnées est très variable d’un jeu à l’autre, car il n’existe pas à l’heure actuelle de protocole de standardisation, ce qui limite la réutilisation des données en tant que telles.»

«Dans le domaine du patrimoine, un jeu de données non structuré n’est finalement qu’un ensemble de coordonnées spatiales, abonde Pierre Hallot. Elles deviennent inutiles si on ne sait pas dans quel système elles ont été prises, avec quel type de capteur, et ce qu’elles sont censées représenter. D’autant qu’il est important de comprendre que toute mesure comporte une part de défauts, et donc d’incertitude. Tout jeu de données n’est qu’un modèle de la réalité, et sujet à interprétation. Des notions qu’il est difficile d’inscrire dans des métadonnées.»

Loin d’une machine qui scannerait automatiquement tout ce dont un chercheur a besoin et lui servirait les réponses sur un plateau d’argent, les 2 chercheurs donnent à voir une science qui ne peut faire l’économie d’une vraie méthode scientifique. «Toute méthode nécessite un guidage humain, déclare Matthieu Defrance. Or, ce guidage en sciences naturelles est délicat, car on ne connaît évidemment pas tous les paramètres en jeu. Guider une machine n’est véritablement efficace qu’au sein d’un environnement connu. S’il y a eu par le passé un réel engouement à générer des données dans le but de tout comprendre, il tend à être aujourd’hui tempéré par un retour à l’expérimental.»

Un retour de balancier également constaté par Pierre Hallot, qui plaide également pour une réflexion sur les conséquences de ces données sur la recherche et sur le monde. «Un peu à la manière dont les premiers logiciels d’architecture ont modifié la façon même de dessiner des bâtiments, quel est l’impact de ces outils sur notre vision du patrimoine et notre démarche scientifique ?, s’interroge le chercheur. Nous sommes souvent sous l’impression que la machine est neutre, alors qu’elle est au contraire orientée par les outils, le matériel et l’opérateur qui la dirige».

Toutes les références peuvent être obtenues auprès de grandjean.thibault@gmail.com.

En savoir plus :
https://ibsquare.be/
https://www.diva.uliege.be/

  

Techno-Zoom

Pour la majorité d’entre nous, rien ne ressemble plus à un clavier d’ordinateur qu’un autre clavier. Bien sûr, il existe quelques configurations originales, comme ces claviers séparés en 2, réservés à quelques puristes. Mais depuis 2020, quelque chose a changé. Les claviers design aux touches silencieuses sont subitement devenus ringards, et ont cédé la place aux claviers mécaniques customisables. Aujourd’hui, les gamers et les écrivains en herbe ne jurent plus que par ces claviers de toutes les formes et couleurs, et au bruit de machine à écrire des années 1980.

Mais quelle différence, sinon le bruit ? Sur nos ordinateurs portables, les claviers sont dits à membrane: presser une touche enclenche un mécanisme en ciseaux, et appuie sur un bouton poussoir recouvert de caoutchouc. La pression à exercer est minimale, ce qui rend le clavier silencieux, mais augmente d’autant le risque de glisser sur la touche adjacente. Rien de dramatique… Sauf pour un joueur d’e-sport, qui n’a pas le droit à l’erreur face au monstre qui lui fonce dessus à toute vitesse.

Dans les claviers mécaniques, les interrupteurs situés sous les touches opposent une résistance plus importante, et donc plus de confort de frappe. Ça a l’air d’un détail anodin, mais il existe des dizaines d’interrupteurs différents, en fonction de leur résistance, de leur bruit, et d’une éventuelle résistance à mi-parcours, et ce pour toutes les bourses… Les forums de discussions de gamers regorgent quant à eux de discussions sans fin sur le meilleur clavier à utiliser.

Les écrivains et les programmateurs ont également adopté cette ancienne technologie redevenue à la mode, car elle dispose d’un autre atout: chaque interrupteur étant indépendant, ils peuvent être reprogrammés à volonté, et transformer, sous réserve de remplacer le jeu de touches, un clavier AZERTY en QWERTY ou en BEPO, une disposition ergonomique réputée diminuer les syndromes du canal carpien et les fautes de frappes.

La customisation ne se limite pas au changement de la couleur des touches !

Share This