Five researchers unlock the power of big data

Une illustration d’une vague gigantesque remplie de lignes colorées de longueurs inégales, semblable à une série de graphiques représentant une grande quantité de données recueillies.

Libérer la puissance des données volumineuses

Du séquençage de l’ADN à l’intelligence artificielle en passant par la littérature historique, le calcul de haute performance ouvre un monde de possibilités aux chercheurs du Canada
30 juillet 2015

L’incroyable puissance du calcul de haute performance qui permet d’exploiter des ensembles de données volumineuses en vue de trouver des réponses à un impressionnant éventail de questions de recherche caractérise le calcul informatique de l’ère moderne. Les travaux de recherche menés sont de plus en plus alimentés par des initiatives de numérisation d’envergure, des dispositifs à haut débit, des réseaux de capteurs ainsi que la modélisation mathématique et la simulation par ordinateur, lesquels génèrent des ensembles de données dont la taille et la complexité sont sans précédent. Nous vous présentons cinq chercheurs dont les travaux s’appuient sur les capacités de calcul avancé.

NOUVELLES : Le gouvernement du Canada investit 30 millions de dollars dans la plateforme de calcul de haute performance

Détective de l’ADN - Guillaume Bourque, Université McGill

Si vous comparez les génomes de n’importe quelle combinaison de personnes provenant de n’importe où dans le monde, vous constaterez qu’ils sont identiques à 99,5 pour cent. Les différences résident dans le 0,5 pour cent restant, y compris la prédisposition à diverses affections, du cancer à la maladie d’Alzheimer.

Puisque le génome humain est constitué de plus de trois milliards de nucléotides, cette fraction représente tout de même une quantité considérable à analyser. Et pour compliquer encore davantage les choses, les variations dans la séquence de nucléotides peuvent survenir à peu près n’importe où dans le génome.

Il n’est donc pas surprenant qu’au moment de rechercher des variations communes dans un groupe de personnes souffrant de la même maladie, les chercheurs se tournent vers des solutions informatiques très puissantes.                   

Au Canada, bon nombre d’entre eux envoient leurs échantillons génétiques de sang ou de tissus tumoraux au laboratoire de Guillaume Bourque, génomicien de l’Université McGill.

Après le séquençage de l’ADN, le docteur Bourque et son équipe prennent les millions de fragments d’ADN de l’échantillon d’un patient précis et les rassemblent en un seul génome. Ils comparent ensuite le génome de chaque patient à un génome de référence représentant une compilation de personnes en santé.

« Nous pouvons recevoir des échantillons de 1 000 patients atteints de la même maladie, affirme le chercheur. Nous analysons ces échantillons dans le but de découvrir s’ils présentent une variable commune, mais différente de ce qu’on observe chez la plupart des gens. Et dans ce sens, l’informatique joue un rôle de premier plan. »

Examiner la protéine - Régis Pomès, SickKids Hospital
 

Credit: Pomes Group, Sick Kids Hospital/University of Toronto

L’analyse des protéines, dans leur travail de maintien du fonctionnement de l’organisme, peut engendrer des découvertes cruciales pour le traitement de diverses maladies. Il y a cependant un obstacle à surmonter : les protéines fonctionnent souvent en grappes désordonnées et à des vitesses élevées.

Cet état permet l’existence de l’élastine, protéine qui, par exemple, donne à la peau, aux poumons et aux artères la capacité de s’étirer et de reprendre leur forme.

« Les poumons doivent être élastiques pour permettre la respiration, mais on sait peu de choses sur l’élastine », explique Régis Pomès, spécialiste en biophysique computationnelle au SickKids Hospital de Toronto.

Le docteur Pomès veut mieux comprendre l’élastine, car cela pourrait permettre d’élaborer des traitements pour les maladies pulmonaires, de créer de la peau artificielle pour les grands brûlés ou de procéder à des greffes vasculaires sur des patients atteints de troubles cardiaques.

L’observation des grappes désordonnées d’élastine donnent lieu à des instantanés difficiles à reproduire. Autrement dit, ces expériences ne permettent pas d’obtenir une image complète. Le docteur Pomès reproduit donc l’élastine et d’autres protéines au moyen d’une solution informatique haute performance, ce qu’il appelle : « l’animation des systèmes biomoléculaires ».

Ses collègues et lui scrutent ensuite ces dessins animés pour voir comment les protéines se déplacent, dans quelle mesure elles sont susceptibles de prendre certaines formes et à quelle vitesse elles peuvent passer d’une forme à l’autre.

« Nous avons besoin de détails sur des choses qui se produisent dans des systèmes minuscules ou des délais extrêmement courts, ajoute-t-il. L’informatique haute performance joue un rôle essentiel dans la génération et l’analyse de quantités faramineuses de données desquelles nous devons extraire les renseignements utiles. »

Interroger l’intelligence artificielle - Yoshua Bengio, Université de Montréal

Yoshua Bengio, informaticien à l’Université de Montréal, veut comprendre les mécanismes de l’intelligence, aussi bien chez les êtres vivants que dans les machines.

« Personne ne les connaît vraiment, mais nous élaborons des théories et les mettons à l’essai sur des ordinateurs à haute performance », indique-t-il.

Jusqu’à maintenant, ces théories ont permis d’importantes percées dans le domaine de l’intelligence artificielle. Deux des meilleurs exemples sont la technologie de reconnaissance vocale et celle de reconnaissance d’objets dans des images, cette dernière servant notamment à la recherche d’images liées à des requêtes de mots et pour l’identification d’images trouvées sur Internet.

La mise au point d’algorithmes d’apprentissage machine, qui sont en fait les formules permettant aux ordinateurs d’apprendre à partir d’exemples, a joué un rôle essentiel dans ces percées scientifiques. La recherche liée à ces algorithmes pourrait conduire à d’autres avancées majeures.

L’informaticien compare ce processus à l’apprentissage du tennis. Avec l’aide d’un instructeur qui recommande de légers ajustements, le joueur de tennis en devenir s’améliore à chaque leçon.

« C’est comme ça que les ordinateurs apprennent, dit-il. Ils répètent les commandes des millions ou des milliards de fois. Pour faire absorber aux machines beaucoup de connaissances, il faut une grande puissance informatique. »

L’art consiste à aider les machines à enregistrer ce savoir de façon à classifier les nouveaux renseignements reçus et effectuer des prédictions justes. Mais en définitive, M. Bengio aimerait percer le mystère entourant l’« apprentissage non supervisé » qui survient sans que la machine ait accès aux bonnes réponses.

Repérer des particules - Reda Tafirout, TRIUMF

Saint Graal de la physique des particules, le boson de Higgs a été découvert en 2012. On peut toutefois apprendre encore beaucoup de choses en provoquant la collision de protons à hautes énergies dans l’accélérateur de particules le plus puissant au monde, le Grand collisionneur de hadrons, à Meyrin, en Suisse.

La découverte du boson de Higgs a renforcé la certitude des physiciens sur l’exactitude du modèle standard. Il s’agit en fait d’un cadre mathématique utilisé pour décrire la nature fondamentale de la matière et les forces qui façonnent notre univers. Comme le boson de Higgs est la dernière particule du modèle à avoir été découverte, cette nouvelle a fait les grands titres partout dans le monde.

Les scientifiques devront ensuite affiner leur compréhension de cette particule et chercher de nouveaux phénomènes, comme la matière noire. Selon Reda Tafirout, physicien des particules travaillant à TRIUMF, il faudra pour cela doubler l’énergie du collisionneur et produire plus d’échantillons de boson de Higgs afin de préciser les mesures.

« Le modèle standard permet d’effectuer des prédictions précises. Par conséquent, si une quelconque mesure n’est pas parfaitement compatible avec lui – en raison d’une nouvelle interaction ou d’une nouvelle force qui n’a pas encore été découverte –, nous voulons le savoir », affirme-t-il.

Compte tenu du nombre ahurissant de protons entrant en collision en même temps, il est difficile de déterminer quelle collision peut être pertinente. C’est pourquoi les scientifiques se fient à des ordinateurs à haute performance.

« L’ordinateur relève les collisions donnant lieu à des interactions qui nous fournissent des éléments d’information », ajoute Rada Tafirout.

Poursuivre la littérature historique - Susan Brown, University of Guelph

Grand projet d’histoire de l’écriture des femmes dans les îles Britanniques à l’origine, le projet Orlando est devenu un exemple de premier plan de l’intégration du texte et de la technologie.

Il ne s’agit ni d’un livre, ni de l’édition numérique d’un texte existant, explique Susan Brown, historienne de la littérature numérique, de la University of Guelph. Il s’agit plutôt de rubriques sur 1 300 auteurs – pour un total de huit millions de mots – combinant de l’information sur leur carrière littéraire, ainsi que des renseignements biographiques et bibliographiques.

« Ce qui distingue le projet Orlando des travaux d’érudition similaires, c’est la mesure dans laquelle les documents sont structurés par encodage du texte de manière à refléter les divers aspects de l’histoire littéraire », précise Susan Brown. On y tient notamment compte de caractéristiques comme le genre littéraire ou l’accueil que l’œuvre a reçu, et même les relations entre les auteurs et leurs éditeurs, les influences intellectuelles, les amis, les activités politiques et les préoccupations de santé.

Avec l’aide de l’informatique de recherche de pointe, l’encodage du projet Orlando entraîne la création d’un index qui permet de trier les documents et de les réorganiser en fonction des intérêts et des priorités des chercheurs.

« Le projet Orlando est considéré comme un modèle à suivre pour les autres travaux d’érudition numériques semblables, conclut Mme Brown. En effet, il fait appel à l’encodage sémantique pour créer une ressource numérique qui tire profit de la puissance des ordinateurs d’une toute nouvelle façon. » Le modèle d’érudition numérique avant-gardiste du projet Orlando sous-tend aussi le Canadian Writing Research Collaboratory, une nouvelle Plateforme en ligne qui sera lancée au printemps 2016 qui rendra accessible la recherche informatique aux érudits littéraires du pays.

Établie à Toronto, Sharon Oosthoek est une rédactrice-pigiste dans le domaine scientifique.