It’s all in the algorithm

Plusieurs symboles et lettres forment un algorithme sur un écran bleu

Tout est une question d’algorithme

Réduire le cout de l’apprentissage automatique en modifiant l’interaction de la machine avec les sources de données qui l’aident à acquérir des connaissances
27 septembre 2017

L’apprentissage automatique ‒ qui consiste essentiellement à concevoir des méthodes informatiques pour apprendre les tendances dégagées par les données ‒ peut aider les ordinateurs à faire certaines prévisions, notamment sur la prévalence d’une maladie chez une population donnée, ou encore pour mesurer le risque de crédit d’une personne souhaitant contracter une hypothèque.

Toutefois, comme pour l’humain, l’apprentissage de la machine est tributaire de la qualité des renseignements qui lui sont transmis. Titulaire d’une chaire de recherche du Canada sur la théorie de l’apprentissage automatique et chercheuse à la University of Regina, Sandra Zilles tente de rendre plus efficace l’apprentissage automatique en améliorant l’exposition des ordinateurs à des échantillons de renseignements. Nous nous sommes entretenus avec Mme Zilles pour savoir de quelle manière l’amélioration des interactions entre la machine et les données est essentielle pour atteindre le plein potentiel de l’intelligence artificielle.

Pouvez-vous d’abord nous expliquer le processus d’apprentissage des machines?

L’apprentissage automatique peut prendre diverses formes. L’approche la plus populaire comporte, habituellement, un « modèle » général du monde réel conjugué à des estimations statistiques qui permettent d’ajuster ce modèle aux données transmises à la machine.

La plupart des algorithmes d’apprentissage automatique ont été conçus en supposant que les données reçues constituent un échantillon aléatoire représentatif du monde réel. Par exemple, une machine peut apprendre à déceler des tumeurs à partir d’images captées au moyen d’un appareil d’imagerie par résonnance magnétique en utilisant un algorithme qui prend pour modèle un échantillon aléatoire d’images. De même, une machine qui apprend à connaitre les préférences d’un client d’un service Web utilise un algorithme qui suppose que les interactions sur lesquelles elle se fonde sont choisies au hasard parmi l’ensemble des transactions que ce client a conclues avec ce service.

De quelle manière comptez-vous aider les machines à apprendre plus rapidement?

Selon des études antérieures, les algorithmes d’apprentissage automatique s’accélèrent lorsque les données sont choisies avec soin plutôt que de manière aléatoire. Ainsi, dans le cas de l’imagerie par résonnance magnétique, les machines apprennent plus rapidement si les images qui servent à sa formation sont sélectionnées individuellement par un spécialiste. En outre, pour ce qui est de prévoir le comportement d’un utilisateur en ligne, par exemple, les machines apprennent plus vite à déceler les préférences d’un utilisateur si ce dernier contribue à leur formation en faisant ressortir certaines transactions particulièrement représentatives.

Mes travaux de recherche creusent davantage cette idée : nous modifions les algorithmes d’apprentissage automatique afin qu’ils « s’attendent » à recevoir des données sélectionnées avec soin plutôt que choisies au hasard. Cette supposition peut accélérer considérablement le processus d’apprentissage automatique et le rendre beaucoup plus abordable, surtout lorsque l’acquisition de données s’avère couteuse ou lourde, puisqu’il faut un moindre nombre de données.

À titre d’exemple, imaginez un laboratoire de biologie qui dépense chaque année des centaines de milliers de dollars pour payer des techniciens et les produits chimiques nécessaires à la production de très grandes quantités de données. Il lui serait possible de faire des économies en produisant des données de haute qualité sur quelques points de données sélectionnés individuellement ‒ puis de laisser les algorithmes de la machine, réglés précisément pour recevoir des données choisies par un spécialiste, faire le reste du travail ‒ au lieu de produire un grand nombre de points de données aléatoires et d’utiliser un algorithme moins efficace pour faire le tri.

De quelle manière mettriez-vous à profit ces algorithmes?

Un de mes étudiants au doctorat travaille à l’amélioration de la communication entre les automobiles autonomes en vue d’améliorer le débit de la circulation. Dans ce contexte, un des problèmes fondamentaux est de faire en sorte que chaque véhicule, qui constitue un agent autonome, soit capable d’évaluer la fiabilité des messages reçus en fonction de l’émetteur et des circonstances. Cela est possible en faisant apprendre à la machine un modèle de confiance fondé sur les résultats des interactions antérieures. Un principe semblable pourrait soutenir une multitude d’applications multirobots, tels que la technologie des jeux vidéo ou encore l’équilibrage de charge sur un réseau de téléphonie mobile.

La biologie représente un autre secteur d’application, en particulier l’étude des gènes et de leurs fonctions. En effet, nous analysons les données obtenues à la suite d’expériences menées en laboratoire sur de petits organismes modèles, comme des bactéries, et exerçons la machine à apprendre les régularités de ces données. En établissant des modèles à partir de ces données et en comparant les écarts qui surviennent, nous pouvons cibler les gènes nécessaires à chaque fonction chez l’organisme modèle ‒ des connaissances essentielles, notamment à la conception de médicaments.

Par ailleurs, nous concevons et analysons des modèles des préférences d’anciens utilisateurs, comme ceux qui savent reconnaitre le type de films ou de livres qui intéresse un client, ce qui peut aider ce dernier à trouver un produit correspondant à ses gouts. Ces travaux sont utiles dans le domaine du commerce électronique et du markéting.

L’apprentissage automatique aura-t-il une incidence sur l’économie canadienne?

Pratiquement tous les secteurs de l’économie seront touchés par les recherches menées sur l’apprentissage automatique. Les entreprises et les agences utilisent l’apprentissage automatique pour améliorer leurs produits et services, cibler leurs publicités ou orienter les décisions portant sur des investissements éventuels.

Le secteur de la santé illustre parfaitement cette idée. On y utilise l’apprentissage automatique pour améliorer la qualité de l’analyse des données en santé afin d’être en mesure de faire un usage plus efficace des données recueillies auprès des patients. À titre d’exemple, l’apprentissage automatique peut servir à déceler de nouvelles tendances à partir de données qui supposeraient que certaines caractéristiques génétiques constituent un facteur de risque pour une maladie en particulier. Grâce à cette technologie, un médecin pourrait donc être informé de l’émergence potentielle de certaines pathologies en fonction d’un ensemble de symptômes et de l’historique d’un patient. L’apprentissage automatique peut aussi servir à mesurer les probabilités de réussite d’un traitement particulier selon la maladie, les symptômes et l’historique médical d’un patient.

La difficulté vient du nombre exorbitant de données habituellement requises pour l’apprentissage automatique. En bio-informatique, par exemple, la collecte de données nécessite des expériences en laboratoire chronophages. De même, pour apprendre à connaitre les préférences d’un utilisateur, on ne peut pas s’attendre à ce que chaque client soit prêt à fournir une grande quantité de données. Mes travaux de recherche peuvent aider à résoudre cette problématique à faible cout dans les cas où les méthodes actuelles requièrent un grand nombre de données couteuses.

Retourner à Les grands esprits derrière les machines intelligentes