La science des données au cœur de la révolution numérique

Avec l’émergence des Big data ou données massives en français, la science des données est devenue un domaine de recherche où les investissements des entreprises sont considérables. Enseignant-chercheur en science des données au laboratoire Heudiasyc de l’UTC, Benjamin Quost fait le point avec nous sur les dernières tendances de ce phénomène.
Des services à l’industrie en passant par l’énergie, les applications basées sur l’analyse des régularités dans les bases de données pouvant comporter des millions d’exemples et centaines de milliers de variables offrent des opportunité inédites. « Avant les statisticiens se plaignaient du manque de données, aujourd’hui le nouveau défi c’est souvent la grande quantité d’informations à traiter » résume Benjamin Quost. Depuis les premières publications scientifiques au début des années 2000, le nombre de travaux de recherche et les investissements sur le sujet ont explosé. Après une période d’expérimentation dans les quatre — cinq dernières années, les technologies ont gagné en maturité et investissent tous les domaines d’activité. La création d’algorithmes performants et les puissances de calcul toujours plus importantes décuplent les capacités d’analyse et rendent même possible dans certains cas la résolution autonome de problèmes. « Des concepts anciens comme celui des réseaux de neurones ont été perfectionnés ; nous sommes maintenant passés au stade des machines autoapprenantes, par exemple en conjuguant l’apprentissage profond ou « deep learning » et l’apprentissage par renforcement » souligne Benjamin Quost. Le scientifique rappelle ainsi les succès du programme Alphago contre les plus grands champions humains du jeu de Go, un exploit impensable il y a 15 ans. Parmi les autres applications utilisant un grand nombre de données fournies par des capteurs ou des utilisateurs, les véhicules intelligents et autonomes développés par le laboratoire Heudiasyc font aussi largement appel aux nouvelles possibilités offertes par l’intelligence artificielle. L’expertise en science des données de ce laboratoire UTC-CNRS créé en 1981 en fait un acteur important de la recherche régulièrement sollicité par les entreprises. La structure compiégnoise possède une valeur ajoutée stratégique.
Des applications dans la vie quotidienne
Outre les applications de haute-technologie, des solutions courantes accessibles par l’intermédiaire d’ordinateurs personnels, de supports connectés ou de capteurs embarqués sont déjà commercialisées ou en développement. « Les entreprises proposent des projets aussi divers que les bâtiments connectés ou la détection de postures avec des t‑shirts munis de capteurs », souligne le maître de conférences. Responsable de la filière fouille de données et décisionnel, il constate aussi l’engouement actuel des étudiants pour le domaine porteur des Big data. Cette tendance de la science des données à remplacer l’humain par la machine pourrait selon lui donner lieu à un bouleversement sur le plan social. Par ailleurs, les avancées les plus spectaculaires de la science des données concernent les domaines d’application où les informations sont disponibles en très grand nombre. Or certains problèmes d’intérêt général sont caractérisés par des informations limitées. « La recherche et les investissements se focalisent beaucoup sur les « Big data », mais il ne faut pas oublier les « Small data », où l’on cherche à analyser des ensembles de données incomplètes ou bruitées » explique-t-il. Élaborer des modèles à partir de telles informations « pauvres » représenterait en effet une avancée prometteuse pour des domaines comme la biologie et la médecine, où les données peuvent être en nombre limité, incomplètes, et de qualité parfois incertaine, ce qui peut être important à prendre en compte dans les processus de prise de décision.