Articles

Trois étudiants remportent le prix du public lors du premier Scrapathon

Trois étudiants en Génie informatique de l’UTC, Noé Gaumont, Quentin Lobbe et Perrine Letellier, ont remporté le prix du public lors du premier Scrapathon (concours consacré au recueil de données publiques sur le web), qui avait lieu le mercredi 12 juin 2013.

Trois étudiants remportent le prix du public lors du premier Scrapathon

Les trois étudiants de l’UTC ont choisi d’extraire les données des délibérations des conseils de Paris, qui ont lieu neuf à dix fois par ans.
"Les données sont disponibles sur le site paris.fr et concernent les conseils généraux et municipaux depuis 1995, explique Perrine Letellier. Avec une moyenne de 500 délibérations par mois, 10 mois par an, on obtient très vite un volume de données très important. Et il devient intéressant de pouvoir l’extraire pour l’analyser correctement.
Le principal défi résidait dans le format de ces données, depuis 2 ans environ, les comptes rendus sont au format pdf, les délibérations antérieures sont affichées à même une page html et le tout est très peu structuré.
"

L’évènement a débuté par une formation au scraping, suivi de la mise en pratique par les différentes équipes. "Nous avons procédé comme l’ensemble des autres équipes, en séparant les tâches : extraction des données, récupération des éléments intéressants, analyse" détaille Perrine Letellier.

A la fin de ce marathon, les étudiants ont réussi à rendre ces fichiers utilisables par ordinateur en générant des fichiers au format .txt. Il leur reste désormais a finir le traitement des fichiers texte, indexer leurs données, etc.
Lorsqu’ils auront terminé, leurs résultats seront publiés sur Data publica et sur le site NosDonnées.fr