Si la saisie manuelle ou production des données est indéniablement un aspect fastidieux de la recherche, leur mise en forme et traitement l'est tout autant. Cette phase de nettoyage de données (sérielles, quantitatives ou qualitatives) peut néanmoins être facilitée grâce à divers outils de "préparation des données", tels que Dataiku et Open Refine. Open Refine s'est imposé comme un puissant outil open source de nettoyage, mise en forme et traitement de ces données de recherche. Ses multiples fonctions de normalisation, typage, clustering et enrichissement en font un outil incontournable. Au cours de cet atelier, nous travaillerons avec un jeu de données et produirons une chaîne de traitement et de normalisation des données pouvant par la suite être exploitée dans d'autres contextes de recherche en SHS.
Cette séance s'adresse autant aux personnes manipulant des données quantitatives que qualitatives. Nous encourageons fortement les participants à venir avec leurs propres jeux de données tabulaires (CSV, XLSX, XLS ou ODS)
Plan de l'atelier :
- De la donnée à l'information: brève introduction aux données de recherche
- Prise en main d'Ppen Refine: nettoyage des données et attributions de types
- Fonctionnalités (plus) avancées: "clustering", alignement sur des référentels pérennes et post-traitement
Pré-requis :
Installer OpenRefine: https://openrefine.org/download
Informations pratiques et inscription :
Le cycle de formation s'adresse à l'ensemble des chercheuses et chercheurs des laboratoires affiliés à la MESHS, dès le master, souhaitant découvrir les humanités numériques et le traitement des données appliqué aux humanités. Il est demandé aux chercheurs et personnels de l'université de Lille de s'inscrire, dans la mesure du possible, en présentiel. Accès possible en distanciel pour les extérieurs.
Inscription obligatoire : https://meshs.limesurvey.net/583394?lang=fr
URI/Permalien: