Ecrire des data papers en SHS : exemples et partage d’expériences
Intervention Originale de :
- Vincent Arnaud, Université du Québec à Chicoutimi
- Kevin Bouchard, Université du Québec à Chicoutimi
- Gilles-Philippe Morin, Université du Québec à Chicoutimi
Retrouvez cette présentation en format augmenté ici
L’objectif de cette contribution est de présenter l’exploitation des R Notebooks (Gandrud, 2015 ; Xie, 2015) par l’intermédiaire des logiciels R (R Core Team, 2020) et RStudio (RStudio Team, 2021) dans le cadre d’un projet pilote en traitement automatique des langues de classification automatique des mémoires et des thèses catalogués au sein du dépôt institutionnel de l’Université du Québec à Chicoutimi.
Plus précisément, la présente contribution vise à proposer quelques démonstrations, par l’entremise de RStudio, qui porteront, entre autres, sur l’extraction automatique du texte brut de documents PDF, sur le nettoyage du texte à l’aide d’expressions régulières, mais aussi sur l’utilisation d’un modèle de classification automatique supervisée (un modèle eXtreme Gradient Boosting, Chen & Guestrin, 2016) des textes en six catégories (éducation, gestion et administration, linguistique, théologie, études régionales et travail social).
URI/Permalien: