décembre 2022
Le cadre d’excellence en recherche (REF) est un important programme d’évaluation des impacts de la recherche menée dans les institutions d’enseignement supérieur au Royaume-Uni. Dans une récente étude menée en collaboration avec Technopolis, Science-Metrix a exploré la possibilité d’utiliser l’apprentissage machine et des procédures de traitement automatique pour lire et synthétiser les données du REF 2021. Cette étude commandée par des organismes de financement du Royaume-Uni visait une meilleure compréhension de l’environnement de recherche dans ses différentes aires, disciplines et sous-disciplines. Le REF 2021 utilise des unités d’évaluation (UoA) pour classer les extrants de la recherche déclarés par les institutions britanniques. L’étude a exploré de nouvelles alternatives à ce système de classification en utilisant une approche de lecture automatique qui permettrait de classifier les extrants de manière plus granulaire ou plus flexible que les présentes catégories liées aux UoA. Science-Metrix a testé plusieurs méthodes en identifiant les avantages de chacune ainsi que leurs limites.
Plusieurs recommandations portaient sur les différentes approches de classification testées. Science-Metrix a testé des classifications ascendantes et descendantes sur un sous-projet de recherche médicale et déterminé que, dans les sous-domaines de la recherche médicale, une approche descendante par apprentissage machine apportait la classification la plus fiable des extrants du REF. Cette approche s’alignait parallèlement avec la catégorisation des extrants utilisée dans les UoA. Les approches ascendantes fournissaient une classification trop granulaire pour permettre des observations significatives mais se sont avérées appropriées pour identifier des domaines de recherches émergents.
Science-Metrix a également testé une approche expérimentale pour construire un ensemble thématique de données portant sur le thème transversal du vieillissement et de la gérontologie. Ce thème ne faisait pas partie de la classification par UoA du REF mais était très pertinente dans le cadre des Grands Défis du Royaume-Uni. Les publications portant sur ce thème ont été identifiées en utilisant une approche de requête par mots-clés qui couvrait l’ensemble des domaines scientifiques. À l’aide de cette requête, l’ensemble des extrants spécifiques au thème du vieillissement et de la gérontologie ont été identifiés, ce qui incluaient non seulement les extrants traditionnels de la recherche, tels que les publications scientifiques, mais également les extrants non-traditionnels tels que les livres et les projections cinématographiques. L’utilisation d’une approche ascendante sur l’ensemble des sections des résultats déclarés (résumé, auteurs, mots-clés, références, et texte principal) générait des ensembles d’extrants imprécis. En effet, les sujets traités par les textes des références n’étaient pas nécessairement liés au thème de recherche choisi (vieillissement et gérontologie) et les noms des auteurs pouvaient potentiellement se recouper avec des termes sélectionnés dans la requête. Afin d’augmenter la précision de la requête et éviter les faux positifs, il a été suggéré de se limiter aux sections de mots-clés, titre et résumé.
Une approche plus large, utilisant également un algorithme d’apprentissage machine, a aussi été testée sur un projet portant sur l’interdisciplinarité pour mesurer la diversité des disciplines associées à la recherche dans le but de développer une nouvelle unité de mesure de l’interdisciplinarité. Des travaux additionnels seront nécessaires pour peaufiner l’unité de mesure développée.
Un autre projet interdisciplinaire a été utilisé comme base pour développer une nouvelle méthode d’apprentissage machine pour évaluer l’étendue de l’intégration du savoir issu de multiples disciplines dans les textes complets des extrants déclarés dans le REF 2021. Bien que les indicateurs d’interdisciplinarité utilisés présentement capturent déjà la diversité des disciplines des publications des chercheurs en utilisant l’information trouvée dans les références et les auteurs, ils ne se prêtent pas à la mesure de l’interdisciplinarité dans les extrants non-traditionnels. Les résultats obtenus avec ces nouveaux indicateurs n’étaient par contre pas concluants et Science-Metrix a trouvé des alternatives basées sur les références et les auteurs pour pallier les manquements et ainsi fournir des conclusions pertinentes sur les tendances interdisciplinaires au Royaume-Uni. Du travail reste encore à faire pour améliorer ces nouveaux indicateurs.
Dans son ensemble, l’étude a conclu que les méthodes de lecture automatiques tel que l’apprentissage machine doivent être utilisées avec prudence lors de l’évaluation des résultats de la recherche. Bien que ces méthodes puissent être utilisées, beaucoup reste à faire pour préparer les données à de telles automatisations. De plus, les méthodes de lecture automatique ne remplacent pas le besoin d’expertise thématique et de revue par les pairs. Des experts scientifiques sont nécessaires pour orienter les méthodes de classification des extrants et ainsi produire des résultats pertinents.
Pour lire le rapport [PDF, en anglais].
Image : iStock