Débute à 
Montréal (Québec) Canada

Une approche computationnelle de la complexité linguistique par le traitement automatique du langage naturel et l'oculométrie

Sous la direction de recherche de Nathalie Loye

Résumé

Le manque d'intégration des sciences cognitives et de la psychométrie est régulièrement déploré – et ignoré. En mesure et évaluation de la lecture, une manifestation de ce problème est l’évitement théorique concernant les sources de difficulté linguistiques et les processus cognitifs associés à la compréhension de texte. Pour faciliter le rapprochement souhaité entre sciences cognitives et psychométrie, nous proposons d’adopter une approche computationnelle. En considérant les procédures informatiques comme des représentations simplifiées et partielles de théories cognitivistes, une approche computationnelle facilite l’intégration d’éléments théoriques en psychométrie, ainsi que l’élaboration de théories en psychologie cognitive. La présente thèse étudie la contribution d’une approche computationnelle à la mesure de deux facettes de la complexité linguistique, abordées à travers des perspectives complémentaires. La complexité intrinsèque du texte est abordée du point de vue du traitement automatique du langage naturel, avec pour objectif d'identifier et de mesurer les attributs (caractéristiques mesurables du texte) qui modélisent le mieux la difficulté du texte. L'article 1 présente ALSI (pour Analyseur Lexico-syntaxique intégré), un nouvel outil de traitement automatisé du langage naturel qui extrait une variété d'attributs linguistiques, principalement issus de la recherche en psycholinguistique et en linguistique computationnelle. Nous évaluons ensuite le potentiel des attributs pour estimer la difficulté du texte. L'article 2 emploie ALSI et des méthodes d’apprentissage statistique pour estimer la difficulté de textes scolaires québécois. Dans le second volet de la thèse, la complexité associée aux processus de lecture est abordée sous l'angle de l'oculométrie, qui permet de faire des inférences quant à la charge cognitive et aux stratégies d’allocation de l’attention visuelle en lecture. L'article 3 décrit une méthodologie d'analyse des enregistrements d’oculométrie mobile à l'aide de techniques de vision par ordinateur (une branche de l'intelligence artificielle); cette méthodologie est ensuite testée sur des données de simulation. L'article 4 déploie la même méthodologie dans le cadre d’une expérience pilote d’oculométrie comparant les processus de lecture de novices et d'experts répondant à un test de compréhension du texte argumentatif. Dans l’ensemble, nos travaux montrent qu’il est possible d’obtenir des résultats probants en combinant des apports théoriques à une approche computationnelle mobilisant des techniques d’apprentissage statistique. Les outils créées ou perfectionnées dans le cadre de cette thèse constituent une avancée significative dans le développement des technologies numériques en mesure et évaluation de la lecture, avec des retombées à anticiper en contexte scolaire comme en recherche.

Pour assister à la soutenance par zoom:
https://umontreal.zoom.us/j/87954462829?pwd=Q29ON05Ea3JoRFdhVitpeEpWYmhaUT09

Soutenance de thèse de Guillaume Loignon