A theoretical model of linguistic prediction : how contributions from various levels of semantic granularity interact with contextual representations when predicting an upcoming word

Codère Corbeil, Maxime (2023). « A theoretical model of linguistic prediction : how contributions from various levels of semantic granularity interact with contextual representations when predicting an upcoming word » Thèse. Montréal (Québec, Canada), Université du Québec à Montréal, Doctorat en linguistique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (4MB)

Résumé

Dans cette thèse, je développe un nouveau modèle théorique qui prédit le prochain mot d'une phrase. Ce modèle s'inspire de plusieurs disciplines académiques et intègre différents cadres et outils de la linguistique théorique, des sciences cognitives, de la linguistique computationnelle et des modèles du raisonnement analogique. En utilisant une perspective hautement interdisciplinaire concernant la nature de la prédiction linguistique et les types de processus cognitifs qui y sont impliqués, je présente un ensemble de desiderata cognitifs que les théories linguistiques doivent prendre en compte : incrémentalité, non-monotonie et interprétabilité du contenu sous-propositionnel. Je distingue deux types de contributions lors de la dérivation d'une prédiction linguistique : celles provenant de différents niveaux de granularité sémantique et celles provenant de la coordination de l'interaction linguistique et je présente un modèle de langage qui marie ces deux contributions. Cette approche est testée à la fois pour l'adéquation empirique et pour le réalisme cognitif. Afin de répondre aux contraintes d'adéquation empirique, nous avons vérifié que les prédictions du modèle reflètent les résultats d'études empiriques sur la procédure de cloze. Lors d'une tâche de cloze, un participant se voit présenter une phrase (ou une série de phrases) où des mots ont été omis, et le participant est ensuite invité à compléter le mot manquant. Par exemple, si on montre à un participant une phrase comme « J'ai posté ma lettre, mais j'ai oublié de mettre le... », il est relativement facile de deviner que le prochain mot sera probablement timbre et non voiture. Une fois que plusieurs participants ont accompli la même tâche de cloze, nous pouvons attribuer une valeur de prédictibilité à chaque mot enregistré en fonction de leur fréquence d'utilisation. La prédictibilité est souvent utilisée en psycholinguistique et en neurolinguistique pour mesurer les propriétés liées à la prédiction et au traitement linguistique; elle a été liée avec le temps de lecture en psycholinguistique et avec la valeur des composants N400 dans les expériences EEG en neurolinguistique. Cette thèse modélise ces valeurs de prédictibilité à l'aide d'outils statistiques et informatiques pour prédire les continuations les plus probables pour une phrase donnée en fonction du sens de cette phrase et, surtout, de la sémantique du discours précédent. Dans la théorie développée dans cette thèse, les continuations sont calculées à l'aide d'un réseau sémantique basé sur l'activation où le niveau d'activation de tout concept à un moment donné représente le degré auquel ce dernier est activé par les informations extraites de la phrase tronquée et par le contexte global. Cette valeur d'activation est proportionnelle au poids des connexions entre ces concepts et elle peut être traitée comme une probabilité de cooccurrence entre deux mots. À un instant donné, ces probabilités de cooccurrence déterminent la prédiction linguistique qui est basée sur l'interrelation entre tous les concepts représentés dans le réseau sémantique. Je dérive les réseaux sémantiques à partir des matrices de similarité qui représentent la similarité de cooccurrence entre différents niveaux de constructions linguistiques. Lors de l'attribution d'une probabilité relative d'occurrence pour les continuations potentielles, nous considérons à la fois la contribution de la phrase tronquée et la contribution du contexte global. J'ai développé des modèles pour deux types d'informations contextuelles : un modèle de topic et un modèle de situation, et je présente une représentation multicouche de la prédiction linguistique qui intègre la contribution des représentations au niveau de la phrase, la contribution du niveau contextuel et la constante interaction entre eux. Les deux niveaux de représentation ont un rôle primordial dans la dérivation de cette prédiction. Le modèle de prédiction linguistique présenté dans cette thèse est centré sur la coordination de l'interaction linguistique, et il illustre le lien crucial entre les niveaux de représentation impliqués dans le traitement pragmatique. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : prédiction linguistique, représentation du contexte, influence du contexte, tâche de cloze, espace conceptuel

Type: Thèse ou essai doctoral accepté
Informations complémentaires: Fichier numérique reçu et enrichi en format PDF/A.
Directeur de thèse: Smith, Elizabeth Allyn
Mots-clés ou Sujets: Mot (Linguistique) / Prévision / Phrase / Contexte / Test de closure / Cognition / Modèles de simulation
Unité d'appartenance: Faculté des sciences humaines > Département de linguistique
Déposé par: Service des bibliothèques
Date de dépôt: 03 avr. 2023 13:26
Dernière modification: 03 avr. 2023 13:28
Adresse URL : http://archipel.uqam.ca/id/eprint/16437

Statistiques

Voir les statistiques sur cinq ans...