Présentation orale thèse de Marielle Lange
Ci-dessous vous trouverez (en deux parties) une transcription de la défense de thèse de Marielle Lange. Si cela vous intéresse, voyez le fichier qu’elle propose sur le net. Ce que je vous fournis ne fera que vous aider à le consulter (sans plus).
Moi, cela m’a beaucoup intéressé. Et cela justifie mon envie de vous le transmettre. Mais je me doute que ce ne sera pas le cas de tous.
C’est un principe de ce genre de blog d’échanges. A vous de choisir ce que vous lisez, gardez (pour plus tard) ou jetez.
Bill
————————————————–
PARTIE 1
Merci Monsieur Azzi,
Comme vient de vous le démontrer monsieur Azzi, lire des mots à voix haute est une activité cognitive commune et aisée pour les adultes lettrés que nous sommes. Mais vous êtes-vous jamais demandé comment vous faisiez pour obtenir la prononciation d’un mot écrit.
Pour un mot comme « orthographe », c’est facile, vous connaissez le mot et l’avez déjà entendu prononcé, il vous suffit de vous souvenir de sa prononciation. Mais pour un mot comme graphème, que la plupart d’entre vous n’ont jamais rencontré, comment faites-vous? Visiblement, vous êtes capables d’exploiter une connaissance des relations entre lettres et sons en français pour « deviner » la prononciation de la séquence. Mais comment?
Et bien c’est justement la problématique de mon travail de thèse que je vous présente aujourd’hui.
Mais avant tout, clarifions ces termes de graphème et phonème. Pour une description des relations orthographe-son de la langue, il est souvent utile de faire référence à des unités plus larges que la lettre, comme pour le segment PH qui se prononce /f/. Le terme de graphème est utilisé à cette fin pour désigner les lettres ou suites de lettres qui correspondent chacunes à un son de parole. Suivant cette définition, dans le mot écrit graphème, g, r, a , ph, etc. sont identifiés comme des graphèmes car associés chacun à un phonème ou son de parole.
Sans aucun doute, ce qui caractérise des langues comme le français ou l’anglais est l’existence de relations stables entre graphème et phonème. Une graphème est fréquemment prononcé par le même son (le groupement CH par le son /che/) et un son retranscrit par la même lettre (/che/ par CH). Cette caractéristique fait qu’une connaissance de ces relations stables permet souvent de déduire avec succès la prononciation d’une séquence familière ou non familère à partir d’une identification des lettres qui la composent.
Ainsi, bien que personne je pense n’ait jamais appris la prononciation de la séquence C, H, E, P, tout le monde s’accordera normalement à la prononcer /chaip/, reflétant le fait qu’en français CH se prononce régulièrement /che/, E se prononce régulièrement /ai/ et P se prononce régulièrement /p/.
Cependant, pour la plupart des langues alphabétiques, comme c’est le cas pour le français ou l’anglais, ces relations ne sont pas parfaitement systématiques. Il peut arriver qu’un même groupe de lettres se voie attribuer des prononciations différentes selon le contexte. Ainsi, CH se prononce plutôt « KE » dans chaos. E se prononce aussi « é » dans clef ou « a » dans femme. Enfin, P se traduit parfois par un silence comme dans COUP.
Bref, les prononciations des graphèmes sont souvent prédictibles mais pas toujours à 100% et, comme en donne un aperçu la comparaison de E
très instable et de P non systématique mais tout de même très prédictible, la force des associations ou prédictibilité des relations entre graphèmes et phonèmes est très variable d’un groupement de lettres à l’autre.
Dans le domaine de la reconnaissance des mots écrits, deux questions au centre de bons nombres de travaux sont :
Comment cette connaissance des relations assez systématiques entre
orthographe et phonologie est-elle représentée mentalement?
Comment participe-t-elle à la dérivation de la prononciation d’une chaîne de caractères?
De nombreux auteurs s’accordent à considérer qu’il existe un système
de transcodage spécifique, à côté d’un autre système de traitement,
lexical, récupérant la prononciation sur base de l’identification d’une forme orthograhique familière. Toutefois, la question de la manière dont une connaissance des relations entre orthographe et prononciation est représentée et utilisée est loin d’être résolue. En fait, différentes équipes de psycholinguistes proposent des explications très différentes quant à la nature de ces connaissances et processus cognitifs qui interviennent lors du transcodage du mot écrit en mot parlé.
L’objectif de mon travail était de statuer sur la pertinence de certaines de ces propositions théoriques. Je me suis en particulier intéressée à deux hypothèses, celle d’une représentation des relations orthographe-son par un répertoire de règles graphème-phonème et celle d’un transcodage lettre-après-lettre de la chaîne de caractères.
Ces deux hypothèses caractérisent en fait un des modèles actuels le plus influent, le modèle de Coltheart et collègues.
Ainsi, pour Coltheart et collègues, la traduction d’un mot écrit comme photo (en bas) en mot parlé /foto/ (en haut) repose sur la consultation d’un répertoire qui reprend chaque suite de lettres reconnue pour opérer comme un graphème (par exemple la suite PH) et lui attribue le phonème ou son de parole qui lui est le plus fréquemment associé (soit /f/ pour PH). Cette consultation prend place au cours d’un déchiffrement lettre-à-lettre de la chaîne de caractères.
Concrètement, comme le montre l’animation, P, la première lettre du mot photo est isolée et une tentative de traduction effectuée. La lettre P est trouvée dans le répertoire, avec pour traduction /p/ et ce dernier phonème est activé au niveau du système de production, qui prépare la réponse articulatoire.
La deuxième lettre, H, est ensuite traitée. Afin de permettre l’identification de la prononciation de graphèmes multilettres comme PH, cette nouvelle lettre est d’abord accolée à l’unité précédemment traduite. Si, comme ici, la traduction réussit, l’identité du phonème à prononcer est réactualisée (le phonème /f/ vient remplacer le /p/ précédemment actif).
La troisième lettre, O, est ensuite traitée. Elle est elle aussi d’abord accolée à l’unité précédemment traduite, soit PH. Mais ici la traduction échoue car PHO, n’est pas repris dans le répertoire des graphèmes de la langue. Une nouvelle position phonémique est ouverte puis, une tentative de traduction effectuée sur la seule lettre courante.
Le second phonème est alors identifié comme /o/ par traduction du graphème O.
Le processus continue ainsi jusqu’à la dernière lettre.
Lorsque le mécanisme de lecture lettre à lettre arrive à un blanc qui lui indique une fin de chaîne, un signal pour déclencher la réponse est donné et les phonèmes identifiés articulés (ici, /foto/).
Ce sont donc principalement les hypothèses de ce modèle par rapport à la nature des représentations et processus que nous avons évaluées dans notre travail de thèse.
Commençons par celle relative aux représentations.
Comme nous l’avons vu il y a un instant, Coltheart et collègues font l’hypothèse d’une représentation des relations orthographe-son par un répertoire de correspondances graphème-phonème dans lequel la prononciation la plus fréquente de chaque graphème de la langue est indiquée.
Une question non résolue est celle de la nature exacte des représentations contenues dans ce répertoire. Trois alternatives peuvent être envisagées.
1. Celle de règles de correspondance choisie par Coltheart et collègues qui suppose que chaque graphème active un seul associé phonémique avec une force constante quelle que soit la prédictibilité de cette prononciation dans la langue.
2. Celle d’associations simples qui suppose une représentation graduelle de la régularité, avec une prononciation qui serait activée de manière variable suivant la force d’association entre un graphème et sa prononciation dans la langue.
3. Celle d’associations multiples qui suppose une représentation de tous les associés phonémiques d’un graphème, avec activation des associations minoritaires à côté de l’association la plus fréquente, avec une force qui varie suivant la prédictibilité de l’association dans la langue.
Pour Coltheart et collègues il n’y aurait actuellement aucune donnée impliquant une représentation plus riche que celle capturée par des règles. Mais en réalité, la question de la représentation graduelle ou non des associations graphème-phonème n’a jusqu’à présent jamais été réellement directement évaluée. La raison principale en est qu’une telle évaluation nécessite l’accès à une estimation de l’ambiguïté relative des différentes prononciation des graphèmes. Or de telles données sont actuellement absentes ou difficilement exploitables.
Une contribution importante de cette étude a dès lors été l’établissement d’analyses des associations graphème-phonème, de l’anglais d’une part, pour les études menées pendant mon séjour à Cambridge, du français d’autre part, pour les études réalisées à Bruxelles.
Ces analyses ont pour objet l’établissement d’une table reprenant pour chacune des associations graphème-phonème de la langue une estimation de la fréquence avec laquelle cette association apparaît dans la langue.
Les analyses ont été effectuées séparément pour les associations du français et de l’anglais. Celles du français portaient sur un corpus d’environ 20.000 mots de 1 à 3 syllabes et celles l’anglais sur un corpus d`environ 20.000 mots de 1 ou 2 syllabes avec leur prononciation britannique.
La méthodologie adoptée ensuite procède en 3 étapes.
La première consiste à déterminer les associations qui seront reprises dans la table.
Elle implique d’abord des critères généraux. Dans notre étude, il s’agissait principalement de la décision d’inclure dans la table des graphèmes marqués pour les contextes qui modifient de manière systématique la prononciation d’un graphème. Par exemple, inclure le graphème Ceiy pour représenter le C qui se prononce systématiquement « SE » devant « E, I, Y », ou le graphème Sfin pour représenter le S qui comme les autres consonnes du français est muet en fin de mot.
Cette première étape se caractérise aussi par de nombreuses décisions au cas par cas pour déterminer quels groupements de lettres on choisit de considérer comme des graphèmes, à savoir des unités fonctionnelles pour la prononciation. Par exemple, pour clef, on pourrait hésiter entre soit isoler EF comme un graphème ou soit, par analogie avec CHEF, considérer que EF se décompose en deux graphèmes, E associé au phonème /é/ et F associé à un silence. C’est la dernière option que nous avons le plus souvent choisie.
La seconde étape, consiste à segmenter chacune des formes orthographiques et phonologiques du corpus en graphèmes et phonèmes.
Dans nos analyses, un programme informatique a été écrit pour effectuer cette segmentation de manière à assurer la plus grande systématicité de codage possible. Les analyses perdraient en effet beaucoup de leur valeur si les segmentations étaient inconsistantes d’un mot à l’autre (par exemple EF en un graphème dans CLEF par analogie avec CHEF mais ED en deux graphèmes dans PIED).
L’étape finale est celle du décompte. Pour chaque mot du corpus, la forme orthographique segmentée en graphèmes et la forme phonologique
segmentée en phonèmes, sont parcourues de gauche à droite. Chaque fois qu’une certaine association entre graphème et phonème est rencontrée, sa valeur de fréquence est augmentée de 1.
Une fois le décompte effectué, des estimations de la régularité non seulement dichotomiques mais aussi graduelles peuvent être dérivées.
Ainsi, si l’on se fie à nos tables, le graphème Ceiy (C suivi de E, I ou Y) n’a qu’une prononciation, /s/ qui apparaît dans 44 mots. Le graphème C en a 3, /k/ comme dans COUP qui apparaît dans 165 mots, silence comme dans CLERC qui apparaît dans 12 mots et g qui n’apparaît que dans un seul mot monosyllabique, ZINC.
Ces différentes valeurs de fréquence d’association permettent d’établir la prononciation régulière pour chaque graphème. C’est simplement l’associé le plus fréquent d’un graphème, soit /s/ pour Ceiy et /k/ pour C.
Ces valeurs de fréquence permettent également la dérivation de diverses estimations graduelles de la régularité. Une seule est décrite ici, la probabilité de l’association entre graphème et phonème. Elle mesure la probabilité qu’un graphème donné soit prononcé par un certain associé phonémique. Ici, on voit que la prononciation /s/ de Ceiy est parfaitement prédictible alors que la prononciation /k/ de C bien que très probable n’est pas parfaitement prédictible.
Venons-en aux expériences qui tirent parti de ces analyses.
La plupart utilisent une tâche de dénomination, de mots, et plus souvent de non-mots reconnus pour solliciter de manière maximale les systèmes de transcodage.
Voici comment les choses se déroulent pour chaque participant dans ce type de tâche: un signal puis un écran blanc puis un mot ou un non-mot apparaissent au centre d’un écran d’ordinateur. Le participant a pour consigne de dénommer, c’est à dire lire à voix haute, le mot le plus rapidement possible, sans faire d’erreur.
Comme cette tâche présente l’inconvénient d’une part d’ inclure des temps de traitement liés à la programmation articulatoire et d’autre part de refléter d’éventuelles différences de sensibilité du micro au premier son prononcé (une sifflante comme S est connue pour déclencher le micro avec retard), traditionnellement on présente également les mêmes items dans une tâche de dénomination différée pour mesurer l’impact de ces deux facteurs sur les effets observés.
Ici, le participant voit un signal puis un mot apparaître au centre de l’écran mais il a pour consigne de ne pas dénommer le mot immédiatement mais d’attendre un signal de réponse pour le faire.
Des scores de différence sont alors calculés en soustrayant les temps de dénomination différée aux temps de dénomination immédiate de manière à atteindre une meilleure estimation des variations dans la performance induites par le transcodage.
Deux expériences exploratoires ont été menées avec ce type de paradigme pendant mon séjour à Cambridge. Elles montrent un effet de la régularité des associations GP en dénomination de mots ainsi qu’une contribution significative de la valeur moyenne de probabilité des associations graphème-phonème, au-delà de la catégorie de régularité, sur ces mêmes temps.
Elles ont été complétées à mon retour à Bruxelles par une troisième expérience qui évalue l’effet de la manipulation de l’entropie moyenne de graphèmes d’un non-mot. Cette variable, que je n’ai pas encore présentée donne une estimation de l’incertitude de la prononciation du graphème. Sa valeur augmente en fonction du nombre d’associés phonémiques et de la similarité des valeurs de probabilité d’association de ces différents associés. Plus concrètement, elle vaut 0 quand un graphème n’a qu’une association de probabilité 1, elle est maximale quand les différentes prononciations d’un graphème sont équiprobables.
Le matériel est composé de non-mots qui ont pour moitié des valeurs moyenne d’entropie de graphèmes élevées parce que le non-mot contient une association régulière mais non systématique (comme celle du G vers /g/ dans GATTE) et pour moitié des valeurs faibles parce le non-mot contient une association régulière et systématique (comme celle du V dans VATTE).
Notre manipulation donne les résultats suivants: quand on compare les temps de dénomination pour deux listes de non-mots, comparables par rapport à une série de caractéristiques orthographiques, mais de valeurs moyennes d’entropie de graphème soit élevée pour des non-mots comme GATTE, soit faible pour des non-mots comme VATTE, on observe que les premiers sont dénommés plus lentement.
Nous statuons que cet effet du degré d’incertitude de la prononciation de graphèmes réguliers remet en question l’hypothèse de règles et ne peut être expliqué qu’en faisant au moins l’hypothèse d’associations simples, avec une efficacité de la traduction d’un graphème variable en fonction de la prédictibilité de sa prononciation la plus fréquente.
A noter, 30% des erreurs de prononciation produites dans cette expérience sont des erreurs d’assignation des correspondances où une association minoritaire du graphème est donnée en lieu et place de l’association régulière attendue. Ceci pourrait indiquer que les associations sont multiples plutôt que simples.
Ping : Présentation thèse de M. Lange (2) | Pontt
Ping : Des graphèmes aux phonèmes. M. Lange | Pontt