L’organisation cérébrale fonctionnelle du langage oral et ...
Transcript of L’organisation cérébrale fonctionnelle du langage oral et ...
1
L’organisation cérébrale fonctionnelle du langage oral et son développement
Cécile Colin
Institut de Neurosciences Cognitives de la Méditerranée, CNRS - Marseille
Résumé
La première section de ce chapitre sera consacrée à l’étude des substrats neuraux du langage
oral. Dans un premier temps, nous passerons brièvement en revue les études d’imagerie cérébrale
mettant en lumière les aires cérébrales activées par la parole auditive et leur rôle fonctionnel.
Partant de l’idée que la parole est, par nature, le plus souvent multimodale, nous nous pencherons
ensuite sur l’organisation cérébrale sous -jacente à la parole visuelle et, enfin, plus particulièrement
sur les zones cérébrales impliquées dans l’intégration de la parole audiovisuelle. La deuxième
section sera consacrée à l’examen du décours temporel des activations cérébrales relatives à la
perception du langage oral. Nous nous pencherons principalement sur les données issues de la
technique des Potentiels Evoqués cérébraux (PE) qui offre une remarquable résolution temporelle.
Une troisième section sera consacrée à la question de la spécialisation hémisphérique gauche pour
la perception de la parole. Celle -ci repose-t-elle sur des mécanismes acoustiques ou spécifiquement
linguistiques ? La question du développement ontogénétique de l’organisation cérébrale
fonctionnelle du langage oral sera également envisagée dans une quatrième section. Cette
organisation est-elle donnée d’emblée ou se développe -t-elle par apprentissage ? Dans ce cadre, le
rôle de l’expérience linguistique et de l’expérience sensorielle sur le modelage des systèmes
responsables du traitement du langage oral seront envisagés. Enfin, nous nous demanderons si la
parole possède d’entrée de jeu une composante audiovisuelle ou si celle -ci se met progressivement
en place par contact avec des visages parlants.
2
I. Les Substrats neuraux de la parole orale
I.1. La parole auditive
Avant d’aborder l’organisation fonctionnelle des aires cérébrales jouant un rôle dans le
traitement de la parole auditive, il nous paraît utile de faire un bref récapitulatif anatomique des
principales structures impliquées dans la perception de la parole auditive, mais aussi, comme nous
le verrons, dans la perception de la parole visuelle et dans l’intégration audiovisuelle.
Chez l'être humain, les aires auditives sont situées au niveau de la 1ère circonvolution
temporale (ou gyrus temporal supérieur) dont la face supérieure est profondément enfouie dans la
scissure de Sylvius. Ce gyrus présente dans sa partie postérieure une circonvolution transverse
appelée gyrus transverse ou gyrus de Heschl qui correspond aux aires de Brodmann (BA pour
Brodmann Areas) 41 et 42 et qui forme le cortex auditif primaire.
Le cortex auditif secondaire, quant à lui, se situe autour et en arrière des gyri transverses de
Heschl (BA 22) ; il correspond essentiellement à l’aire de Wernicke (partie postérieure de la face
externe de la première circonvolution temporale, incluant le planum temporale).
Enfin, l’aire de Broca, bien connue pour son rôle dans la production de la parole, semble
également impliquée dans les processus perceptifs. Cette aire est localisée au niveau du cortex
frontal inférieur gauche (troisième circonvolution frontale) et correspondant aux aires de Brodmann
44 et 45.
Nous allons à présent décrire les principales zones cérébrales impliquées dans les processus
de perception de la parole auditive, en fonction de la complexité des processus en question.
Lors de l’écoute passive de stimuli auditifs non linguistiques (clics, sons purs, …), on
remarque une activation du cortex auditif primaire, de façon bilatérale (Binder, Rao, Hammeke,
Yetkin, Jesmanowicz, Bandettini, Wong, Estkowski, Goldstein, Haughton & Hyden, 1994). Plus le
signal acoustique est simple (e.g. clic), plus cette activation est localisée au centre du cortex. Plus
celui-ci est complexe (bruits filtrés, sons comprenant plusieurs fréquences, …), plus l’activation
3
s’étend vers les régions corticales adjacentes. Le cortex auditif primaire serait ainsi responsable de
l’analyse acoustique précoce des sons ; il traite les bruits et les sons sans les interpréter. Notons
également que le cortex auditif primaire se caractérise par une organisation tonotopique. En d’autres
termes, différentes zones du cortex auditif primaire sont activées en fonction du contenu fréquentiel
du signal acoustique. La tonotopie est un principe général de l'organisation fonctionnelle du cortex
auditif présent du niveau cochléaire jusqu'au niveau cortical. A chaque portion de la cochlée
correspond une zone corticale.
Lors de l’écoute passive de stimuli linguistiques, on observe une activation du cortex auditif
primaire, mais également du cortex auditif secondaire, de façon bilatérale (Petersen, Fox, Posner,
Mintun & Raichle, 1988 ; Zatorre, Evans, Meyer & Gjedde, 1992 ; Mazoyer, Tzourio, Frak, Syrota,
Murayama, Levrier, Salamon, Dehaene, Cohen & Mehler, 1993 ; Binder et al., 1994). Cette
activation est indépendante du statut lexical des items présentés puisqu’elle a été démontrée aussi
bien pour des mots que pour des pseudo-mots.
Lorsque les participants doivent effectuer une tâche de nature phonologique (par exemple,
une tâche de jugement de rimes), plusieurs auteurs ont mis en évidence, une activation des cortex
auditifs primaires et secondaires (et en particulier de l’aire de Wernicke) s’étendant vers les gyri
temporaux moyens et inférieurs, avec un avantage de l’hémisphère gauche d’autant plus important
que la tâche est complexe (Démonet, Chollet, Ramsay, Cardebat, Nespoulous, Wise, Rascol &
Frackowiak, 1992 ; Mazoyer et al., 1993 ; Buchsbaum, Hickok & Humphries, 2001). Plus la tâche
est complexe, plus l’activation est étendue et plus l’asymétrie gauche-droite est marquée. L’analyse
phonologique suscite également une activation de l’aire de Broca, moins importante toutefois que
celle observée au niveau des aires temporales (Démonet et al., 1992 ; Zatorre, Meyer, Gjedde &
Evans, 1996 ; Binder, Frost, Hammeke, Cox, Rao & Prieto, 1997). Selon Zatorre et al. (1996), pour
être en mesure d’effectuer le jugement phonologique, les participants doivent pouvoir accéder à une
représentation articulatoire des stimuli impliquant les circuits neuronaux de l’aire de Broca.
L’activation de l’aire de Broca dans des tâches perceptives suggère un lien étroit, sur lequel nous
4
reviendrons, entre perception et production. Notons qu’un tel lien a également été pointé par
d’autres auteurs suite à des études d’Imagerie par Résonance Magnétique fonctionnelle (IRMf)
comparant perception et production de la parole. D’une part, Buchs baum et al. (2001) ont observé
que la réalisation d’une tâche perceptive phonologique et la production (silencieuse) de pseudo-
mots activaient des aires se recouvrant partiellement au niveau de la partie postérieure du gyrus
temporal supérieur. D’autre part, Wilson, Saygin, Sereno et Iacoboni (2004) ont montré que la
perception passive de monosyllabes active des aires localisées au sein du cortex pré-moteur ventral
recouvrant largement les aires impliquées dans la production de la parole.
Enfin, lorsque les participants doivent effectuer une analyse sémantique des stimuli
linguistiques, de nombreux auteurs (Mazoyer et al., 1993 ; Vandenberghe, Price, Wise, Josephs &
Frackowiak, 1996 ; Binder et al., 1997) ont observé une activation de structures assez dispersées,
principalement au niveau du gyrus temporal moyen et du gyrus temporal inférieur (BA 21), ainsi
qu’au niveau du gyrus angulaire (BA 39), une zone qui a aussi été décrite comme étant impliquée
dans la compréhension du langage écrit (Petersen et al., 1988). Dans toutes les études, l’activation
suscitée par une tâche sémantique était plus étendue à gauche qu’à droite.
En résumé, la parole auditive est essentiellement traitée au sein du cortex temporal.
L’analyse acoustique précoce serait réalisée par le cortex auditif primaire (gyrus temporal
supérieur), tandis que l’analyse linguistique recruterait également le cortex auditif secondaire ainsi
que les gyri temporaux moyens et inférieurs. En fonction du type de tâche réalisée sur le matériel
linguistique, d’autres aires cérébrales peuvent également être impliquées, telles que l’aire de Broca
(pour l’analyse phonologique) et le gyrus angulaire (pour l’analyse sémantique). Globalement, on
note que plus la tâche est complexe, plus les zones activées sont larges et plus la spécialisation
hémisphérique est marquée à gauche.
I.2. La parole visuelle
5
Si l’hémisphère gauche est davantage impliqué que l’hémisphère droit dans le traitement de
la parole auditive, on peut supposer qu’il en sera de même pour le traitement de la parole visuelle.
Toutefois, en tant que processus utilisant l’information portée par une partie du visage, on pourrait
également faire l’hypothèse d’une spécialisation hémisphérique droite. La majorité des études
conçues pour répondre à cette question ont été menées par l’équipe de Ruth Campbell en Grande
Bretagne à l’aide de méthodes comportementales et de l’étude de cas neuropsychologiques dans un
premier temps et plus récemment, à l’aide de l’imagerie cérébrale.
Campbell (1986) a demandé à des participants d’apparier des photographies de visages
articulant des sons de parole à des phonèmes présentés auditivement. Les résultats étaient meilleurs
lorsque les photos étaient présentées à l’hémichamp visuel gauche (hémisphère droit). Toutefois,
Campbell (1986) n’exclut pas la possibilité que l’avantage de l’hémisphère droit ait été provoqué du
fait de l’engagement préalable de l’hémisphère gauche dans le traitement des sons oraux. Dans une
étude ultérieure (Campbell, de Gelder & de Haan, 1996), la tâche proposée aux sujets consistait à
apparier, entre elles, des photos de locuteurs articulant la même syllabe (il s’agissait de photos
représentant des locuteurs différents ou le même locuteur mais photographié sous différents angles).
Cette fois, un avantage de l’hémisphère gauche a été observé. Des résultats similaires ont été
obtenus par Smeele, Massaro, Cohen & Sittig (1998) dans une tâche d’identification de syllabes
Consonne-Voyelle (CV) présentées visuellement. Les syllabes étaient mieux identifiées lorsqu’elles
étaient présentées à l’hémichamp droit.
Dans le cadre d’une étude neuropsychologique de deux patientes, Campbell, Landis et
Regard (1986) ont mis en évidence une dissociation entre traitement linguistique et non linguistique
lié au visage, démontrant également l’implication de l’hémisphère gauche dans le traitement de la
lecture labiale. Alors qu’elle était prosopagnosique, l’une des deux patientes (lésion pariétale
postérieure droite), était normalement compétente en lecture labiale. L’autre patiente (souffrant
d’une lésion occipito-temporale gauche) reconnaissait parfaitement les visages, mais était incapable
de lire sur les lèvres. Notons toutefois que de Gelder, Vroomen & Bachoud-Levi (1998) ont
6
rapporté un déficit partiel des capacités de lecture labiale chez une patiente atteinte d’agnosie
visuelle suite à une lésion occipitale droite.
Bien qu’un vaste ensemble de données soient en faveur d’une implication de l’hémisphère
gauche dans le traitement de la lecture labiale, le rôle de l’hémisphère droit n’est sans doute pas
négligeable. Selon Campbell (1996), on peut concevoir la lecture labiale comme un ensemble de
fonctions relatives à la parole et localisées au niveau de l’hémisphère gauche. Pour reprendre ses
propres termes, on peut dire que « speechreading is more like hearing than seeing ». Toutefois,
Campbell (1987 ; 1996) propose que le rôle de l’hémisphère droit pourrait être de traiter, peut-être
mieux ou plus rapidement que l’hémisphère gauche, certains aspects de l’information visuelle, tels
que les processus visuo-structurels de bas niveau (e.g. forme des lèvres). Ensuite, cette information
de nature visuelle serait envoyée vers les sites corticaux (probablement localisés à gauche)
responsables de son intégration avec la parole auditive ou, à défaut d’input auditif, de son
interprétation en termes phonologiques. Nous reviendrons sur cette hypothèse dans la section
consacrée à l’intégration audiovisuelle.
Envisageons à présent, à l’aide d’études plus récentes faisant appel à l’imagerie cérébrale,
quels pourraient être les sites corticaux impliqués dans le traitement phonologique des gestes
articulatoires.
Calvert, Bullmore, Brammer, Campbell, Williams, McGuire, Woodruff, Iversen et David
(1997) ont été les premiers à démontrer , à l’aide de l’IRMf que l’identification de matériel verbal
présenté en lecture labiale active non seulement des aires occipitales (le cortex visuel extrastrié ou
BA 19), occipito-temporales (le lobe temporal inféro-postérieur ou BA 37) et occipito-pariétales (le
gyrus angulaire ou BA 39), mais aussi les aires auditives primaires et secondaires (BA 41, 42 et 22),
avec une prépondérance de l’hémisphère gauche. Les aires auditives gauches n’étaient toutefois pas
activées par des mouvements non articulatoires de la bouche. Ces données suggèrent donc
l’existence d’une relation anatomique étroite entre la perception auditive et la perception visuelle de
la parole et indiquent que les aires auditives seraient responsables de l’analyse phonologique des
7
stimuli auditifs, mais aussi des gestes articulatoires. La parole visuelle, silencieuse, a donc le
pouvoir d’activer des parties du système de traitement de la parole qui étaient jusqu’alors
considérées comme dévolues exclusivement au traitement de la modalité auditive.
Ces résultats ont été reproduits ultérieurement par MacSweeney, Amaro, Calvert, Campbell,
David, McGuire, Williams, Woll & Brammer (2000) qui, en séparant dans le temps l’acquisition
des images et la présentation des stimuli, ont pu éliminer le facteur confondant du bruit du scanner.
Ce bruit peut, en effet, atteindre 90 dB et aurait pu, à lui seul, être responsable de l’activation des
aires auditives trouvée par Calvert et al. (1997). Par ailleurs, l’activation du cortex auditif primaire
par la parole visuelle a été tout récemment confirmée par Pekkola, Ojanen, Autti, Jääskelainen,
Möttönen, Tarkiainen et Sams (2005) en utilisant l’IRMf à 3 tesla et en définissant précisément le
cortex auditif primaire de chaque participant. Notons, à nouveau, que cette activation était beaucoup
plus importante, et plus latéralisée à gauche, pour la lecture labiale que pour des stimuli non
linguistiques mais en partageant certaines propriétés (des cercles en mouvement).
Toutefois, des données partiellement contradictoires ont été obtenues par Bernstein, Auer,
Moore, Ponton, Don & Singh (2002). En utilisant également l’IRMf, ces auteurs n’ont pas obtenu
d’activation du cortex auditif primaire par la parole visuelle. Par contre, les aires auditives
correspondant en bonne partie à celles mises en évidence par Calvert et al. (1997) en dehors du
cortex auditif primaire ont bien été activées dans l’étude de Bernstein et al. (2002). Il s’agissait en
particulier du gyrus temporal supérieur, du gyrus temporal moyen et du sillon temporal supérieur
(STS) qui sépare le gyrus temporal supérieur du gyrus temporal moyen. Selon Bernstein et al.
(2002), l’information visuelle ne serait donc pas injectée au système auditif au niveau du cortex
auditif primaire à partir duquel elle suivrait la même voie de traitement que l’information auditive,
mais elle serait injectée lors d’une étape plus tardive du traitement, lors de l’analyse phonologique,
voire sémantique.
Enfin, il faut citer, entre autres, les travaux de Campbell, MacSweeney, Surgula dze, Calvert,
McGuire, Suckling, Brammer et David (2001) et de Callan, Jones, Munhall, Callan, Kroos et
8
Vatikiotis-Bateson (2003) montrant une activation des aires motrices dans le traitement de la parole
visuelle. Ceci renforce l’hypothèse émise par Zatorre et al. (1996) selon laquelle ces aires
permettent l’accès à une représentation articulatoire des stimuli linguistiques.
La parole étant par nature multimodale, et principalement audiovisuelle, il convient à
présent de s’intéresser aux substrats neuraux de l’intégration audiovisuelle.
I.3. La parole audiovisuelle
Un des principaux paradigmes utilisés pour étudier les mécanismes sous -jacents à
l’intégration audiovisuelle dans la perception de la parole est celui de l’effet McGurk (McGurk &
MacDonald, 1976). Ce paradigme consiste à présenter un signal linguistique auditif (e.g. une
syllabe CV) en même temps qu’un visage articulant des mouvements articulatoires ne
correspondant pas à ce signal auditif (e.g. une autre syllabe CV). Dans ce cas, les participants
rapportent avoir entendu un percept qui ne correspond ni à l’information auditive, ni à l’information
visuelle. Deux types d’illusions ont été décrites : les fusions et les combinaisons. Dans le cas des
fusions, une syllabe comportant une consonne bilabiale (e.g. /bi/) est présentée auditivement tandis
que les mouvements des lèvres du locuteur articulent une syllabe comportant une consonne vélaire
(e.g. /gi/). Les participants rapportent classiquement avoir entendu /di/, c’est-à-dire un percept
intermédiaire entre les signaux des deux modalités. Dans le cas des combinaisons (la vélaire est
présentée auditivement et la bilabiale est présentée visuellement), les participants combinent ces
deux éléments pour percevoir /bgi/. On peut expliquer l’occurrence des fusions et des combinaisons
en terme de saillance perceptive. En effet, visuellement, la saillance serait plus importante pour les
consonnes bilabiales que pour les vélaires (e.g. Walden, Prosek, Montgomery, Scherr & Jones,
1977), tandis qu’auditivement la saillance augmente à mesure que le point d’occlusion recule dans
la bouche, l’énergie de l’explosion étant plus importante pour les consonnes vélaires que pour les
bilabiales (Dorman, Studdert -Kennedy & Raphaël, 1977). Dans le cas des combinaisons, où l’on
perçoit à la fois la composante acoustique et la composante visuelle, l’information visuelle d’une
9
bilabiale /p/ ou /b/ est tellement saillante qu’elle ne peut être ignorée ; il en est de même pour
l’information phonétique fournie par /k/ ou /g/. Les deux modalités sont donc naturellement
combinées. Pour les fusions, l’information visuelle de la consonne vélaire et l’information
acoustique de la bilabiale sont plus ambiguës. Les visèmes /g/ et /k/ sont associés à plusieurs lieux
d’articulation possibles, tandis que, sur le plan acoustique, l’explosion des bilabiales est peu
saillante. Cette double ambiguïté mènerait à un percept intermédiaire entre le son et l’image (/d/).
Pour une revue des illusions McGurk dans la perception de la parole, voir Colin & Radeau (2003),
Hardison (1996), Massaro (1998).
L’intérêt de l’effet McGurk est de démontrer que la lecture labiale ne contribue pas
seulement à la perception de la parole lorsque le message auditif est dégradé (bruit, surdité, …)
mais aussi lorsque le signal auditif est clair et non ambigu. L’utilisation de la lecture labiale dans la
perception de la parole semble donc spontanée et irrépressible. L’effet McGurk a ainsi été utilisé
par de nombreux auteurs comme paradigme d’étude des mécanismes sous-jacents à l’intégration
audiovisuelle dans la perception de la parole et de leurs substrats neuraux.
Comme pour la parole visuelle, nous passerons d’abord en revue les études
comportementales et neuropsychologiques principalement dédiées à examiner la spécialisation
hémisphérique sous-jacente à la perception audiovisuelle de la parole. Dans un deuxième temps, par
le biais des études d’imagerie cérébrale, nous aborderons plus précisément l’étude des sites
corticaux responsables de l’intégration audiovisuelle.
Des données en faveur d’une implication prépondérante de l’hémisphère gauche ont été
obtenues par Campbell, Garwood, Franklin, Howerd, Landis et Regard (1990) sur base de quatre
cas neuropsychologiques. Deux patients avaient une lésion postérieure droite et souffraient de
prosopagnosie. Ils lisaient, par contre, sans problème sur les lèvres et étaient sensibles à l’effet
McGurk. Les deux autres patients étaient atteints d’une lésion gauche. Le premier souffrait
d’aphasie mais était toujours capable de lire sur les lèvres et manifestait énormément de captures
visuelles face à l’effet McGurk. Le second, n’était pas aphasique, mais ne pouvait cependant pas
10
lire sur les lèvres et n’était pas sensible à l’effet McGurk. Les auteurs suggèrent qu’au sein de
l’hémisphère gauche, des fonctions séparées seraient impliquées dans la lecture labiale et dans la
parole auditive. L’intégration audiovisuelle serait réalisée par un processeur phonologique amodal.
Si ce processeur est isolé des entrées auditives, le patient tient excessivement compte de la lecture
labiale (cas du premier patient atteint d’une lésion gauche). Si le processeur amodal est déconnecté
des entrées visuelles, le patient ne rapportera que l’information auditive dans le cas de stimuli
audiovisuels incongrus (second cas de lésion gauche).
Si l’hémisphère gauche exerce un rôle prépondérant dans le traitement de la parole
audiovisuelle, quelques données indiquent toutefois que l’hémisphère droit pourrait, lui aussi, y
apporter une contribution non négligeable.
Baynes, Funnel et Fowler (1994) ont exposé des participants de contrôle droitiers, un patient
commissurotomisé et quatre patients souffrant d’épilepsie (servant de « contrôle » par rapport au
patient commissurotomisé) à des stimuli audiovisuels incongrus, articulés par un locuteur dont le
visage apparaissait dans l’hémichamp gauche ou droit. Par la suite, des paires de mots écrits étaient
présentées dans l’un des deux hémichamps visuels et les participants devaient alors choisir le mot
qui correspondait à leur perception. L’influence visuelle a été la plus importante lorsque les mots
écrits étaient présentés à l’hémichamp droit (hémisphère gauche) et lorsque les visages étaient
projetés dans l’hémichamp gauche (hémisphère droit). Il ne nous semble toutefois pas exclu que ces
résultats puissent être partiellement dus à une supériorité de l’hémisphère droit pour le traitement
des visages et de l’hémisphère gauche pour le traitement des mots écrits, indépendamment de la
latéralisation des processus d’intégration audiovisuelle. En ce qui concerne le patient
commissurotomisé, des réponses d’intégration ont été obtenues quel que fût l’hémichamp de
présentation des stimuli visuels, mais en moins grand nombre que chez les patients épileptiques ou
que chez les participants de contrôle. Les auteurs ont déduit de ces résultats que les deux
hémisphères contribuent à l’intégration de la parole audiovisuelle. Notons que Campbell (1992) a
aussi examiné un patient commissurotomisé exposé à des syllabes audiovisuelles congruentes et
11
incongrues. Comme le patient testé par Baynes et al. (1994), ce dernier a fourni des réponses
audiovisuelles, mais dans une moindre mesure que des participants de contrôle.
Diesch (1995) a également décrit un apport des deux hémisphères dans l’effet McGurk. A
chaque essai, deux visages étaient présentés : l’un à gauche et l’autre à droite d’un point de fixation.
De façon imprévisible, un des deux visages articulait une syllabe, tandis qu’un son congruent ou
incongru émanait de deux haut-parleurs situés de chaque côté de l’écran. Les réponses de type
fusion ont été rapportées plus fréquemment lorsque le visage apparaissait dans l’hémichamp gauche
(hémisphère droit). Le pattern inverse a été observé pour les combinaisons. Diesch explique
l’avantage de l’hémisphère droit pour les fusions en termes d’analyse visuo-spatiale. En effet, les
consonnes visuelles donnant lieu aux fusions (des vélaires) sont moins saillantes que les bilabiales
qui suscitent des combinaisons. Par conséquent, le traitement lors des fusions nécessite une analyse
visuo-spatiale plus élaborée. Cette dernière serait une fonction de l’hémisphère droit. La supériorité
de l’hémisphère gauche pour les combinaisons a été attribuée au poids perceptif plus important
imposé au codage phonétique par les stimuli complexes impliqués dans ces percepts. Or, le codage
phonétique serait réalisé par l’hémisphère gauche. Cette hypothèse nous semble difficilement
conciliable avec le fait que les stimuli impliqués dans les combinaisons sont particulièrement
saillants, à la fois au niveau visuel et au niveau auditif. L’analyse phonétique ne serait donc pas plus
complexe que pour les fusions, au contraire.
Bien que les données comportementales en faveur d’une implication des deux hémisphères
dans l’intégration audiovisuelle ne nous paraissent pas complètement convaincantes, il est
vraisemblable, comme l’indiquent les données issues des deux patients commissurotomisés, que
l’hémisphère droit joue un rôle, sinon équivalent à celui de l’hémisphère gauche, au moins non
négligeable. Nous en revenons donc à l’hypothèse émise par Campbell (1996) et déjà exposée dans
la section concernant les substrats neuraux de la parole visuelle. En cas de stimulation bimodale, la
fonction de l’hémisphère droit pourrait être de traiter certains aspects relatifs à la lecture labiale
12
(telle que l’analyse visuo-structurelle) et d’ensuite fournir cette information aux sites responsables
de leur interprétation phonologique et de leur intégration avec un éventuel signal auditif.
Reste à présent à déterminer quels sites corticaux particuliers seraient impliqués dans un tel
processus.
Un des travaux pionniers est celui de Sams, Aulanko, Hämäläinen, Hari, Lounasmaa, Lu et
Simola (1991). A l’aide de la magnétoencéphalographie (MEG), ces auteurs ont montré que la
présentation de syllabes audiovisuelles incongrues, parmi une séquence de syllabes audiovisuelles
congruentes, suscitait une activation magnétique différentielle au niveau du gyrus temporal
supérieur. En 1996, Sams et Levänen ont reproduit la même étude en considérant les deux
hémisphères cérébraux (seul l’hémisphère gauche avait été pris en compte lors de l’étude de 1991).
La différence d’activation magnétique entre les syllabes audiovisuelles congruentes et incongrues a
été retrouvée au niveau des gyri temporaux supérieurs bilatéraux, mais elle était toutefois
globalement plus marquée à gauche.
L’implication de la région temporale dans l’intégration de la parole audiovisuelle a été
confirmée ultérieurement par plusieurs équipes. A insi, à l’aide de l’IRMf, Calvert, Brammer,
Bullmore, Campbell, Iversen et David (1999) ont examiné les zones cérébrales spécifiquement
impliquées dans la parole audiovisuelle par rapport à la parole auditive et à la parole visuelle. Par
rapport aux conditions unimodales, ces chercheurs ont découvert une augmentation d’activation
bilatérale au niveau d’aires visuelles (BA 19 et 37), ainsi qu’au niveau des aires auditives bilatérales
(BA 41 et 42)1. Notons que l’activation au niveau des aires auditives était plus étendue à gauche
qu’à droite. De façon assez surprenante, aucune contribution émanant d’une autre zone cérébrale,
représentant un site possible d’intégration multimodale, n’a été constatée. Selon les auteurs, la
possibilité qu’une aire d’intégration soit impliquée dans la parole audiovisuelle n’est cependant pas
1 L’implication des aires auditives dans l’intégration audiovisuelle a été récemment confirmée chez le singe rhésus par Ghazanfar, Maier, Hoffman et Logothetis (2005) dans une étude portant sur l’intégration entre des visages articulant des cris spécifiques de l’espèce et le son correspondant. Les Potentiels Evoqués étaient modulés par la présentation bimodale des stimuli au niveau du cœur et de la ceinture latérale du cortex auditif, aires qui sont, respectivement, considérées comme les homologues des aires auditives primaires et secondaires chez l’humain.
13
à exclure. Ils émettent l’hypothèse qu’un candidat probable serait le STS. En effet, chez le singe,
cette structure reçoit les entrées convergentes des cortex auditif, visuel et somatosensoriel et
comporte des neurones multimodaux (Jones & Powell, 1970), ce qui suggère un rôle potentiel dans
l’intégration multimodale. Par ailleurs, Barraclough, Xiao, Baker, Oram et Perrett (2005) ont
récemment démontré son implication, chez le singe rhésus, dans l’intégration entre la vue d’une
action et le son correspondant à cette action. Chez l’être humain, le STS serait impliqué dans la
perception phonétique (Binder et al., 1994 ; Binder, Frost & Hammeke, 1996) et dans la lecture
labiale (Bernstein et al., 2002 ; Calvert & Campbell, 2003).
Récemment, un nombre conséquent d’études d’imagerie cérébrale ont précisément pointé le
rôle du STS dans l’intégration audiovisuelle. Une activation spécifique du STS (et en particulier de
sa région postérieure) en réponse à des stimuli linguistiques audiovisuels a ainsi été trouvée par
Callan et al. (2003), Calvert, Campbell et Brammer (2000), Fingelkurts, Fingelkurts, Krause,
Möttönen et Sams (2003), Jones et Callan (2003), Macaluso, George, Dolan, Spence et Driver
(2004), Sekiyama, Kanno, Miura et Sugita (2003) ainsi que par Wright, Pelphrey, Allison,
McKeown et McCarthy (2003). Ces études indiquent également que l’activation du STS semble être
modulée par la qualité du signal audiovisuel d’entrée. Ainsi, l’activation est moins prononcée
lorsque les signaux auditifs et visuels sont incongrus que lorsqu’ils sont congruents (Wright et al.,
2003). Cette observation a été interprétée comme un argument supplémentaire en faveur du rôle du
STS dans le traitement des stimuli qui ont une pertinence sociale (e.g. dans l’analyse du regard).
Dans le même ordre d’idées, Fingelkurts et al. (2003) ont montré que l’activation du STS était
moins importante pour les participants qui étaient peu ou pas sensibles à l’effet McGurk.
L’activation serait, par contre, d’autant plus forte que le signal auditif est présenté dans du bruit
(Callan et al., 2003 ; Sekiyama et al., 2003), ce qui confirme l’observation comportementale selon
laquelle la lecture labiale contribue d’autant plus à la perception que le signal auditif est peu clair
(Sumby & Pollack, 1954) 2. Enfin, l’activation du STS est aussi plus forte lorsque les stimuli
2 Ces observations peuvent être mises en relation avec la règle d’efficacité inverse mise en évidence par Meredith et Stein (1983) pour les neurones multimodaux du colliculus supérieur. Chez le chat, ces neurones répondent de façon
14
audiovisuels sont synchrones que lorsqu’ils sont désynchronisés (Macaluso et al., 2004). Ceci
confirme également une observation comportementale : l’effet McGurk est affecté lorsque les
signaux auditifs et visuels sont désynchronisés (e.g. Jones & Munhall, 1996; Massaro, Cohen &
Smeele, 1996). Notons toutefois que le système perceptif tolère une désynchronisation d’au moins
200 msec. lorsque l’image précède le son, mais seulement de quelques dizaines de secondes dans le
cas contraire. En résumé, il semble donc que l’implication du STS dans l’intégration audiovisuelle
de la parole soit d’autant plus importante que l’intégration est facilitée par les propriétés des stimuli
(synchronie et congruence) ou par celles du système perceptif (sujets particulièrement compétents à
intégrer les signaux de diverses modalités) ou qu’elle est rendue impérative par le contexte, par
exemple parce que le signal auditif n’est pas suffisamment saillant pour être parfaitement
intelligible.
Une autre structure cérébrale est aussi considérée par certains auteurs comme
potentiellement impliquée dans l’intégration audiovisuelle. Il s’agit du claustrum gauche. Cette
petite structure sous -corticale (profondément enfouie au sein du lobe frontal) reçoit et envoie des
projections vers les cortex auditifs et visuels. Elle est décrite comme une station relais par laquelle
les différentes modalités sensorielles peuvent directement accéder les unes aux autres. Ainsi, en
utilisant la Tomographie par Emission de Postitrons (TEP), Hadjikhani et Roland (1998), ainsi que
Banati, Goerres, Tjoia, Aggleton et Grasby (2000) ont démontré l’implication du claustrum dans
l’intégration visuo-tactile. Dans une étude d’IRMf, Olson, Gatenby et Gore (2002) ont exposé des
participants à des stimuli audiovisuels synchrones ou désynchronisés. Si, à l’instar de nombreux
autres auteurs, ils ont bien trouvé une activation du STS par la parole audiovisuelle, contrairement à
ce qui a été décrit par Macaluso et al. (2004), cette activation s’est avérée indépendante du fait que
les signaux auditifs et visuels étaient ou non synchrones. Par contre, le claustrum gauche, également
activé par les stimuli bimodaux, l’était davantage lorsque ceux-ci étaient synchrones que lorsqu’ils
beaucoup plus intense en cas de stimulation bimodale qu’en cas de stimulation unimodale et cet accroissement multimodal est inversement proportionnel à l’efficacité des stimuli unimodaux. En d’autres termes, l’organisme bénéficie davantage de la com binaison de stimuli faibles, les stimuli unimodaux n’ayant pas besoin d’être accentués pour être efficaces. Il pourrait donc s’agir ici d’une règle générale de l’intégration multimodale au niveau du système nerveux central des mammifères.
15
étaient désynchronisés. Les auteurs suggèrent par conséquent que, plutôt que le STS, le claustrum
gauche serait responsable de l’intégration audiovisuelle dans la perception de la parole.
Enfin, l’implication d’aires motrices dans l’intégration audiovisuelle a été démontrée à
l’aide de l’IRMf dans plusieurs travaux récents. Callan et al. (2003) ont mis en évidence une
activation de l’aire de Broca, du cortex pré-moteur et de l’aire motrice supplémentaire, non
seulement, en réponse à des stimuli linguistiques visuels, mais aussi en réponse aux mêmes stimuli
présentés avec le signal auditif correspondant, mais bruité. Cette observation a été mise en relation
avec l’hypothèse selon laquelle la facilitation de la perception de la parole par la lecture labiale est
le fruit d’un processus de récapitulation interne des gestes articulatoires produits par les locuteurs,
d’autant plus nécessaire que le signal auditif concomitant est dégradé. Plus récemment,
l’implication d’aires motrices (essentiellement l’aire de Broca et le cortex pré-moteur) dans la
perception audiovisuelle a été montrée, pour des signaux auditifs intacts, par Ojanen, Möttönen,
Pekkola, Jääskeläinen, Joensuu, Autti et Sams (2005) et par Skipper, Nusbaum et Small (2005).
L’implication des aires motrices dans la perception de la parole, qu’elle soit auditive,
visuelle ou audiovisuelle, est à mettre en relation avec l’existence des « neurones miroirs ». De tels
neurones, mis en évidence au niveau de l’aire F5 du macaque (qui est considérée comme
l’homologue de l’aire de Broca chez l’être humain), ont la propriété de décharger à la fois
lorsqu’une action est effectuée et lorsqu’un congénère accomplit cette action (Rizzolati, Fadiga,
Gallese & Fogassi, 1996). L’existence de ces « neurones miroirs » suggère que les mêmes circuits
neuronaux sont impliqués dans la réalisation et dans la perception des actions. Par ailleurs, certains
« neurones miroirs », dits audiovisuels, sont activés non seulement par l’observation d’une action
mais aussi par l’écoute du son correspondant à cette action (Kohler, Keysers, Umilta, Fogassi,
Gallese & Rizzolatti, 2002), ce qui suggère qu’un signal auditif permet, via l’activation des aires
motrices, d’accéder à la représentation de l’action codée dans ces aires. De telles observations sont
cohérentes avec l’idée d’un lien étroit entre production et perception de la parole, et
particulièrement avec le postulat, déjà été avancé par les protagonistes de la Théorie Motrice de
16
perception de la parole (Liberman & Mattingly, 1985), selon lequel la perception de la parole
consiste à récupérer les gestes articulatoires qui ont généré le signal afin de retrouver les
« intentions phonétiques » du locuteur.
Pour conclure cette section, on peut dire que la perception audiovisuelle de la parole
implique à la fois des aires spécifiques à la modalité visuelle (BA 19 et 37), des aires spécifiques à
la modalité auditive (cortex auditif primaire et secondaire), des a ires d’intégration (en particulier le
STS) et des aires motrices (aire de Broca et cortex pré-moteur). Nous allons à présent nous
interroger sur l’ordre dans lequel ces différentes structures sont activées.
II. Le décours temporel des processus de perception de la parole
Au cours des sections précédentes, nous avons brossé un tableau des aires cérébrales
impliquées dans le traitement de la parole auditive, de la parole visuelle et dans l’intégration
audiovisuelle. Nous allons à présent nous attacher à étudier le moment auquel ces aires sont activées
et en particulier le moment auquel les signaux auditifs et visuels sont intégrés dans la perception de
la parole.
Deux hypothèses, radicalement opposées, ont été émises pour répondre à cette dernière
question : l’hypothèse d’intégration tardive et celle d’intégration précoce.
Selon l’hypothèse d’intégration tardive (e.g. Massaro, 1998), les signaux auditifs et visuels
sont d’abord traités et évalués chacun séparément et indépendamment avant d’être intégrés. Chaque
source est donc complètement catégorisée avant d’être intégrée à d’éventuelles autres sources.
Après intégration, l’entrée sensorielle est comparée à un ensemble de prototypes stockés en
mémoire et une réponse est sélectionnée sur base du prototype le plus consistant avec les indices
multisensoriels.
Selon l’hypothèse d’intégration précoce, l’intégration opère sur des représentations,
amodales, communes aux deux modalités, élaborées par des mécanismes de bas niveau, antérieurs à
la catégorisation. Une possibilité, défendue par plusieurs auteurs, est que ces représentations
17
correspondent aux gestes articulatoires qui ont été exécutés pour produire le signal de parole
(Liberman, Cooper, Shankweiler & Studdert -Kennedy, 1967 ; Fowler, 1991). Les signaux auditifs
et visuels seraient donc recodés sous forme d’un code moteur sur lequel opèrerait l’intégration
audiovisuelle. Le résultat de l’intégration serait alors, enfin, catégorisé.
Avant l’avènement des techniques de cartographie cérébrale, plusieurs études
comportementales ont tenté de séparer ces deux hypothèses (pour une revue, voir Green, 1998). Les
quelques arguments qui ont été avancés en faveur du concept d’intégration tardive ne sont pas
totalement convaincants. L’un d’eux est issu d’études relatives à l’adaptation sélective auditive 3.
Plusieurs auteurs (Roberts et Summerfield, 1981 ; Roberts, 1987 ; Saldaña et Rosenblum, 1994) ont
montré qu’un /d/ illusoire (/b/ auditif doublé de /g/ visuel) ne produisait pas d’effet d’adaptation
comparable à celui émanant d’un /d/ acoustique. Il provoquait un effet identique à celui d’un /b/
acoustique. Des effets d’adaptation sélective ne pourraient donc pas se produire dans le cadre de
l’intégration de la parole audiovisuelle. Ceci a parfois été considéré comme s ignifiant que
l’intégration est consécutive à la catégorisation phonétique. Une telle interprétation repose toutefois
sur l’hypothèse selon laquelle l’adaptation auditive aurait lieu au moment de la catégorisation
phonétique. Or, selon Schwartz, Robert-Ribès et Escudier (1998), elle pourrait dépendre de
mécanismes auditifs de niveau plus précoce (par exemple, une adaptation au niveau du nerf auditif).
Un autre argument plaidant en faveur de l’intégration tardive a été développé par Munhall et
Tohkura (1998). Ces chercheurs ont examiné le décours temporel de l'intégration audiovisuelle à
l'aide d'un paradigme de dévoilement progressif (« gating ») appliqué à des dissyllabes de type
VCV. Le signal d’une des deux modalités était présenté entièrement alors que celui de l’autre
modalité était dévoilé progressivement. Quelle que soit la modalité manipulée par le processus de
dévoilement, l’effet McGurk a augmenté progressivement avec celui-ci. La modification ne suivait
cependant pas le même décours selon la modalité dévoilée. Elle était linéaire pour la modalité
3 Le paradigme d’adaptation sélective consiste à exposer des participants à la présentation répétée d’une syllabe correspondant à l’une des deux extrémités d’un continuum synthétique. Lorsqu’on leur demande ensuite de classer des syllabes, ayant une valeur intermédiaire au sein de ce continuum, en fonction de l’une ou l’autre extrémité, on constate que l’identification de ces syllabes se déplace vers l’extrémité du continuum qui a servi d’adaptateur.
18
visuelle, indiquant que la perception de l'information visuelle est continue, variant en fonction de la
dynamique d'articulation. Dans le cas de l'information auditive la modification n’était pas linéaire,
certains instants acoustiques, comme l’explosion, étant plus saillants. L'information auditive de la
portion VC était considérablement moins efficace que celle de la portion CV (l'identification de la
consonne étant restée difficile jusqu'à l'explosion acoustique). Ces données suggèrent que
l'information dynamique serait extraite séparément pour chaque modalité avant que les informations
visuelle et auditive soient intégrées. Un tel processus d’extraction séparée n’implique évidemment
pas que les deux signa ux ont nécessairement été catégorisés complètement avant d’être intégrés.
Enfin, Massaro, Cohen et Thompson (1988) ont mis en évidence un effet McGurk lorsque les
mouvements articulatoires visuels étaient remplacés par des mots écrits. Selon ces auteurs,
l’interférence entre mots écrits et signal sonore n’a pu se produire que si ces deux types
d’informations avaient été intégrées post-catégoriellement. Ces observations n’ont cependant pas
été reproduites par Fowler et Dekle (1991). De plus, Vroomen et de Gelder (1999) en indiquent
quelques limitations. D'une part, les percepts de type combinaison ne se produisent pas avec la
parole écrite. D'autre part, même s'il y a réellement une interaction entre l'information écrite et
acoustique, rien ne permet de déceler à quel niveau elle se produit. La lecture écrite et la lecture
labiale pourraient très bien interagir avec l'information auditive à des niveaux différents. Alors que
la lecture labiale interagirait avec la parole entendue à un niveau perceptif, l’interaction entre la
lecture écrite et la parole entendue pourrait se produire lors d'une étape de prise de décision. Si tel
est le cas, les données de Massaro et al. (1988) ne permettent aucune conclusion quant à la relation
temporelle entre intégration et caté gorisation phonétique.
L’hypothèse d’intégration précoce, quant à elle, est confortée par de nombreux résultats.
Ainsi par exemple, Rosen, Fourcin et Moore (1981) ont montré que lorsque la fréquence
fondamentale (F0) d’un signal auditif est présentée en même que les mouvements articulatoires, la
perception d’un message audiovisuel est tout à fait possible alors que, présentés seuls, ni la F0, ni
les mouvements articulatoires ne permettent d’atteindre un niveau de compréhension de la parole
19
suffisant. Cette observation est incompatible avec un modèle d’intégration tardive dans lequel, ni
les processus de décodage auditif, ni ceux de décodage visuel n’auraient pu fournir d’indices
permettant une décision par rapport au signal. D’autres arguments sont issus de s travaux de Kerry
Green et de ses collègues. Green et Miller (1985) ont montré que la localisation de la frontière
phonémique d’une syllabe auditive CV issue d’un continuum de délai d’établissement du voisement
(DEV)4 pouvait varier en fonction du débit d’articulation de la syllabe visuelle, présentée
simultanément, correspondant à l’une des deux extrémités du continuum. L’information visuelle de
débit de parole est donc pertinente pour la perception du voisement. Elle ne peut, par conséquent,
être intégrée à l’information auditive qu’avant la catégorisation phonétique. De plus, Green et Kuhl
(1989) ont montré que lorsqu’un continuum auditif allant de /ibi/ à /ipi/ était doublé de l’articulation
de /igi/, la frontière de voisement des percepts audiovisuels était déplacée vers des valeurs de DEV
plus longues que celles observées lorsqu’un continuum auditif était présenté sans stimulation
visuelle. Il résulte de ce constat que l’information visuelle est combinée avec l’information auditive
avant que la décision d’identité phonétique ne soit prise, excluant, ainsi, toute possibilité d’une
intégration audiovisuelle post -phonétique. Une autre étude de Green et Kuhl (1991) confirme l'idée
que l’information auditive de voisement et l’information visuelle de lieu d'articulation sont traitées
comme une unité intégrée plutôt que de façon séparée. Les auteurs ont construit quatre stimuli
audiovisuels en combinant /ibi/ et /ipi/ auditifs à /ibi/ et /igi/ visuels. Des participants devaient
classifier chaque stimulus audiovisuel le plus rapidement possible comme voisé ou non-voisé et/ou
comme bilabial ou vélaire. Les temps de réaction pour l’identification du voisement et du lieu
d’articulation ont été plus lents dans une condition où les stimuli variaient selon les deux
dimensions que dans une condition où les stimuli ne variaient qu’en fonction d’une seule
dimension. Les indices auditifs et visuels seraient donc traités de façon interactive plutôt que
séparée. Enfin, Green et Gerdeman (1995) ont montré que l’effet McGurk diminuait lorsque les
stimuli auditifs et visuels divergeaient en termes d’environnement vocalique (par exemple, /ba/
4 Le DEV, ou Voice Onset Time (VOT) en anglais, correspond au délai entre la fin de l’explosion acoustique et le début des vibrations des cordes vocales. Lorsque ce délai est inférieur à 0 msec. (vibrations commençant avant l’explosion acoustique), les phonèmes sont perçus comme voisés ; lorsqu’il est supérieur à 0 msec. (vibrations commençant après l’explosion acoustique), les phonèmes sont perçus comme non-voisés.
20
auditif doublé de /gi/ visuel). Ce résultat suggère qu’en intégrant la parole audiovisuelle, les sujets
sont sensibles à l’information de coarticulation entre une consonne et la voyelle qui la suit. Si les
signaux auditifs et visuels étaient catégorisés avant d’être intégrés, l’information de coarticulation
ne jouerait aucun rôle.
Tous ces résultats confortent donc l’hypothèse selon laquelle les informations auditives et
visuelles interagissent à un niveau précoce de traitement phonétique, bien avant que l’information
soit appariée avec une représentation phonétique.
Plus récemment, les techniques de cartographie cérébrale ont apporté d’autres éléments en
faveur de l’idée d’intégration précoce. Les techniques les plus appropriées d’étude du décours
temporel des processus perceptifs et cognitifs sont les Potentiels Evoqués (PE) et la MEG,
respectivement basées sur l’enregistrement de l’activité cérébrale électrique et magnétique évoquée
par la présentation de stimuli. Le décours temporel de cette activité peut -être suivi avec une
résolution temporelle de l’ordre de la milliseconde.
Des effets d’interaction audiovisuelle dans la perception de la parole ont été démontrés à
l’aide de deux types de paradigmes. Pour le premier paradigme, l’idée consiste à comparer
l’activation suscitée par une condition de parole bimodale (congruente) à celle suscitée par la
somme des deux conditions unimodales. Si les PE sont similaires dans ces deux situations, cela
indique un traitement indépendant des signaux auditifs et visuels. Au contraire, des différences
suggèrent des effets d’interaction. Pour le deuxième paradigme, il s’agit de comparer l’activation
suscitée par de la parole audiovisuelle congruente à celle suscitée par de la parole audiovisuelle
incongrue. Le postulat sous -jacent est que les différences d’activation potentielles sont supposées
refléter un effet spécifiquement phonétique.
En ce qui concerne la comparaison entre conditions unimodales et bimodales, les recherches
ont porté tant sur l’amplitude que sur la latence des PE. Par exemple, Klucharev, Möttönen et Sams
(2003) ont présenté à des participants finnois des voyelles dans les conditions unimodale auditive,
unimodale visuelle, audiovisuelle congruente et audiovisuelle incongrue. Dans les 225 premières
21
msec. après le début du stimulus auditif, trois déflections successives avaient une amplitude
moindre dans la condition bimodale (que ce soit pour les voyelles congruentes ou incongrues) que
dans la somme des deux conditions unimodales. La première déflection (85 msec.) reflétait
probablement une modulation de la composante visuelle N1, tandis que les deuxième (125 msec.) et
troisième (225 msec.) déflections ont été considérées comme une modulation des composantes
auditives N1 et P2. Ces effets d’interaction, précoces et indépendants de l’identité phonétique des
stimuli, ont donc été localisés au niveau des cortex sensoriels spécifiques des modalités auditive et
visuelle. Selon les auteurs, ils refléteraient des interactions audiovisuelles au niveau du traitement
des traits généraux, non spécifiquement phonétiques, partagés par les stimuli auditifs et visuels (tels
que la concordance spatiale et temporelle). En utilisant un paradigme assez similaire, Besle, Fort,
Delpuech et Giard (2004) ont montré que la composante auditive N1 évoquée par des syllabes était
de moindre amplitude dans une condition audiovisuelle congruente par rapport à la somme de de ux
conditions unimodales. Par contre, contrairement à Klucharev et al. (2003), aucun effet
d’interaction n’a été trouvé au niveau des composantes visuelles. Besle et al. (2004) ont interprèté
ces données en termes d’une dominance de la modalité auditive pour la perception de la parole. De
façon générale, les résultats de ces deux études suggèrent que dans la perception de la parole, les
signaux auditifs et visuels ne sont pas traités de façon indépendante et interagissent déjà
probablement au niveau des aires sensorielles.
Citons également les données de Jääskelainen, Ojanen, Ahveninen, Auranen, Levänen,
Möttönen, Tarnanen et Sams (2004) indiquant que l’amplitude de l’équivalent magnétique de la
composante N1 évoquée par une voyelle auditive peut être modulée par la présentation (anticipée de
500 msec.) des mouvements articulatoires correspondants. Ceci suggère que le fait de voir les
mouvements articulatoires d’un locuteur influence la perception auditive en modulant la réponse
des neurones du cortex auditif.
Des effets de latence, favorisant l’hypothèse d’une intégration précoce, ont été mis en
évidence, en utilisant la MEG, par Möttönen, Krause, Tiippana et Sams (2002). Ces auteurs ont
22
montré que des mouvements articulatoires activent le cortex auditif (gyrus temporal supérieur) de
façon plus précoce (endéans les 200 msec. post -stimulus) lorsqu’ils sont présentés avec un contexte
auditif que lorsqu’ils sont présentés seuls. Le contexte auditif joue donc un rôle facilitateur dans le
traitement des mouvements articulatoires, au niveau du cortex auditif. Dans le même ordre d’idées,
van Wassenhove, Grant et Poeppel (2005) ont observé que la parole visuelle accélère le traitement
d’un message auditif au niveau cortical. Les composantes P1, N1 et P2 évoquées par un même
stimulus auditif avaient, en effet, une latence plus courte lorsque ce dernier était présenté en même
temps que les mouvements des lèvres correspondants que lorsqu’il était présenté seul.
Les premières études comparant les activations suscitées par la parole audiovisuelle
congruente à celles suscitées par la parole audiovisuelle incongrue sont celles de Sams et al. (1991)
et de Sams et Levänen (1996) déjà décrites dans la section consacrée aux substrats neuraux de la
parole audiovisuelle. Grâce à la MEG, ces auteurs ont montré une différence d’activation entre des
syllabes audiovisuelles congruentes et incongrues qui se manifestait au niveau du gyrus temporal
supérieur à partir de 180 msec. après le début de la stimulation. En utilisant la même technique et un
paradigme assez similaire, Klucharev et al. (2003) ont obtenu des résultats concordants avec ceux
de Sams et de ses collègues. Outre les interactions audiovisuelles précoces déjà décrites ci-dessus,
ces auteurs ont également pointé des interactions plus tardives. Les stimuli audiovisuels congruents
et incongrus ont suscité des différences d’activation magnétique à partir de 155 msec. à partir du
début de la stimulation auditive. Selon les auteurs, le générateur de cet effet serait la partie
postérieure du STS. Deux autres effets d’interaction ont été également pointés, respectivement à
235 et 325 msec. et ont été attribués à des aires hétéromodales au niveau des cortex pariétaux et
temporaux.
Enfin, des effets d’interaction phonétique ont également été démontré par notre équipe
(Colin, Radeau, Soquet, Colin & Deltenre, 2002 ; Colin, Radeau, Soquet & Deltenre, 2004) en
utilisant la Mismatch Negativity (MMN), une composante des PE auditifs qui indexe la détection
automatique, pré-attentive, d’une disparité physique d’un stimulus déviant se produisant
23
occasionnellement dans une séquence homogène de stimuli standards et présentant une disparité
physique par rapport à ces derniers (paradigme dit « oddball »). Pour une revue sur la MMN, voir
Näätänen (1992), Lang, Eerola, Korpilahti, Holopainen, Salo et Aaltonen (1995), Ritter, Deacon,
Gomes, Javitt et Vaughan (1995) et Picton, Alain, Otten, Ritter et Achim (2000). La MMN est
évoquée sous forme d’une onde négative, se produisant 100 à 200 msec. après le début de la
stimulation déviante et est décrite comme le résultat d’un processus de comparaison automatique
entre le stimulus déviant et la trace formée par la représentation sensorielle du stimulus standard en
mémoire auditive sensorielle (Näätänen, 1992; Cowan, Winkler, Teder & Näätänen, 1993). Nous
avons montré que la MMN pouvait être évoquée par la présentation occasionnelle de syllabes
audiovisuelles incongrues, apparaissant dans une séquence homogène de syllabes congruentes et ne
différant de ces dernières qu’en termes de mouvements articulatoires visibles, le signal sonore étant
constant tout au long de la séquence. La présentation des mêmes mouvements articulatoires en
l’absence de contexte auditif n’a généré aucune MMN. Par conséquent, la MMN évoquée dans la
condition audiovisuelle n’était ni « auditive » puisque aucun contraste auditif n’était présent dans
les séquences audiovisuelles, ni « visuelle » puisque les mêmes mouvements articulatoires présentés
en l’absence de contexte auditif n’ont pas suscité de MMN, mais était générée par la signification
phonétique conférée aux mouvements articulatoires par un contexte auditif approprié. Par ailleurs,
la MMN étant une composante automatique et pré-attentive, ces résultats suggèrent que les
mécanismes phonétiques d’intégration de la parole audiovisuelle se produisent à un niveau perceptif
pré-attentif et automatique.
En conclusion, de nombreuses données tant comportementales qu’électrophysiologiques
arguent en faveur de l’hypothèse d’intégration précoce. Les signaux auditifs et visuels ne seraient
pas complètement traités indépendamment avant d’être intégrés, mais interagiraient à une étape
précoce du traitement perceptif. En effet, la comparaison entre les PE en condition bimodale et les
PE par la somme des deux conditions unimodales montre des effets d’interaction précoces, en
moyenne selon les études, opérant entre 100 et 200 msec. après le début de la stimulation
24
probablement au niveau des cortex sensoriels spécifiques. Le rôle du cortex auditif a été
particulièrement mis en évidence, plusieurs études montrant que les mouvements articulatoires
« entrent » au niveau du cortex auditif dont ils modulent l’activité. Ceci est à mettre en
correspondance avec les données relatives aux substrats neuraux de la parole visuelle suggérant que
les mouvements articulatoires, même présentés seuls, activent le cortex auditif.
La comparaison entre la parole audiovisuelle congruente et incongrue indique des effets
d’interaction, spécifiquement phonétiques, opérant légèrement plus tardivement (globalement, entre
150 et 300 msec.). Klucharev et al. (2003) ont suggéré que le substrat neural de ces interactions
pourrait être le STS. Notons que cette hypothèse est soutenue par les données d’imagerie cérébrale
démontrant d’une part, une modulation de cette structure en fonction de la congruence des stimuli
audiovisuels et d’autre part, son implication dans le traitement phonétique de stimuli auditifs.
Citons également les données de Raij, Uutela et Hari (2000) et de van Atteve ldt, Formisano, Goebel
et Blomert (2004) démontrant l’implication du STS dans l’intégration entre parole auditive et mots
écrits (le STS s’avérant la seule structure cérébrale dont l’activation par la présentation
concomitante de lettres et de sons phonétiquement appariés ou non était modulée par la congruence
phonétique des stimuli audiovisuels).
On pourrait ainsi supposer que les stimuli auditifs et visuels dans la perception de la parole
interagiraient dans un premier temps au niveau du cortex auditif avant d’être intégrés, à un niveau
phonétique, au niveau du STS. Des données récentes de Möttönen, Schürmann et Sams (2004)
semblent confirmer cette hypothèse. En utilisant la MEG, ces auteurs ont comparé l’activité
évoquée par des voyelles audiovisuelles congruentes à celle évoquée par la somme des activations
suscitées par les mêmes voyelles présentées dans les deux conditions unimodales. Deux effets
principaux d’interaction ont été mis en évidence. Les effets les plus précoces avaient lieu entre 150
et 200 msec. au niveau du gyrus temporal supérieur. Des effets plus tardifs (250-600 msec.) ont été
localisés au niveau du STS. Notons toutefois que le design expérimental ne permet pas de
déterminer si ces derniers effets étaient spécifiquement phonétiques puisque aucune condition de
25
parole incongrue n’était présentée. Par ailleurs, les latences observées au niveau du STS étaient
sensiblement plus tardives que celles décrites par Klucharev et al. (2003). Enfin, l’activation du
STS était essentiellement enregistrée à droite. Des études ultérieures doivent donc être menées afin
de déterminer si les interactions observées par Möttönen et al. (2004) au niveau du STS sont bien du
même type que celles décrites par Klucharev et al. (2003).
Une autre possibilité quant à l’ordre d’activation des structures cérébrales impliquées dans
l’intégration audiovisuelle de la parole a été proposée par Calvert et ses collègues (Calvert,
Brammer & Iversen, 1998 ; Calvert et al., 2000 ; Calvert 2001). Ces auteurs estiment que
l’intégration audiovisuelle d’effectue d’abord au niveau du STS. Ensuite, l’information visuelle
serait renvoyée, via des rétro-projections, vers le cortex auditif dont elle modulerait l’activité. Ce
phénomène rendrait compte de l’observation comportementale selon laquelle l’ajout d’une
information visuelle améliore la perception de la parole auditive. A l’appui de l’hypothèse de
Calvert et de ses collègues, citons l’expérience de Sams et al. (1991) décrite ci-dessus, dans laquelle
la différence d’activité magnétique entre une condition de parole audiovisuelle congruente et une
condition de parole audiovisuelle incongrue se produisait à partir de 180 msec. au niveau du cortex
auditif. Selon Calvert et al. (1998), cette latence illustrerait un retard de traitement pa r rapport à la
parole auditive, ce qui est compatible avec la possibilité qu’après intégration des signaux auditifs et
visuels au niveau du STS, l’information soit renvoyée, par feedback, au niveau des aires de
traitement de la parole auditive. Notons auss i les données de Schroeder et Foxe (2002) montrant,
chez le singe, que les signaux visuels entrent au niveau du cortex auditif via des rétro-projections
plutôt que via des projections directes.
Quel que soit l’ordre d’activation de ces différentes structures, on peut conclure de cette
section que la parole auditive et la parole visuelle commencent à interagir dès les premières étapes
du traitement de l’information et continuent vraisemblablement à interagir lors des traitements
ultérieurs. Les aires cérébrales impliquées dans les processus d’intégration seraient localisées au
niveau temporal, principalement à gauche. Toutefois, si la grande majorité des auteurs s’accordent
26
sur la supériorité hémisphérique gauche dans les processus de traitement du langage oral, quelle que
soit sa modalité, la cause de cette spécialisation reste sujette à débats.
III. La question de la spécialisation hémisphérique gauche
Alors que certains auteurs attribuent la supériorité hémisphérique gauche à l’existence d’un
processeur spécifiquement dédié au traitement de la parole, d’autres l’expliquent en termes d’une
distribution différentielle des mécanismes de traitement acoustique entre les deux hémisphères.
Ainsi, selon Tallal (1980), les propriétés cruciales des sons de parole sont liées à l’existence de
changements temporel rapides et l’asymétrie gauche/droite pour le traitement du langage
correspondrait à un effet de résolution temporelle différente, l’hémisphère gauche étant spécialisé
dans le traitement des variations temporelles rapides. De nombreuses données (pour une revue, voir
Zatorre, Belin & Penhune, 2002) indiquent en effet que la résolution temporelle est meilleure au
niveau du cortex auditif gauche qu’au niveau du cortex auditif droit alors que le patron inverse est
observé pour la résolution spectrale. Ainsi, par exemple, Zatorre (1988) a observé qu’une lésion au
niveau du gyrus de Heschl droit entraîne un déficit dans la perception de la hauteur de sons
complexes, alors qu’un tel déficit n’est pas observé en cas de lésion gauche. Par ailleurs, Liégeois-
Chauvel, de Graaf, Laguitton et Chauvel (1999) ont observé, en implantant des électrodes
intracrâniennes au niveau des aires temporales bilatérales chez des patients épileptiques, que le
gyrus de Heschl gauche répond davantage que le droit à des différences temporelles brèves, que
celles-ci se produisent au sein de stimuli linguistiques (des syllabes CV) ou non (des analogues de
parole reproduisant la structure temporelle des syllabes). Un effet de résolution temporelle a
également été mis en évidence pour la modalité visuelle. Dans l’étude de Smeele et al. (1998), un
avantage de l’hémisphère gauche avait été démontré pour l’identification de syllabes CV présentées
visuellement. Le même avantage a été trouvé pour l’id entification de stimuli visuels non
linguistiques mais ayant des propriétés dynamiques. Selon ces auteurs, l’activation plus importante
27
de l’hémisphère gauche par la lecture labiale dépendrait davantage des propriétés dynamiques des
stimuli que du fait qu’ ils aient un contenu linguistique.
Toutefois, les résultats de nombreuses autres études sont en faveur de l’idée d’une
spécialisation hémisphérique gauche due à la spécificité linguistique des stimuli traités.
Ces études peuvent être subdivisées en deux catégories : celles portant sur l’indépendance de
la modalité d’entrée et celles portant sur la signification, linguistique ou non linguistique, des
stimuli.
Les études de la première catégorie portent essentiellement sur l’examen de patients sourds,
locuteurs de la langue des signes. L’idée sous-jacente à ces études est que ce système linguistique
véhicule une information d’ordre visuo-spatial plutôt que d’ordre temporel. Par conséquent, si le
traitement de la langue des signes s’avère latéralisé à gauche, on pourrait en conclure que la
spécialisation hémisphérique gauche pour le langage ne repose pas sur une supériorité pour le
traitement de stimuli caractérisés par des variations temporelles rapides mais repose sur le caractère
spécifiquement linguistiques des stimuli, quelle que soit leur modalité d’entrée. Hickok, Bellugi et
Klima (1996) ont examiné des patients sourds, locuteurs de la langue des signes américaine (LSA),
atteints d’une lésion temporale unilatérale. Seuls les patients victimes d’une lés ion gauche ont
montré un déficit dans le traitement de la LSA. Par ailleurs, des études d’IRMf (Bavelier, Corina,
Jezzard, Clark, Karni, Lalwani & Rauscheker, 1998) et de TEP (Petitto, Zatorre, Gauna, Nikelski,
Dostie & Evan, 2000) indiquent que chez les locuteurs de la LSA, le traitement de celle-ci suscite
une activation dominante du cortex auditif secondaire gauche par rapport au droit.
Les études portant sur le caractère linguistique ou non linguistique des stimuli reposent, pour
la plupart, sur la comparaison des activations ou PE suscités, soit par des stimuli partageant des
caractéristiques temporelles et spectrales similaires mais ayant ou non un caractère linguistique, soit
par des stimuli parfaitement similaires mais prenant ou non un caractère linguistique en fonction de
l’expérience linguistique des participants ou du contexte de l’expérience.
28
En ce qui concerne la première catégorie d’études, des données très convaincantes ont été
obtenues par Rinne, Alho, Alku, Holi, Sinkkonen, Virtanen, Bertrand et Näätänen (1999). Ces
auteurs ont construit deux continua de huit stimuli vocaliques (/a/ et /i/) allant de la voyelle au son
pur correspondant (obtenu par filtrage) et présentés dans un paradigme oddball. Chacun des huit
sons du continuum des /a/ servait de standard dans une condition différente, tandis que le déviant
correspondait au son analogue dans le continuum des /i/. L’activation générée par le processus à la
base de la MMN est passée de gauche à droite entre la condition « voyelles » et la condition « sons
purs », au moment où la perception passait de la voyelle au son pur. Les auteurs en ont conclu que
la prédominance de l’hémisphère gauche dépend strictement de la perception du son en tant que
phonème.
En utilisant la MEG, Shtyrov, Kujala , Palva, Ilmoniemi et Näätänen (2000) ont comparé les
activations suscitées par des syllabes CV et des analogues non phonétiques mais ayant la même
complexité acoustique. Ces analogues partageaient soit exactement la même structure temporelle et
spectrale que les syllabes, soit avaient une structure temporelle différente (l’analogue de l’explosion
acoustique initiale était plus longue). Les résultats suggèrent que l’hémisphère droit est supérieur
dans la perception des transitions acoustiques lentes, qu’auc un hémisphère ne domine la perception
des analogues caractérisés par la même structure temporelle et spectrale que les syllabes et que
l’hémisphère gauche domine la perception des sons spécifiquement linguistiques.
En ce qui concerne les publications relatives à la deuxième catégorie, il faut noter les études
cross-linguistiques entre l’anglais et les langues à tons. Dans les langues à tons (telles que le thaï ou
le chinois), la hauteur tonale des sons du langage a un caractère linguistique car elle permet, à elle
seule, de distinguer deux productions, similaires du point de vue des autres traits acoustiques mais
ayant des significations sémantiques différentes. En français, ou en anglais, la hauteur tonale
n’affecte pas la signification sémantique des sons du langage. Il est donc possible de mener des
études cross-linguistiques dans lesquelles les mêmes stimuli sont présentés à des sujets qui vont leur
attribuer, ou non, une signification linguistique, en fonction de leur environnement linguistique. En
29
utilisant la TEP, Gandour, Wong et Hutchins (1998) ainsi que Gandour, Wong, Hsieh, Weinzapfel,
Van Lancker et Hutchins (2000) ont montré que, pour les mêmes stimuli (des mots thaï), le
traitement phonologique de la hauteur tonale recrutait les structures de l’hémisphère gauche
uniquement chez des participants locuteurs du thaï. Des résultats similaires ont été obtenus
ultérieurement par Klein, Zatorre, Milner et Zhao (2001) en comparant le chinois mandarin et
l’anglais. En plus de la spécialisation hémisphérique gauche chez les locuteurs de la langue à tons,
ces auteurs ont également trouvé une spécialisation hémisphérique droite chez les anglophones, ce
qui concorde avec l’hypothèse d’une spécialisation de l’hémisphère droit pour le traitement de la
hauteur tonale. La spécialisation hémisphérique gauche pour la parole dépendrait donc bien de la
signification linguistique des stimuli.
Näätänen, Lehtokoski, Lennes, Cheour, Huotilainen, Ilvonen, Vainio, Alku, Ilmoniemi,
Luuk, Sinkkonen et Alho (1997) ainsi que Winkler, Lehtokoski, Alku, Vainio, Czigler, Csépe,
Aaltonen, Raimo, Alho, Lang, Ilvonen et Näätänen (1999) ont mis en évidence des traces neurales,
latéralisées à gauche, propres à la représentation phonémique. En comparant des groupes de
participants issus de différents environnements linguistiques, ces auteurs ont étudié la MMN
évoquée par des contrastes vocaliques appartenant ou non à l’inventaire phonémique des
participants et ont montré que, pour un même contraste, la MMN était plus ample et plus latéra lisée
à gauche lorsque celui appartenait à la langue de naissance des participants.
En utilisant des analogues sinusoïdaux de syllabes CV, Dehaene-Lambertz, Pallier,
Serniclaes, Sprenger-Charolles, Jobert et Dehaene (2005) ont également mis en évidence une
dominance hémisphérique gauche strictement liée à un mode linguistique de perception de la
parole. De tels stimuli acoustiques ne sont perçus comme de la parole que si on attire l’attention des
participants sur leur nature linguistique. Dans le cas contraire, ils sont perçus comme des sons de
sifflement. Dehaene -Lambertz et al. (2005) ont observé que le fait de passer d’un mode de
perception non linguistique à un mode de perception linguistique produisait un surcroît d’activation
30
au niveau de la partie postérieure du gyrus et du sillon temporaux supérieurs gauches ainsi qu’au
niveau du gyrus supramarginal gauche.
Enfin, en ce qui concerne la parole visuelle, Campbell et al. (2001) ont obtenu des données
contradictoires à celles de Smeele et al. (1998). Alors que ces derniers, par des techniques
comportementales, avaient observé un avantage de l’hémisphère gauche pour l’identification de
stimuli visuels linguistiques et non linguistiques (mais dynamiques), Campbell et al. (2001), ont
observé, par l’IRMf, que des mouvements des lèvres articulant des mots suscitaient plus
d’activation au niveau du STS gauche que des mouvements des lèvres ne correspondant pas à de la
parole (mouvements de mâchage exagérés). Par ailleurs, Calvert et Campbell (2003) ont montré
qu’à l’instar des mouvements articulatoires, des stimuli linguistiques visuels privés de leurs
caractéristiques dynamiques activaient également (mais dans une moindre mesure) les aires
responsables du traitement de la parole avec une dominance hémisphérique gauche. La dominance
hémisphérique gauche pour la lecture labiale semble donc davantage liée à la spécificité
linguistique de celle-ci qu’à ses caractéristiques dynamiques.
A la lumière des différentes études citées dans cette section, il est difficile de répondre à la
question de savoir si la spécialisation hémisphérique gauche pour la perception de la parole est due
à des mécanismes auditifs généraux (traitement temporel rapide localisé à gauche) ou à des
mécanismes spécifiquement linguistiques. Selon Zatorre et al. (2002), les deux approches ne
s’excluent peut-être pas mutuellement. Il serait, en effet, possible que la spécialisation
hémisphérique gauche pour la perception de la parole soit due à une supériorité de cet hémisphère à
la fois pour le traite ment, de bas niveau, de stimuli temporels rapides, qu’ils soient linguistiques ou
non, et pour le traitement ultérieur et de plus haut niveau de stimuli spécifiquement linguistiques
(traitement qui se serait développé sur base des mécanismes de bas niveau).
IV. Aspects développementaux
31
A l’heure actuelle, une majorité d’auteurs s’accordent sur l’idée que le développement de la
parole serait la résultante de la rencontre entre des prédispositions neuroanatomiques et un
environnement linguistique particulier. Une des questions débattues dans la littérature est celle de
déterminer si ces prédispositions reposent sur des mécanismes auditifs généraux ou spécifiques à la
parole.
IV.1. Le développement repose-t-il sur des mécanismes auditifs généraux ou spécifiques au
langage ?
Dans un premier temps, cette question a été adressée à partir du phénomène de perception
catégorielle. La perception catégorielle se produit lorsque des participants répondent de façon
discontinue à des variations continues d’un continuum physique. Ainsi, dans le domaine de la
parole, la perception catégorielle se caractérise par le fait qu’à écart acoustique constant, la
discrimination de différences intra-catégorielles est nettement plus difficile que celle de différences
inter-catégorielles (Liberman, Harris, Hoffman & Griffith, 1957). Des comparaisons inter-
linguistiques ont montré que les catégories phonétiques sont organisées autour de frontières
catégorielles dites naturelles ou universelles. Le continuum de DEV (voir note de bas de page n°4) ,
par exemple, peut être divisé en trois catégories universelles, séparées par deux frontières
perceptives, centrées autour de -30 msec et +30 msec (Lisker & Abramson, 1964). Par des mesures
d’enregistrement du rythme cardiaque, Lasky, Syrdal-Lasky et Klein (1975) ont montré que la
segmentation du continuum de DEV dans ces trois catégories est déjà observable chez des bébés de
quatre mois. En utilisant les variations du taux de succion d’une sucette électronique comme mesure
des capacités de discr imination, des données similaires ont été obtenues chez des bébés de un et
quatre mois pour un continuum de DEV (Eimas, Siqueland, Jusczyk & Vigorito, 1971) et chez des
bébés de deux à trois mois pour un continuum de lieu d’articulation (Eimas, 1974). De tels résultats
ont conduit à l’hypothèse selon laquelle le phénomène de perception catégorielle est le témoin d’un
mécanisme de traitement de la parole inné et spécifique à l’espèce humaine. Toutefois, le même
32
phénomène a également été rapporté chez des animaux non humains, tels que les chinchillas (Kuhl
& Miller, 1975 ; 1978), les macaques (Kuhl & Padden, 1982 ; 1983), les perruches (Dent, Brittan-
Powell, Dooling & Pierce, 1997) ou encore les cailles (Kluender, Diehl & Killeen, 1987). Notons
cependant que les animaux non humains ont besoin de milliers d’essais et de plusieurs mois
d’entraînement avant de manifester une perception catégorielle pour des stimuli linguistiques alors
que les bébés humains y parviennent en quelques minutes. Il n’est donc pas exclu que la longueur
de l’entraînement ait progressivement sensibilisé le système auditif des animaux non humains à
percevoir, de façon catégorielle, des stimuli dépourvus, pour eux, de signification phonétique. Cette
observation est à mettre en relation avec le fait que les adultes humains sont également capables,
moyennant un long entraînement, de discriminer des contrastes qui n’appartiennent pas à leur
inventaire phonémique (Zhang, Kuhl, Imada, Iverson, Pruitt, Kotani & Stevens, 2000). Toutefois,
Ramus, Hauser, Miller, Morris et Mehler (2000) ont montré que des singes tamarins, peu entraînés,
parviennent, de la même façon que des nouveaux-nés humains, à discriminer des phrases
néerlandaises et japonaises. Puisqu’il est difficile de défendre l’idée selon laquelle les tamarins ont
évolué pour percevoir la parole, les auteurs concluent qu’au moins certains aspects de la perception
de la parole par l’humain reposent sur des sensibilités pré-établies du système auditif. Citons à ce
sujet les données de Sinex, McDonald et Mott (1991) qui ont mis en évidence que les réponses des
fibres du nerf auditif du chinchilla à des syllabes provenant d’un continuum de DEV avaient une
fonction catégorielle correspondant aux frontières décrites par Lisker & Abramson (1964). La
perception catégorielle des frontières de DEV reposerait donc sur des mécanismes élémentaires déjà
organisés au niveau du nerf auditif. On peut ainsi conclure avec Kuhl (1993) que la tendance à
répartir les sons en catégories ne reposerait pas sur des mécanismes spécifiquement humains
(comme postulé par Eimas et al., 1971), mais serait profondément enfouie dans notre histoire
phylogénétique.
Des études d’imagerie cérébrale menées chez de très jeunes enfants, principalement par
l’équipe de Ghislaine Dehaene-Lambertz, suggèrent toutefois qu’il existerait pourtant des réseaux
33
neuronaux, probablement innés, dédiés au traitement des sons spécifiquement linguistiques. En
1994, Dehaene-Lambertz et Dehaene ont examiné les PE de bébés âgés de deux mois pour un
contraste /ba/ - /ga/ présenté au sein d’un paradigme oddball. Les syllabes déviantes ont suscité une
composante négative, de type MMN, à partir de 390 msec. La polarité de cette onde s’inversait
autour de la scissure de Sylvius (ce qui indique un générateur temporal) et dominait à gauche. Les
auteurs font l’hypothèse que cette composante pourrait être le reflet de la mise en œuvre de
générateurs neuronaux sensibles à l’information spécifiquement phonétique. Toutefois, ils
admettent que la composante négative pourrait aussi provenir de la perception de différences
purement acoustiques entre les deux syllabes.
Afin de déterminer si la détection de la déviance manifestée par les bébés est le reflet de la
mise en jeu d’un réseau fonctionnel codant les différences phonétiques, Dehaene-Lambertz (2000) a
comparé la distribution topographique de la MMN évoquée par des contrastes syllabiques et par des
changements de timbre de sons continus, chez des bébés de quatre mois. Les différences de
distribution topographique des PE par ces deux types de contrastes suggèrent que des réseaux
neuronaux différents sont impliqués dans la représentation des traits acoustiques et linguistiques.
Aucun avantage de l’hémisphère gauche n’a toutefois été mis en évidence pour les PE par les
contrastes linguistiques ; les voltages enregistrés étaient toujours plus élevés au niveau de
l’hémisphère gauche, quelle que soit la nature des stimuli. Notons aussi que ces résultats
n’impliquent pas nécessairement la mise en oeuvre d’un réseau neuronal s pécifiquement dédié au
traitement des stimuli linguistiques ; les différences de topographie notées entre les deux conditions
expérimentales peuvent avoir été simplement causées par le fait que les deux types de stimuli
présentent un niveau de complexité t out à fait différent.
En utilisant le paradigme de perception catégorielle, Dehaene-Lambertz et Baillet (1998) ont
mis en évidence, chez des bébés de trois mois, des PE plus amples pour un contraste de lieu
d’articulation traversant une frontière catégorielle, que pour un contraste, caractérisé par la même
distance acoustique, mais intra-catégorie. En outre, le changement phonétique impliquait une région
34
temporale plus postérieure et plus dorsale que le changement acoustique. Par ailleurs, chez des
bébés âgés de seulement quelques jours, les PE suscités par un contraste phonétique se sont avérés
insensibles à des changements de voix des locuteurs (Dehane-Lambertz & Peña, 2001), indiquant
que l’information phonétique pertinente peut être extraite au sein de variations acoustiques non
pertinentes et confirmant la nature phonétique du réseau neuronal impliqué.
En utilisant l’IRMf, Dehaene-Lambertz, Dehaene et Hertz-Pannier (2002) ont observé, chez
des bébés de trois mois, une activation hémisphérique gauche similaire à celle décrite chez les
adultes, en réponse à de la parole auditive. Toutefois, alors que chez les adultes, on observe une
activation des aires temporales gauche plus forte pour la parole présentée à l’endroit que pour la
parole présentée à l’envers, cette asymétrie n’a pas été trouvée chez les bébés de trois mois. Ce
résultat indiquerait donc que si les structures cérébrales dédiées au traitement de la parole sont très
précocement latéralisées à gauche, elles ne sont pas d’emblée spécifiquement dédiées au traitement
phonétique.
Toutefois, lors d’une étude ultérieure, utilisant la topographie optique 5, Peña, Maki,
Kovacic, Dehaene-Lambertz, Koizumi, Bouquet et Mehler (2003) ont mis en évidence, chez des
bébés de deux à cinq jours, une supériorité de l’hémisphère gauche uniquement en réponse à la
présentation de stimuli linguistiques présentés à l’endroit (vs. inversés du point de vue temporel).
De telles données vont à l’encontre de l’hypothèse défendue par Locke (1997) selon laquelle ce
serait l’exposition au langage qui déterminerait l’asymétrie fonctionnelle en faveur de l’hémisphère
gauche.
Si de nombreux auteurs s’accordent à penser que la capacité, très précoce, des êtres humains
à segmenter les continuums phonétiques en fonction de catégories phonétiques dites universelles
repose sur des structures cérébrales, latéralisées à gauche, pré-câblées pour traiter des stimuli
auditifs, une controverse subsiste quant à la nature des mécanismes sous -jacents au traitement de la
parole. Alors que les données obtenues par Dehaene -Lambertz et ses collègues suggèrent que ceux- 5 Cette technique d’imagerie cérébrale fournit une estimation des changements de volume sanguin cérébral et de la saturation en oxygène à l’aide de fibres optiques é mettant une « lumière » qui, sur une certaine longueur d’onde, est absorbée par l’hémoglobine et, sur une autre longueur d’onde, par la désoxyhémoglobine.
35
ci sont spécifiques au traitement de la parole, les données obtenues sur l’animal non humain
indiquent plutôt qu’ils reposent sur des processus auditifs élémentaires, déjà présents au niveau du
nerf auditif.
Quelle que soit la nature des mécanismes sous-jacents au traitement de la parole, de
nombreuses données indiquent qu’ils ne sont pas établis une fois pour toutes puisqu’ils peuvent être
modulés à la fois par l’expérience linguistique et par l’expérience sensorielle.
IV. 2. Le rôle de l’expérience linguistique
L’expérience linguistique semble moduler les mécanismes à la base de la perception de la
parole de façon assez précoce. De nombreuses études suggèrent qu’à partir de six mois, les
frontières catégorielles universelles se réorganisent en fonction de l’environnement linguistique des
enfants.
Werker et ses collègues sont parmi les premiers à avoir montré qu’après l’exposition aux
sons de leur langue maternelle, les bébés semblent perdre leur sensibilité aux frontières qui ne sont
pas pertinentes. Ainsi, par exemple, en utilisant la technique d’observation de l’orientation de la
tête, Werker, Gilbert, Humphrey et Tees (1981) ont observé que des enfants de six à huit mois,
éduqués dans un environnement anglophone, sont capables de discriminer des phonèmes de l’hindi,
alors que des adultes anglophones n’y parviennent pas, même après entraînement (Tees & Werker,
1984). Chez les jeunes enfants, la perte de cette capacité à discriminer les phonèmes n’appartenant
pas à l’inventaire phonémique de leur langue native interviendrait à partir de 10-12 mois pour les
consonnes (Werker & Tees, 1984) et de six mois pour les voyelles (Kuhl, Williams, Lacerda,
Stevens & Lindblom, 1992).
L’évolution des capacités de discrimination phonétique au cours de la première année a été
confirmée par des études faisant appel à l’électrophysiologie. Cheour, Ceponiene, Lehtokoski,
Luuk, Allik, Alho et Näätänen (1998) ont étudié, à l’aide des PE, la discrimination de voyelles
spécifiques du finnois et de l’estonien chez des enfants finnois (testés à six et 12 mois) et estoniens
36
(testés à 12 mois uniquement). La MMN enregistrée à six mois chez les enfants finnois était de
même amplitude pour le contraste spécifique au finnois et pour celui spécifique à l’estonien. A 12
mois, la MMN était beaucoup plus ample pour le contraste spécifique à la langue que pour l’autre
contraste, et ce, pour les deux groupes d’enfants. Plus récemment, Rivera-Gaxiola, Silva-Pereyra et
Kuhl (2005) ont soumis des enfants anglophones de sept et 11 mois à des contrastes de DEV
spécifiques de l’anglais ou de l’espagnol. Les PE indiquent qu’à sept mois, les enfants sont capables
de discriminer les deux types de contrastes alors qu’à 11 mois, ils sont davantage sensibles au
contraste de leur langue native. Notons toutefois que les données individuelles indiquent qu’à onze
mois, les enfants conservent une certaine capacité à discriminer les contrastes non-natifs.
Cette dernière observation nous amène à citer des données indiquant que l’environnement
linguistique continue à modeler les capacités de discrimination phonétique bien après l’âge de un
an. Ainsi par exemple, des enfants unilingues finnois âgés de trois à six ans, exposés de façon
intensive (mais passive) au français, se sont avérés capables de développer en quelques semaines
une sensibilité à la frontière de voisement pertinente en français (Cheour, Shestakova, Alku,
Ceponienne & Näätänen, 2002 ; Shestakova, Huotilainen, Ceponienne & Cheour, 2003).
Plusieurs hypothèses on été avancées pour rendre compte de l’influence de l’environnement
linguistique sur les capacités de discrimination des sons du langage. Selon Kuhl (1993), l’exposition
aux phonèmes spécifiques de la langue native structurerait l’espace phonétique autour de
prototypes, ce qui entraînerait un déclin dans les capacités de sensibilité phonétique universelle et
une réorganisation fonctionnelle au niveau sensoriel (« structure-changing approach »). Selon
Werker (1991), les étapes précoces de la perception phonétique resteraient inchangées, mais
l’exposition à la langue native aboutirait à la formation de représentations phonologiques
additionnelles qui filtreraient les sons selon les catégories de la langue native à un stade ultérieur du
traitement (« structure-adding approach »). Werker (1991) en veut pour preuve la possibilité, pour
des adultes, de discriminer certains contrastes non natifs pour autant que ceux-ci ne soient pas
37
susceptibles d’interférer avec la langue native. Ainsi par exemple, des adultes anglophones
montrent une certaine capacité à discriminer des clics zoulous (Best, McRoberts & Sithole, 1988).
IV. 3. Le rôle de l’expérience sensorielle
La première question est de savoir si l’exposition à une stimulation acoustique est nécessaire
pour que le cortex temporal se spécialise dans le traitement de la parole. Neville, Schmidt et Kutas
(1983) ont observé, chez des adultes sourds profonds congénitaux utilisant l’ASL, des PE visuels au
niveau des aires corticales temporales qui auraient dû être auditives. Par conséquent, la privation
sensorielle auditive induit une réorganisation fonctionnelle des aires corticales auditives. Cette
réorganisation n’est que fonctionnelle puisque les aires temporales conservent leur macroanatomie
et leur niveau de métabolisme du glucose (Kujala, Alho & Näätänen, 2000).
La question de la nécessité de l’expérience acoustique a également été abordée en examinant
les activations suscitées par la lecture labiale chez des patients sourds congénitaux éduqués
oralement (MacSweeney, Campbell, Calvert, McGuire, David, Suckling, Andrew, Woll &
Brammer, 2001). Par rapport aux entendants, les sourds ont montré un patron d’activation du cortex
temporal gauche moins important et plus dispersé. Les auteurs en ont conclu que la spécialisation
fonctionnelle du cortex temporal gauche pour la perception de la parole semble régie par
l’exposition à l’input acoustique. Lorsque cet input est absent dès la naissance, cette région ne
montre pa s le patron de spécialisation focale attendu, malgré les activations idiosyncrasiques
observées dans différentes régions temporales par les individus sourds. Le fait d’entendre la parole
aiderait à développer le système cohérent de perception de la parole au sein des aires latérales du
lobe temporal gauche.
La question suivante est de savoir dans quelle mesure cette situation est modifiée lorsque
l’input acoustique est restauré, par exemple par la pose d’un implant cochléaire. De nombreuses
études ont démontré, chez les enfants sourds profonds congénitaux, un important bénéfice de
l’implant cochléaire sur les capacités de perception (e.g. Wu & Yang, 2003) et de production (e.g.
38
Vieu, Mondain, Blanchard, Sillon, Reuillard-Artieres, Tobey, Uziel & Piron, 1998) de la parole
auditive. Pour des raisons évidentes de plasticité du système nerveux central, la précocité de la mise
en place de l’implant cochléaire est un élément fondamental dans les performances qu’atteignent les
enfants sourds. Ainsi, les scores en perception de la parole auditive après implantation deviennent
d’autant meilleurs que l’implant a été posé tôt, de préférence avant 3 ou 4 ans (e.g. Baumgartner,
Pok, Egelierler, Franz, Gstoettner & Hamzavi, 2002). On peut ainsi penser que l’implantation
précoce permettrait aux aires cérébrales auditives de maintenir leur fonctionnalité initiale.
L’étude des PE auditifs enregistrés chez des enfants munis d’un implant cochléaire, permet
d’étayer cette hypothèse (pour une revue, voir Purdy, Kelly & Thorne, 2001). Ponton, Don,
Eggermont, Waring, Kwong et Masuda (1996) ont montré que les latences de la composante
auditive P1 sont prolongées chez des enfants sourds implantés, comparées à celles observées chez
des enfants normo-entendants appariés du point de vue de l’âge. Toutefois, ces latences sont
d’autant plus normales que l’implantation a été précoce (Sharma, Dorman, Spahr & Todd, 2002).
Par ailleurs, le rythme de maturation de ces PE corticaux auditifs est essentiellement le même, voire
plus rapide, chez le s enfants munis d’un implant que chez les enfants entendant normalement
(Sharma, Dorman, & Spahr, 2002a ; Sharma, Dorman & Kral, 2005). Sharma, Dorman et Spahr
(2002b) suggèrent que la plasticité cérébrale serait maintenue pendant une période de surdité
n’excédant pas 3.5 ans ; l’introduction, pendant cette période, d’une stimulation via l’implant
permettant de reprendre la séquence maturationnelle normale. On peut également conclure de ces
données que les effets de l’âge d’implantation sur le développement des habiletés perceptives de
plus haut niveau seraient le reflet de périodes critiques agissant au niveau des aires auditives
centrales.
Pour des raisons techniques et éthiques, la question des aires cérébrales impliquées dans le
traitement de la parole chez les sourds implantés n’a pu, pour l’instant, être abordée que chez les
adultes. Plusieurs études indiquent que les aires corticales sous -jacentes au traitement de la parole
39
ont une organisation fonctionnelle différente chez les personnes ayant connu une longue période de
privation sensorielle.
Nishimura, Hashikawa, Doi, Iwaki, Watanabe, Kusuoka, Nishimura et Kubo (1999) ont
étudié un patient sourd exposé à la langue des signes, et muni, lorsqu’il était adulte, d’un implant
cochléaire. La stimulation auditive à travers l’implant a provoqué une activation du cortex auditif
primaire mais aucune activation du cortex auditif secondaire. Il semble donc que le cortex auditif
primaire de personnes sourdes signantes reste réceptif au traitement du son. Le cortex auditif
secondaire quant à lui, une fois recruté pour le traitement de la langue des signes, ne pourrait plus se
réadapter au traitement de l’information acoustique. Ces données suggèrent que la nature de
l’expérience linguistique précoce affecte le développement des systèmes langagiers dans le cerveau.
En utilisant la TEP, Giraud, Price, Graham, Truy & Frackowiak (2001) ont mis en évidence
une activation du cortex auditif et du cortex visuel chez des adultes sourds post -linguaux engagés
dans une tâche d’écoute de mots, activation qui était positivement corrélée avec les capacités de
lecture labiale de ces personnes. L’activation du cortex visuel n’a pas été observée dans un groupe
de sujets de contrôle, ni pour des sons non naturels (autres que des mots, syllabes ou sons
environnementaux), indiquant que le cortex visuel des patients implantés répond à tous les stimuli
dotés d’une signification. Par ailleurs, les activations visuelles étaient moins marquées et moins
consistantes chez les patients récemment implantés que chez ceux qui avaient bénéficié d’une plus
longue période de réhabilitation. Ce résultat suggère que ces activations ne sont pas dues à la
plasticité cérébrale liée à la surdité en soi, mais évoluent parallèlement à l’utilisation fonctionnelle
de l’audition grâce à l’expérience avec l’implant cochléaire. De telles données ont été confirmées
dans une étude ultérieure (Giraud & Truy, 2002). Les résultats de ces études montrent que des
changements significatifs peuvent se produire dans le système nerveux de l’adulte en réponse à un
nouvel apprentissage. Même tardive, la pose d’un implant cochléaire modifie l’organisation
fonctionnelle des aires dévolues au traitement de la parole.
40
On ne peut que souhaiter que les progrès de l’IRMf permettent, dans un proche avenir,
d’étudier l’organisation fonctionnelle des aires cérébrales impliquées dans la perception du langage
oral chez les enfants implantés précocement et tardivement.
IV.4. Les processus développementaux ont-ils d’emblée une composante audiovisuelle ?
Selon de nombreux auteurs, les enfants représenteraient très précocement la parole de façon
multimodale. Ainsi, par exemple, comme les adultes, des bébés de quatre à six mois sont sensibles à
la synchronisation de signaux linguistiques auditifs et visuels (Dodd, 1979). En outre, au même âge
(Kuhl & Meltzoff, 1982 ; 1984 ; MacKain, Studdert-Kennedy, Spieker & Stern, 1983 ; Walton &
Bower, 1993 ; Patterson & Werker, 1999), et même déjà à deux mois (Patterson & Werker, 2003),
ils sont capables d’associer des sons de parole aux configurations correspondantes de la bouche.
Lorsqu’ils sont placés face à deux écrans vidéo, présentant chacun simultanément un visage, les
bébés préfèrent regarder le visage dont le geste articulatoire est apparié avec le phonème entendu et
ils le font mieux lorsque le visage est présenté à l’hémichamp droit (MacKain et al., 1983). Notons
qu’une telle association audiovisuelle ne se produit pas pour des stimuli non linguistiques (Kuhl,
Williams & Meltzoff, 1991).
Dans l’optique d’une sensibilité précoce à la parole audiovisuelle, une intégration entre des
signaux audiovisuels discordants devrait également apparaître de façon très précoce. L’observation
d’un effet McGurk chez de très jeunes enfants est évidemment rendue complexe par la difficulté de
mesurer la perception d’enfants n’ayant pas encore accès au langage.
En utilisant des mesures du temps de regard, Rosenblum, Schmuckler et Johnson (1997) ont
mis en évidence une intégration des modalités auditive et visuelle chez des bébés de cinq mois.
L’expérience a été menée à l’aide d’une procédure d’habituation/déshabituation, avec habituation à
des stimuli audiovisuels congruents. Lorsque les enfants étaient habitués à un stimulus audiovisuel
congruent, ainsi que le montrait la diminution de leur temps de regard, un stimulus incongru était
présenté qui pouvait entraîner (chez l’adulte) la même perception que le stimulus congruent ou une
41
perception différente. Les bébés ont montré un regain d’intérêt envers les stimuli incongrus
suscitant une autre perception que le stimulus congruent. Dès cinq mois, les enfants seraient donc
capables d’intégration audiovisuelle. En utilisant un paradigme d’habituation/déshabituation assez
similaire, Burnham et Dodd (1996) ont également montré que des enfants de quatre mois et demi
sont sensibles à l’effet McGurk.
Les auteurs admettent cependant qu’en cinq mois, les bébés ont pu disposer d’une
expérience suffisante avec la parole audiovisuelle pour qu’elle serve de base aux effets observés.
Les parts de l’innéité et de l’apprentissage dans l’intégration audiovisuelle sont donc difficiles à
évaluer. L’utilisation de techniques de cartographie cérébrale non invasives sur des bébés âgés de
quelques jours, voire de quelques heures, soumis à des stimuli linguistiques audiovisuels permettrait
certainement d’apporter de nouveaux éléments à ce débat. On peut toutefois estimer assez probable
la possibilité que les représentations phonologiques soient d’emblée de nature multimodale. Des
données obtenues par Streri (2003) indiquent, en effet, que des bébés âgés de seulement quelques
heures sont capables de reconnaître visuellement un objet qui leur a été présenté quelques minutes
auparavant via la modalité tactile (main droite). On peut en inférer que la capacité à se représenter
le monde de façon multimodale est innée.
Si la perception de la parole est effectivement basée sur des prédispositions précoces, voire
innées, il faut remarquer qu’à l’instar des capacités de discrimination phonétique étudiées pour la
parole auditive, les représentations phonologiques audiovisuelles sont modulées à la fois par
l’expérience sensorielle (e.g. augmentation des réponses visuelles chez des enfants sourds implantés
soumis à un paradigme McGurk ; Clark, 2003) et par l’expérience linguistique. Ainsi, la taille des
illusions McGurk varie en fonction du contexte linguistique. Par exemple, dans les langues à tons
telles que le chinois ou le japonais, l’effet McGurk est décrit comme assez faible (Sekiyama &
Tohkura, 1991 ; 1993 pour le japonais ; Sekiyama, 1997 pour le chinois). Or, dans ces langues, le
signal visuel n’a pas le même degré d’informativité que dans des langues telles que le français ou
l’anglais.
42
On pourrait donc penser qu’au cours du développement, le poids perceptif accordé à
l’audition et à la vision serait modulé en fonction de l’expérience sensorielle et linguistique propre à
chacun-e.
V. Conclusion
Il est maintenant bien établi que lorsque nous écoutons un message auditif, celui-ci est traité
au niveau d’aires temporales, essentiellement au niveau du gyrus temporal supérieur. En fonction de
ce que nous décidons de faire de ce signal (écoute passive, analyse phonologique, analyse
sémantique, …), d’autres aires cérébrales sont susceptibles d’être recrutées. Citons, entre autres, les
gyri temporaux moyens et inférieurs, le gyrus angulaire et l’aire de Broca.
Dans la situation où seuls les mouvements des lèvres seraient disponibles, on constate, outre
une implication d’aires occipitales, l’implication d’aires temporales supérieures et d’aires motrices
globalement similaires à celles observées pour la parole auditive. Une question qui demeure en
suspend est celle de déterminer à quel moment l’information visuelle, venant des aires occipitales,
est injectée au niveau des structures auditives : d’entrée de jeu, au niveau du cortex auditif primaire,
ou au niveau du cortex auditif secondaire ?
Lorsque le message auditif s’accompagne de la vue du locuteur, ce qui est le cas de la
majorité des situations de la vie quotidienne, on observe des effets d’interaction à la fois au niveau
des aires sensorielles spécifiques à la modalité auditive et à la modalité visuelle et au niveau d’aires
polysensorielles telles que le STS.
En ce qui concerne les aires sensorielles, les effets d’interaction ont à la fois été mis en
évidence par les techniques d’imagerie cérébrale (la parole audiovisuelle suscitant davantage
d’activation à ce niveau que les deux conditions unimodales) et par les techniques des PE et de la
MEG (les PE exogènes étant modulés, tant au niveau de leur latence que de leur amplitude, dans
une condition de parole audiovisuelle par rapport aux conditions unimodales). Notons qu’un
nombre beaucoup plus conséquent d’études ont démontré des effets d’interaction au niveau des
43
aires auditives qu’au niveau des aires visuelles. Dans la mesure où le signal visuel module l’activité
du cortex auditif primaire et secondaire dès les premières étapes de traitement de l’information
(autour de 100 msec. après le début de la stimulation), ces effets d’interaction peuvent qualifiés de
précoces. Comme l’indiquent également de nombreuses études comportementales, il est
vraisemblable que les signaux auditifs et visuels ne sont pas traités de façon complètement séparée
avant d’être intégrés. Il reste toutefois encore à déterminer de quel ordre exactement est
l’interaction au niveau des aires sensorielles. Le traitement de l’information effectué à ce niveau
est-il déjà d’ordre linguistique, ou, comme le suggèrent Klucharev et al. (2003), d’ordre général
(extraction des traits communs, non spécifiquement linguistiques, aux deux modalités) ?
De nombreux travaux convergent vers l’idée que les effets d’interaction décrits au niveau du
STS sont de nature phonétique. Ceux-ci sont en moyenne légèrement plus tardifs (vers 200 msec.
post-stimulation) que ceux décrits au niveau des aires sensorielles. La variabilité des latences
rapportées dans la littérature ne permet toutefois pas de déterminer précisément si l’activation du
STS est nécessairement consécutive à celle des aires sensorielles. Rappelons, à ce sujet, l’hypothèse
émise par Calvert et al. (1998 ; 2000) selon laquelle l’intégration audiovisuelle s’effectuerait
d’abord au niveau du STS avant que l’information visuelle soit renvoyée, via des rétro-projections,
au niveau du cortex auditif dont elle modulerait alors l’activité.
Notons que ces deux hypothèses (activation du STS antérieure ou postérieure à celle du
cortex auditif) ne sont peut -être pas complètement contradictoires. On pourrait imaginer que des
effets d’interaction précoces opèrent, dès les premières étapes de traitement de l’information, au
niveau des aires sensorielles. Le résultat de ces effets d’interaction pourrait alors être envoyé au
niveau du STS où les signaux auditifs et visuels seraient intégrés sur base phonétique. Enfin, cette
information pourrait être renvoyée au niveau du cortex auditif où le percept issu de l’intégration
serait véritablement traduit en termes auditifs.
Une autre question soulevée dans ce chapitre est celle de la base sur laquelle se fait
l’intégration. Suivant le concept d’intégration précoce, on peut admettre que l’intégration se fait sur
44
une base commune aux deux modalités. Les études d’imagerie cérébrale récentes démontrant
l’activation des aires motrices dans le traitement du langage oral, qu’il soit auditif, visuel ou
audiovisuel constituent un argument supplémentaire en faveur de l’idée, défendue par plusieurs
auteurs (e.g. Liberman et al., 1967), selon laquelle l’intégration audiovisue lle se ferait sur base d’un
code moteur. Une question qui n’a, à notre connaissance, pas encore été abordée dans la littérature
est celle du moment auquel les aires motrices sont impliquées, notamment par rapport aux aires
sensorielles et au STS, dans le t raitement du langage oral. La réponse à cette question permettrait
certainement de mieux comprendre comment les aires temporales et motrices interagissent pour
intégrer les représentations sensorielles multimodales avec les commandes motrices sous-jacentes à
ces représentations.
Si, comme nous venons de le voir, de nombreux questions relatives à l’organisation
cérébrale fonctionnelle du langage oral sont encore débattues actuellement, la très grande majorité
des auteurs s’accordent néanmoins sur l’idée que le traitement de la parole, quelle que soit sa
modalité d’entrée, est principalement l’œuvre de l’hémisphère gauche. Toutefois, alors que certains
auteurs attribuent la spécialisation hémisphérique gauche pour le traitement de la parole à des
mécanismes auditifs non spécifiquement linguistiques (avantage de l’hémisphère gauche pour le
traitement de stimuli nécessitant une haute résolution temporelle, ce qui est typiquement le cas des
stimuli linguistiques), d’autres auteurs y voient la marque d’une spécific ité intrinsèque de
l’hémisphère gauche pour le traitement de la parole. Comme nous l’avons souligné, les deux
hypothèses pourraient être conciliées sur base de l’idée que les mécanismes sous-jacents à la
résolution temporelle et ceux spécifiques à la parole interviendraient à des niveaux de traitement
différents (Zatorre et al., 2002).
Des questions similaires sont débattues en termes développementaux. Selon certains auteurs,
le développement de la parole reposerait sur des mécanismes auditifs généraux, non spécifiquement
humains (e.g. une sensibilité particulière du système nerveux animal à traiter les stimuli nécessitant
une haute résolution temporelle, tels les stimuli variant en termes de DEV). Sur base de cette idée,
45
on peut émettre l’hypothèse selon laquelle, au cours du développement, le traitement de la parole va
continuer à reposer sur de tels mécanismes non spécifiquement linguistiques. Toutefois, on ne peut
exclure, qu’au cours de l’exposition au langage, les êtres humains mettent en place des mécanismes
de traitement de la parole, spécifiquement linguistiques et localisés au niveau de l’hémisphère
gauche (dont la spécialisation fonctionnelle ne serait alors pas donnée d’emblée).
Selon un autre point de vue, le système nerveux serait prédisposé à traiter des stimuli
spécifiquement linguistiques. Le développement de la parole reposerait alors sur des mécanismes
spécifiquement linguistiques, qui seraient le fruit du développement phylogénétique de notre
espèce. Dans cette optique, l’hémisphère gauche serait d’emblée fonctionnellement organisé pour
traiter la parole.
Quelle que soit la nature des mécanismes à la base du développement de la perception de la
parole, de nombreux arguments indiquent que ceux-ci sont à la fois modulés par l’expérience
linguistique et par l’expérience sensorielle. Alors qu’au cours des premiers mois de leur vie, les
bébés humains structurent leurs représentations linguistiques en fonction de catégories dites
universelles, à partir de l’âge de six mois, ils commencent à les façonner en fonction de leur
environnement linguistique. Ce processus n’est pas établi une fois pour toutes, puisqu’il est possible
de développer très rapidement, même après plusieurs années d’utilisation de la langue native, une
sensibilité à des contrastes linguistiques d’autres langues. Pour des raisons de plasticité cérébrale,
on peut évidemment penser que cet apprentissage est d’autant plus rapide et solide qu’il est réalisé
précocement.
Dans le même ordre d’idées, les personnes privées d’input acoustique pendant les premiers
mois de leur vie, sont susceptibles de développer des compétences langagières et une organisation
fonctionnelle cérébrale sous-jacente à ces compétences s’approchant d’autant plus de la normale
que l’input auditif aura été restauré (par implant cochléaire par exemple) précocement. Toutefois,
un input acoustique minimum semble nécessaire au développement des structures auditives
cérébrales. En effet, des personnes sourdes n’utilisant pas de prothèse auditive ne montrent pas le
46
patron d’organisation cérébrale habituel. Par ailleurs, la nature de l’input acoustique affecte le
développement des structures cérébrales impliquées dans la perception du langage puisque le patron
d’activation observé suite à l’écoute de stimuli auditifs ne semble pas être le même chez des
patients sourds implantés et chez des personnes normo-entendantes.
Enfin, plusieurs données suggèrent que les mécanismes à la base du développement de la
parole possèdent, sinon d’emblée, du moins très rapidement une composante audiovisuelle.
Malgré les nombreuses questions qui restent en suspend à l’issue de ce chapitre, on peut au
moins conclure que la perception de la parole ne peut plus être considérée comme un phénomène
purement auditif. Le signal visuel est non seulement intégré, de façon irrépressible, au signal auditif
dès les premières étapes de traitement de la parole, mais il le serait aussi dès les premières étapes de
l’apprentissage du langage. On peut ainsi considérer que la parole possède, par essence, un statut
audiovisuel.
Remerciements
Ce travail a pu être réalisé grâce au soutien financier de la Fondation Fyssen.
Bibliographie
Banati, R.B., Goerres, G.W., Tjoia, C., Aggleton, J.P., & Grasby, P. (2000). The functional
anatomy of visual-tactile integration in man : a study using positron emission tomography.
Neuropsychologia, 38, 115-124.
Barraclough, N.E., Xiao, D., Baker, C.I., Oram, M.W., & Perrett, D.I. (2005). Integration of
visual and auditory information by superior temporal sulcus neurons responsive to the sight of
actions. Journal of Cognitive Neuroscience, 17, 377-391.
47
Baumgartner, W.D., Pok, S. M., Egelierler, B., Franz, P., Gstoettner, W., & Hamzavi, J.
(2002). The role of age in pediatric cochlear implantation. International Journal of Pediatric
Otorhinolaryngology, 62, 223-228.
Bavelier, D., Corina, D., Jezzard, P., Clark, V., Karni, A., Lalwani, A., Rauscheker, J.P.,
Braun, A., Turner, R., & Neville, H. (1998). Hemispheric specialization for English and ASL: left
invariance-right variability. NeuroReport, 9, 1537-1542.
Baynes, K., Funnell, M.G., & Fowler, C.A. (1994). Hemispheric contributions to the
integration of visual and auditory information in speech perception. Perception and Psychophysics,
55, 633-641.
Bernstein, L.E., Auer, E.T.J., Moore, J.K., Ponton, C.W., Don, M., & Singh, M. (2002).
Visual speech perception without primary auditory cortex activation. NeuroReport, 13, 311-315.
Besle, J., Fort, A., Delpuech, C., & Giard, M.H. (2004). Bimodal speech : early suppressive
visuel effects in human auditory cortex. European Journal of Neuroscience, 20, 2225-2234.
Best, C.T., McRoberts, G.W., & Sithole, N.M. (1988). Examination of perceptual
reorganisation for nonnative speech contrasts: zulu click discrimination by english-speaking adults
and infants. Journal of Experimental Psychology: Human Perception and Performance, 14, 345-360.
Binder, J.R., Frost, J.A., & Hammeke, T.A. (1996). Function of the left planum temporale in
auditory and linguistic processing. Brain, 119, 1239-1247.
Binder, J.R., Frost, J.A., Hammeke, T.A., Cox, R.W., Rao, S.M., & Prieto, T. (1997).
Human brain language areas identified by functional magnetic resonance imaging. Journal of
Neuroscience, 17, 353-362.
Binder, J.R., Rao, S.M., Hammeke, T.A., Yetkin, F.Z., Jesmanowicz, A., Bandettini, P.A.,
Wong, E.C., Estkowski, L.D., Goldstein, M.D., Haughton, V.M., & Hyden J.S. (1994). Functional
magnetic resonance imaging of human auditory cortex. Annals of Neurology, 35, 662-672.
48
Buchsbaum, B.R., Hickok, G., & Humphries, C. (2001). Role of left posterior superior
temporal gyrus in phonological processing for speech perception and production. Cognitive
Science, 25, 663-678.
Burnham, D., & Dodd, B. (1996). Auditory-visual speech perception as a direct process:
The McGurk effect in infants and across languages. Proceedings of Speechreading by Humans and
Machines Conference. Castéra-Verzudan, France, 103-113.
Callan, D.E., Callan, A.M., Kroos, C., & Vatikiotis-Bateson, E. (2001). Multimodal
contribution to speech perception revealed by independent component analysis: a single-sweep
EEG case study. Cognitive Brain Research, 10, 349-353.
Callan, D.E., Jones, J.A., Munhall, K., Callan, A.M., Kroos, C. & Vatikiotis-Bateson, E.
(2003). Neural processes underlying perceptual enhancement by visual speech gestures.
NeuroReport, 14, 2213-2218.
Calvert, G.A. (2001). Crossmodal processing in the human brain : Insights from functional
neuroimaging studies. Cerebral Cortex, 11, 1110-1123.
Calvert, G.A., Brammer, M.J., Bullmore, E.T., Campbell, R., Iversen, S.D., & David, S.A.
(1999). Response amplification in sensory-specific cortices during crossmodal binding.
NeuroReport, 10, 2619-2623.
Calvert, G.A., Brammer, M.J., & Iversen, S.D. (1998). Crossmodal identification. Trends in
Cognitive Sciences, 2, 247-253.
Calvert, G.A., Bullmore, E.T., Brammer, M.J., Campbell, R., Williams, S.C.R., McGuire, P.
K., Woodruff, P.W.R., Iversen, S.D., & David, A.S. (1997). Activation of auditory cortex during
silent lipreading. Science, 276, 593-595.
Calvert, G.A., & Campbell, R. (2003). Reading speech from still and moving faces : the
neural substrates of visible speech. Journal of Cognitive Neuroscience, 15, 57-70.
49
Calvert, G.A., Campbell, R., & Brammer, M.J. (2000). Evidence from functional magnetic
resonance imaging of crossmodal binding in the human heteromodal cortex. Current Biology, 10,
649-657.
Campbell, R. (1986). The lateralization of lip-read sounds: a first look. Brain and Cognition,
15-21.
Campbell, R. (1987). The cerebral lateralization of lip-reading. In B. Dodd & R. Campbell
(Eds.), Hearing by Eye: The Psychology of Lip-reading (pp. 215-225). London, NJ: Lawrence
Erlbaum Associates.
Campbell, R. (1992). Lip-reading and the modularity of cognitive function:
Neuropsychological glimpses of fractionation for speech and for faces. In J. Alegria, D. Holender, J.
Morais, & M. Radeau (Eds.), Analytic Approaches to Human Cognition (pp. 275-289). Elsevier
Science publishers.
Campbell, R. (1996). Seeing brains reading speech: A review and speculations. Proceedings
of Speechreading by Humans and Machines Conference. Castéra-Verzudan, France, 115-133.
Campbell, R., de Haan, E.H.F., & de Gelder, B. (1996). The lateralization of lipreading: a
second look. Neuropsychologia, 34, 1235-1240.
Campbell, R., Garwood, J., Franklin, S., Howard, D., Landis, T., & Regard, M. (1990).
Neuropsychological studies of auditory-visual fusion illusions. Four cases studies and their
implications. Neuropsychologia, 28, 787-802.
Campbell, R., Landis, T., & Regard, M. (1986). Face recognit ion and lipreading: a
neurological dissociation. Brain, 109, 509-521.
Campbell, R., MacSweeney, M., Surguladze, S.A., Calvert, G.A., McGuire, P., Suckling, J.,
Brammer, M.J., & David, A.S. (2001). Cortical substrates for the perception of face actions : a n
fMRI study of the specificity of activation for seen speech and for meaningless lower-face acts
(gurning). Cognitive Brain Research, 12, 233-243.
50
Cheour, M., Ceponiene, R., Lehtokoski, A., Luuk, A., Allik, J., Alho, K., & Näätänen, R.
(1998). Development of language-specific phoneme representation in the infant brain. Nature
Neuroscience, 1, 351-353.
Cheour, M., Shestakova, A., Alku, P., Ceponienne, R., & Näätänen, R. (2002). Mismatch negativity
shows that 3-6 year old children can learn to discriminate non native speech sounds within two
months. Neuroscience Letters, 325, 187-190.
Clark, G. (2003). Cochlear implants in children : safety as well as speech and language.
International Journal of Pediatric Otorhinolaryngology, 67, S7-S20.
Colin, C., & Radeau, M. (2003). Les illusions McGurk dans la parole : 25 ans de recherches.
L'Année Psychologique, 104, 497-542.
Colin, C., Radeau, M., Soquet, A., Colin, F., & Deltenre, P. (2002). Mismatch negativity
evoked by the McGurk-MacDonald effect : Evidence for a phonological representation within the
auditory sensory short term memory. Clinical Neurophysiology, 113, 495-506.
Colin, C., Radeau, M., Soquet, A., & Deltenre, P. (2004). Generalization of the generation
of an MMN by illusory McGurk percepts : voiceless consonants. Clinical Neurophysiology, 115,
1989-2000.
Cowan, N., Winkler, I., Teder, W., & Näätänen, R. (1993). Memory prerequisites of
mismatch negativity in the auditory event-related potential (ERP). Journal of Experimental
Psychology: Learning, Memory and Cognition, 19, 909-921.
de Gelder, B., Vroomen, J., & Bachoud-Levi, A.-C. (1998). Impaired speechreading and
audio-viual speech integration in prosopagnosia. In R. Campbell, B. Dodd, & D. Burnham (Eds.),
Hearing by eye II (pp. 195-207). Psychology Press.
Dehaene-Lambertz, G. (2000). Le développement de la perception phonologique chez
l'enfant: études électrophysiologiques. Revue de Neuropsychologie, 10(4), 519-533.
Dehaene-Lambertz, G., & Baillet, S. (1998). A phonological representation in the infant
brain. NeuroReport, 9, 1885-1888.
51
Dehaene-Lambertz, G., & Dehaene, S. (1994). Speed and cerebral correlates of syllable
discrimination in infants. Nature, 370, 292-295.
Dehaene-Lambertz, G., Dehaene, S., & Hertz-Pannier, L. (2002). Functional neuroimaging
of speech perception in infants. Science, 298, 2013-2015.
Dehaene-Lambertz, G., Pallier, C., Serniclaes, W., Sprenger-Charolles, L., Jobert, A. &
Dehaene, S. (2005). Neural correlates of switching from auditory to speech perception.
NeuroImage, 24, 21-33.
Dehaene-Lambertz, G., & Peña, M. (2001). Electrophysiological evidence for automatic
phonetic processing in neonates. NeuroReport, 12, 3155-3158.
Démonet, J.F., Chollet, F., Ramsay, S., Cardebat, D., Nespoulous, J.L., Wise, R., Rascol, A.,
& Frackowiak, R. (1992). The anatomy of phonological and semantic processing in normal
subjects. Brain, 115, 1753-1768.
Dent, M.L., Brittan-Powell, E.F., Dooling, R.J., Pierce, A. (1997). Perception of synthetic
/ba/-/wa/ speech continuum by budgerigars (Melopsittacus undulates). Journal of the Acoustical
Society of America, 102, 1891-1897.
Diesch, E. (1995). Left and right hemifield advantages of fusions and combinations in
audiovisual speech perception. Quarterly Journal of Experimental Psychology, 48A, 320-333.
Dodd, B. (1979). Lip reading in infants: Attention to speech presented in- and out-of-
synchrony. Cognitive Psychology, 11, 478-484.
Dorman, M.F., Studdert-Kennedy, M., & Raphaël, L.J. (1977). Stop-consonant recognition:
Release bursts and formant transitions as functionally equivalent, context-dependent cues.
Perception and Psychophysics, 22, 109-122.
Eimas, P.D. (1974). Auditory and linguistic processing of cues for place of articulation by
infants. Perception and Psychophysics, 16, 513-521.
Eimas, P.D., S iqueland, E.R., Jusczyk, P., & Vigorito, J. (1971). Speech perception in
infants. Science, 171, 303-306.
52
Fingelkurts, A.A., Fingelkurts, A.A., Krause, C.M., Möttönen, R., & Sams, M. (2003).
Cortical operational synchrony during audio-visual speech integration. Brain and Language, 85,
297-312.
Fowler, C.A. (1991). Auditory perception is not special: We see the world, we feel the
world, we hear the world. Journal of the Acoustical Society of America, 89, 2910-2915.
Fowler, C.A., & Dekle, D.J. (1991). Listening with eye and hand: Cross-modal contributions
to speech perception. Journal of experimental Psychology: Human Perception and Performance, 17,
816-828.
Gandour, J., Wong, D., Hsieh, L., Weinzapfel, B., Van Lancker, D., & Hutchins, G. D.
(2000). A crosslinguistic PET study of tone perception. Journal of Cognitive Neuroscience, 12, 207-
222.
Gandour, J., Wong, D., & Hutchins, G. (1998). Pitch processing in the human brain is
influenced by language experience. NeuroReport, 9, 2115-2119.
Ghazanfar, A.A., Maier, J.X., Hoffman, K.L., Logothetis, N.K. (2005). Multisensory
integration of dynamic faces and voices in rhesus monkey auditory cortex. Journal of Neuroscience,
25, 5004-5012.
Giraud, A.L., Price, C.J., Graham, J. M., Truy, E., & Frackowiak, R.S.J. (2001). Cross-
modal plasticity underpins language recovery after cochlear implantation. Neuron, 30, 657-663.
Giraud, A.L., & Truy, E. (2002). The contribution of visual areas to speech comprehension:
a PET study in cochlear implants patients and normal-hearing subjects. Neuropsychologia, 40,
1562-1569.
Green, K.P. (1998). The use of auditory and visual information during phonetic processing:
implications for theories of speech perception. In R. Campbell, B. Dodd, & D. Burnham (Eds.),
Hearing by eye II (pp. 3-25). Psychology Press.
53
Green, K.P., & Gerdeman, A. (1995). Cross-modal discrepancies in coarticulation and the
integration of speech information: The McGurk effect with mismatched vowels. Journal of
Experimental Psychology: Human Perception and Performance, 21, 1409-1426.
Green, K.P., & Kuhl, P.K. (1989). The role of visual information in the processing of place
and manner features in speech perception. Perception and Psychophysics, 45, 34-42.
Green, K.P., & Kuhl, P.K. (1991). Integral processing of visual place and auditory voicing
information during phonetic perception. Journal of Experimental Psychology: Human Perception
and Performance, 17, 278-288.
Green, K.P., & Miller, J.L. (1985). On the role of visual rate information in phonetic
perception. Perception and Psychophysics, 38, 269-276.
Hadjikhani, N., & Roland, P.E. (1998). Cross-modal transfer of information between the
tactile and the visual representations in the human brain : a positron emission tomography study.
Journal of Neuroscience, 18, 1072-1084.
Hardison, D.B. (1996). B imodal perception by native and nonnative speakers of English:
Factors influencing the McGurk effect. Language Learning, 46, 3-73.
Hickok, G., Bellugi, U., & Klima, E.S. (1996). The neurobiology of sign language and its
implications for the neural basis of language. Nature, 381, 699-702.
Jääskelainen, I.P., Ojanen, V., Ahveninen, J., Auranen, T., Levänen, S., Möttönen, R.,
Tarnanen, I., & Sams, M. (2004). Adaptation of the neuromagetic N1 responses to phonetic stimuli
by visual speech in humans. NeuroReport, 15, 2741-2744.
Jones, E.G., & Powell, T.P.S. (1970). An anatomical study of converging sensory pathways
within the cerebral cortex of the monkey. Brain, 93, 793-820.
Jones, J.A., & Callan, D. (2003). Brain activity during audiovisual speech perception: an
fMRI study of the McGurk effect. NeuroReport, 14, 1129-1133.
Jones, J.A., & Munhall, K.G. (1996). Spatial and temporal influences on audiovisual speech
perception. International Journal of Psychology, 31, 473.4.
54
Klein, D., Zatorre, R.J., Milner, B., & Zhao, V. (2001). A cross-linguistic PET study of tone
perception in Mandarin Chinese and English speakers. NeuroImage, 13, 646-653.
Klucharev, V., Möttönen, R., & Sams, M. (2003). Electrophysiological indicators of
phonetic and non-phonetic multisensory interactions during audiovisual speech perception.
Cognitive Brain Research, 18, 65-75.
Kluender, K.R., Diehl, R.L., & Killeen, P.R. (1987). Japonese quail can learn phonetic
categories. Science, 237, 1195-1197.
Kohler, E., Keysers, C., Umilta, M. A., Fogassi, L., Gallese, V., & Rizzolatti, G. (2002).
Hearing sounds, understanding actions : Action representation in mirror neurons. Science, 297, 846-
848.
Kuhl, P.K. (1993). Innate predispositions and the effects of experienc e in speech perception:
the native language magnet theory. In d. Boysson-Bardies (Ed.), Developmental Neurocognition :
Speech and Faces Processing in the First Year of Life (pp. 259-274). Kluwer Academic Publishers.
Kuhl, P.K., & Meltzoff, A.N. (1982). The bimodal perception of speech in infancy. Science,
218, 1138-1141.
Kuhl, P.K., & Meltzoff, A.N. (1984). The intermodal representation of speech in infants.
Infant Behavior and Development, 7, 361-381.
Kuhl, P.K., & Miller (1975). Speech perception by the chinchilla : voiced-voiceless
distinction in alveolar plosive consonants. Science, 190, 69-72.
Kuhl, P.K., & Miller (1978). Speech perception by the chinchilla : identification function for
synthetic VOT stimuli. Journal of the Acoustical Society of America, 63, 905-917.
Kuhl, P.K., & Padden, D.M. (1982). Enhanced discriminability at the phonetic boundaries
for the voicing feature in macaques. Perception and Psychophysics, 32, 542-550.
Kuhl, P.K., & Padden, D.M. (1983). Enhanced discriminability at the phonetic boundaries
for the place feature in macaques. Perception Journal of the Acoustical Society of America, 73,
1003-1010.
55
Kuhl, P.K., Williams, K.A., Lacerda, F., Stevens, K.N., & Lindblom, B. (1992). Linguistic
experience alters phonetic perception in infants by 6 months of age. Science, 255, 606-608.
Kuhl, P.K., Williams, K.A., & Meltzoff, A.N. (1991). Cross-modal speech perception in
adults and infants using non speech auditory stimuli. Journal of Experimental Psychology: Human
Perception and Performance, 17, 826-840.
Kujala, T., Alho, K., & Näätänen, R. (2000). Cross-modal reorganization of human cortical
functions. Trends in Neuroscience, 3, 115-120.
Lang, A.H., Eerola, O., Korpilahti, P., Holopainen, I., Salo, S., & Aaltonen, O. (1995).
Practical issues in the clinical application of mismatch negativity. Ear and Hearing, 16, 118-130.
Lasky, R.E., Syrdal-Lasky, A., & Klein, R.E. (1975). VOT discrimination by four to six a
half months old infants from Spanish environments. Journal of Experimental Child Psychology, 20,
215-225.
Liberman, A.M., Cooper, F.S., Shankweiler, D.P., & Studdert-Kennedy, M. (1967).
Perception of the speech code. Psychological Review, 74, 431-461.
Liberman, A.M., Harris, K.S., Hoffman, H.S., & Griffith, B.C. (1957). The discrimination of
speech sounds within and across phoneme categories. Journal of Experimental Psychology, 54, 358-
368.
Liberman, A.M., & Mattingly, I.G. (1985). The motor-theory of speech revised. Cognition,
21, 1-36.
Liégeois-Chauvel, C., de Graaf, J.B., Laguitton, V., & Chauvel, P. (1999). Specialization of
left auditory cortex for speech perception in man depends on temporal coding. Cerebral Cortex, 9,
484-496.
Lisker, L., & Abramson, A.S. (1964). A cross language study of voicing in initial stops :
acoustical measurement. Word, 20, 384-422.
Locke, J.L. (1997). A theory of neurolinguistic development. Brain and Language, 58, 265-
326.
56
Macaluso, E., George, N., Dolan, R., Spence, C., & Driver, J. (2004). Spatial and temporal
factors during processing of audiovisual speech : a PET study. NeuroImage, 21, 725-732.
MacKain, K., Studdert-Kennedy, M., Spieker, S., & Stern, S. (1983). Infant intermodal
speech perception is a left hemisphere function. Science, 219, 1347-1349.
MacSweeney, M., Amaro, E., Calvert, G., Campbell, R., David, A., McGuire, P., Williams,
S., Woll, B., & Brammer, M. (2000). Silent speechreading in the absence of scanner noise : an
event-related fMRI study. NeuroReport, 11, 1729-1733.
MacSweeney, M., Campbell, R., Calvert, G. A., McGuire, P. K., David, A. S., Suckling, J.,
Andrew, C., Woll, B., & Brammer, M. J. (2001). Dispersed activation in the left temporal cortex for
speech-reading in congenitally deaf people. Proceedings of the Royal Society of London, 268, 451-
457.
Massaro, D.W. (1998). Perceiving Talking Faces: From Speech Perception to a Behavioral
Principle: The MIT Press.
Massaro, D.W., Cohen, M.M., & Smeele, P.M.T. (1996). Perception of asynchronous and
conflicting visual and auditory speech. Journal of the Acoustical Sociey of America, 100, 1777-
1786.
Massaro, D.W., Cohen, M.M., & Thompson, L.A. (1988). Visible language in speech
perception : Lipreading and reading. Visible Language, 1, 8-31.
Mazoyer, B.M., Tzourio, N., Frak, V., Syrota, A., Murayama, N., Levrier, O., Salamon, G.,
Dehaene, S., Cohen, L., & Mehler, J. (1993). The cortical representation of speech. Journal of
Cognitive Neuroscience, 5, 467-479.
McGurk, H., & MacDonald, J. (1976). Hearing lips and seeing voices. Nature, 264, 746-748.
Meredith, M.A., & Stein, B.E. (1983). Interaction among converging sensory inputs in the
superior colliculus. Science, 221, 389-391.
Möttönen, R., Krause, C.M., Tiipana, K., & Sams, M. (2002). Processing of changes in
visual speech in the human auditory cortex. Cognitive Brain Research, 13, 417-425.
57
Möttönen, R., Schürmann, M., & Sams, M. (2004). Time course of multisensory interactions
during audiovisual speech perception in humans : a magnetoencephalographic study. Neuroscience
Letters, 363, 112-115.
Munhall, K.G., & Tohkura, Y. (1998). Audiovisual gating and the time course of speech
perception. Journal of the Acoustical Society of America, 104, 530-539.
Näätänen, R. (1992). Attention and brain function. Hillsdale, N.J.: Lawrence Erlbaum
Associates.
Näätänen, R., Lehtokoski, A., Lennes, M., Cheour, M., Huotilainen, M., Livonen, A.,
Vainio, M., Alku, P., Limoniemi, R. J., Luuk, A., Sinkkonen, J., & Alho, K. (1997). Language -
specific phoneme representations revealed by electric and magnetic brain responses. Nature, 385,
432-434.
Neville, H.J., Schmidt, A., & Kutas, M. (1983). Altered visual-evoked potentials in
congenitally deaf adults. Brain Research, 266, 127-132.
Nishimura, H., Hashikawa, K., Doi, K., Iwaki, T., Watanabe, Y., Kusuoka, H., Nishimura,
T., & Kubo, T. (1999). Sign language "heard" in the auditory cortex. Nature, 392, 116.
Ojanen, V., Möttönen, R., Pekkola, J., Jääskeläinen, I.P., Joensuu, R., Autti, T., Sams, M.
(2005). Processing of audiovisual speech in Broca’s area. NeuroImage, 25, 333-338.
Olson, I.R., Gatenby, J.C., & Gore, J.C. (2002). A comparison of bound and unbound audio-
visual information processing in the human cerebral cortex. Cognitive Brain Research, 14, 129-138.
Patterson, M.L., & Werker, J.F. (1999). Matching phonetic information in lips and voice is
robust in 4.5-month-old infants. Infant Behavior and Development, 22, 237-247.
Patterson, M.L., & Werker, J.F. (2003).Two-month-old infants match phonetic information
in lips and voice. Developmental Science, 6, 191-196.
Pekkola, J., Ojanen, V., Autti, T., Jääskela inen, I.P., Möttönen, R., Tarkiainen, A. & Sams,
M. (2005). Primary auditory cortex activation by visual speech : an fMRI study at 3 T.
NeuroReport, 16, 125-128.
58
Peña, M., Maki, A., Kovacic, D., Dehaene -Lambertz, G., Koizumi, H., Bouquet, F., &
Mehler, J. (2003). Sounds and silence : An optical topography study of language recognition at
birth. Proceedings of the National Academy of Sciences, 100, 11702-11705.
Petersen, S.E., Fox, P.T., Posner, M.I., Mintun, M., & Raichle, M.E. (1988). Positron
emission tomographic studies of the cortical anatomy of single-word processing. Nature, 331, 585-
589.
Petitto, L.A., Zatorre, R.J., Gauna, K., Nikelski, E.J., Dostie, D., & Evans, A.C. (2000).
Speech-like cerebral activity in profoundly deaf people processing signe d languages : implications
for the neural basis of human language. Proceedings of the National Academy of Sciences, 97,
13961-13966.
Picton, T.W., Alain, C., Otten, L., Ritter, W., & Achim, A. (2000). Mismatch Negativity :
Different water in the same river. Audiology and Neurootology, 5, 111-139.
Ponton, C.W., Don, M., Eggermont, J.J., Waring, M.D., Kwong, B., & Masuda, A. (1996).
Auditory system plasticity in children after long periods of complete deafness. NeuroReport, 8, 61-
65.
Purdy, S., Kelly, A.S., & Thorne, P.R. (2001). Auditory evoked potentials as measures of
plasticity in humans. Audiology and Neurootology, 6, 211-215.
Raij, T., Uutela, K. & Hari, R. (2000). Audiovisual integration of letters in the human brain.
Neuron, 28, 617-625.
Ramus, F., Hauser, M.D., Miller, C., Morris, D., & Mehler, J. (2000). Language
discrimination by human newborns and by cotton-top tamarin monkeys. Science, 288, 349-351.
Rinne, T., Alho, K., Alku, P., Holi, M., Sinkkonen, J., Virtanen, J., Bertrand, O., &
Näätänen, R. (1999). Analysis of speech sounds is left -hemisphere predominant at 100-150 ms after
sound onset. NeuroReport, 10, 1113-1117.
59
Ritter, W., Deacon, D., Gomes, H., Javitt, D.C., & Vaughan, H.G.J. (1995). The mismatch
negativity of event-related potentials as a probe of transient auditory memory: A review. Ear and
Hearing, 16, 52-67.
Rivera-Gaxiola, M., Silva-Peyrera, J. & Kuhl, P.K. (2005). Brain potentials to native and
non-native speech contrasts in 7- and 11-month-old American infants. Developmental Science, 8,
162-172.
Rizzolati, G., Fadiga, L., Gallese, V., & Fogassi, L. (1996). Premotor cortex and the
recognition of motor actions. Cognitive Brain Research, 3, 131-141.
Roberts, M. (1987). Audio-visual speech perception and selective adaptation. In B. Dodd &
R. Campbell (Eds.), Hearing by Eye: The Psychology of Lip-reading (pp. 85-96). London, NJ:
Lawrence Erlbaum Associates.
Roberts, M., & Summerfield, Q. (1981). Audiovisual presentation demonstrates that
selective adaptation in speech perception is purely auditory. Perception and Psychophysics, 30, 309-
314.
Rosen, S.M., Fourcin, A.J., & Moore, B.C.J. (1981). Voice pitch as an aid to lipreading.
Nature, 291, 150-153.
Rosenblum, L.D., Schmuckler, M.A., & Johnson, J.A. (1997). The McGurk effect in infants.
Perception and Psychophysics, 59, 347-357.
Saldaña, H.M., & Rosenblum, L.D. (1994). Selective adaptation in speech perception using
a compelling audiovisual adaptor. Journal of the Acoustical Society of America, 95, 3658-3661.
Sams, M., Aulanko, R., Hämäläinen, M., Hari, R., Lounasmaa, O. V., Lu, S.-T., & Simola,
J. (1991). Seeing speech: Visual information from lip movements modifies activity in the human
auditory cortex. Neuroscience Letters, 127, 141-145.
Sams, M., & Levänen, S. (1996). Where and when are the heard and seen speech integrated:
Magnetoencephalographical (MEG) studies. Proceedings of Speechreading by Humans and
Machines Conference. Castéra-Verzudan, France, 233-246.
60
Schroeder, C. E., & Foxe, J. J. (2002). The timing and laminar profile of converging inputs
to multisensory areas of the macaque neocortex. Cognitive Brain Research, 14, 187-198.
Schwartz, J.-L., Robert-Ribes, J., & Escudier, P. (1998). Ten years after Summerfield: a
taxonomy of models for audio-visual fusion in speech perception. In R. Campbell, B. Dodd, & D.
Burnham (Eds.), Hearing by eye II (pp. 85-108). Psychology Press.
Sekiyama, K. (1997). Cultural and linguistic factors in audiovisual speech processing: The
McGurk effect in Chinese subjects. Perception and Psychophysics, 59, 73-80.
Sekiyama, K., Kanno, I., Miura, S., & Sugita, Y. (2003). Auditory-visual speech perception
examined by fMRI and PET. Neuroscience Research, 47, 277-287.
Sekiyama, K., & Tohkura, Y. (1991). McGurk effect in non-English listeners: few visual
effects for Japanese subjects hearing Japanese syllables of high auditory intelligibility. Journal of
the Acoustical Society of America, 90, 1797-1805.
Sekiyama, K., & Tohkura, Y. (1993). Inter-language differences in the influence of visual
cues in speech perception. Journal of Phonetics, 21, 427-444.
Sharma, A., Dorman, M.F., & Kral, A. (2005). The influence of a sensitive period on central
auditory development in children with unilateral and bilateral cochlear implants. Hearing Research,
203, 134-143.
Sharma, A., Dorman, M.F., & Spahr, A. (2002a). Rapid development of cortical auditory
evoked potentials after early cochlear implantation. NeuroReport, 13, 1365-1368.
Sharma, A., Dorman, M.F., & Spahr, A. (2002b). A sensitive period for the development of
the central auditory system in children with cochlear implantation. Ear and Hearing, 23, 532-539.
Sharma, A., Dorman, M.F., Spahr, A.J., & Todd, N.W. (2002). Early cochlear implantation
in children allows normal development of central auditory pathways. Annals of Oto-Rhino-
Laryngology, Suppl., 189, 38-41.
61
Shestakova, A., Huotilainen, M., Ceponienne, R., & Cheour, M. (2003). Event related
potentials associated with second language learning in children. Clinical Neurophysiology, 114,
1507-1512.
Shtyrov, Y., Kujala, T., Palva, S., Ilmoniemi, R. J., & Näätänen, R. (2000). Discrimination
of speech and of complex nonspeech sounds of different temporal structure in the left and right
cerebral hemispheres. NeuroImage, 12, 657-663.
Sinex, D.G., McDonald, L.P., & Mott, J.B. (1991). Neural correlates of nonmonotonic
temporal acuity for voice onset time. Journal of the Acoustical Society of America, 90, 2441-2449.
Skipper, J.I., Nusbaum, H.C., Small, S.L. (2005). Listening to talking faces : motor cortical
activation during seech perception. NeuroImage, 25, 76-89.
Smeele, P.M.T., Massaro, D.W., Cohen, M., & Sittig, A.C. (1998). Laterality in visual
speech perception. Journal of Experimental Psychology: Human Perception and Performance, 24,
1232-1242.
Streri, A. (2003). Cross-modal recognition of shape from hand to eyes in human newborns.
Somatosensory and Motor Research, 20, 13-18.
Sumby, W.H., & Pollack, I. (1954). Visual contribution to speech intelligibility in noise.
Journal of the Acoustical Society of America, 26, 212-215.
Tallal, P. (1980). Language disabilities in children : a perceptual or linguistic deficit ?
Journal of Pediatric Psychology, 5, 127-140.
Tees, R.C. & Werker, J.F. (1984). Perceptual flexibility : Maintenance or recovery of the
ability to discriminate nonnative speech sounds. Canadian Journal of Psychology, 38, 579-590.
van Atteveldt, N., Formisano, E., Goebel, R., & Blomert, L. (2004). Integration of letters
and speech sounds in the human brain. Neuron, 43, 1-12.
Vandenberghe, R., Price, C., Wise , R., Josephs, O., & Frackowiak, R.S.J. (1996). Functional
anatomy of a common semantic system for words and pictures. Nature, 383, 254-256.
62
van Wassenhove, V., Grant, K.W. & Poeppel, D. (2005). Visual speech speeds up the neural
processing of auditory speech. Proceedings of the National Academy of Sciences, 102, 1181-1186.
Vieu, A., Mondain, M., Blanchard, K., Sillon, M., Reuillard-Artieres, F., Tobey, E., Uziel,
A., & Piron, J. P. (1998). Influence of communication mode on speech intelligibility and syntactic
structure of sentences in profoundly hearing impaired French children implanted between 5 and 9
years of age. International Journal of Pediatric Otorhinolaryngology, 44, 15-22.
Vroomen, J., & de Gelder, D. (1999). Crossmodal integration: A good fit is no criterion.
Trends in Cognitive Science, 4, 37-38.
Walden, B.E., Prosek, R.A., Montgomery, A.A., Scherr, C.K., & Jones, C.J. (1977). Effects
of training on the visual recognition of consonants. Journal of Speech and Hearing Research, 20,
130-145.
Walton, G.E., & Bower, T.G.R. (1993). Amodal representation of speech in infants. Infant
Behavior and Development, 16, 233-243.
Werker, J.F. (1991). The ontogeny of speech perception. In I. G. Mattingly & M. Studdert-
Kennedy (Eds.), Modularity and the Motor Theory of Speech Perception (pp. 91-110). Hillsdale,
N.J.: Lawrence Erlbaum Associates.
Werker, J.F., Gilbert, J.H.V., Humphrey, K., & Tees, R.C. (1981). Developmental aspects of
cross-language speech perception. Child Development, 52, 349-355.
Werker, J.F., & Tees, R.C. (1984). Cross-language speech perception: Evidence for
perceptual reorganization during the first year of life. Infant Behavior and Development, 7, 49-63.
Wilson, S.M., Saygin, A.P., Sereno, M.I., & Iacobini, M. (2004). Listening to speech
activates motor areas involved in speech production. Nature Neuroscience, 7, 701-702.
Winkler, I., Lehtokoski, A., Alku, P., Vainio, M., Czigler, I., Csepe, V., Aaltonen, O.,
Raimo, I., Alho, K., Lang, H., Iivonen, A., & Näätänen, R. (1999). Pre-attentive detection of vowel
contrasts utilizes both phonetic and auditory memory representations. Cognitive Brain Research, 7,
357-369.
63
Wright, T.M., Pelphrey, K.A., Allison, T., McKeown, M.J., & McCarthy, G. (2003).
Polysensory interactions along lateral temporal regions evoked by audiovisual speech. Cerebral
Cortex, 13, 1034-1043.
Wu, J.L., & Yang, H.M. (2003). Speech perception of Mandarin Chinese speaking young
children after cochlear implant use : effect of age at implantation. International Journal of Pediatric
Otorhinolaryngology, 67, 247-253.
Zatorre, R.J. (1988). Pitch perception of complex tones and human temporal-lobe function.
Journal of the Acoustical Society of America, 84, 566-572.
Zatorre, R.J., Belin, P., & Penhune, V.B. (2002). Structure and function of auditory cortex :
music and speech. Trends in Cognitive Sciences, 6, 37-46.
Zatorre, R.J., Evans, A.C., Meyer, E., & Gjedde, A. (1992). Lateralization of phonetic and
pitch discrimination in speech processing. Science, 256, 846-849.
Zatorre, R.J., Meyer, E., Gjedde, A., & Evans, A.C. (1996). PET studies of phonetic
processing of speech: Review, replication and reanalysis. Cerebral Cortex, 6, 21-30.
Zhang, Y., Kuhl, P.K., Imada, T., Iverson, P., Pruitt, J., Kotani, M. & Stevens, E. (2000).
Neural plasticity revealed in perceptual training of a Japanese adult listener to learn American /l-r/
contrast : a whole -head magnetoencephalography study. Proceedings of the 6th International
Conference of Spoken Language Processing.