L’organisation cérébrale fonctionnelle du langage oral et ...

1

L’organisation cérébrale fonctionnelle du langage oral et son développement

Cécile Colin

Institut de Neurosciences Cognitives de la Méditerranée, CNRS - Marseille

Résumé

La première section de ce chapitre sera consacrée à l’étude des substrats neuraux du langage

oral. Dans un premier temps, nous passerons brièvement en revue les études d’imagerie cérébrale

mettant en lumière les aires cérébrales activées par la parole auditive et leur rôle fonctionnel.

Partant de l’idée que la parole est, par nature, le plus souvent multimodale, nous nous pencherons

ensuite sur l’organisation cérébrale sous -jacente à la parole visuelle et, enfin, plus particulièrement

sur les zones cérébrales impliquées dans l’intégration de la parole audiovisuelle. La deuxième

section sera consacrée à l’examen du décours temporel des activations cérébrales relatives à la

perception du langage oral. Nous nous pencherons principalement sur les données issues de la

technique des Potentiels Evoqués cérébraux (PE) qui offre une remarquable résolution temporelle.

Une troisième section sera consacrée à la question de la spécialisation hémisphérique gauche pour

la perception de la parole. Celle -ci repose-t-elle sur des mécanismes acoustiques ou spécifiquement

linguistiques ? La question du développement ontogénétique de l’organisation cérébrale

fonctionnelle du langage oral sera également envisagée dans une quatrième section. Cette

organisation est-elle donnée d’emblée ou se développe -t-elle par apprentissage ? Dans ce cadre, le

rôle de l’expérience linguistique et de l’expérience sensorielle sur le modelage des systèmes

responsables du traitement du langage oral seront envisagés. Enfin, nous nous demanderons si la

parole possède d’entrée de jeu une composante audiovisuelle ou si celle -ci se met progressivement

en place par contact avec des visages parlants.

2

I. Les Substrats neuraux de la parole orale

I.1. La parole auditive

Avant d’aborder l’organisation fonctionnelle des aires cérébrales jouant un rôle dans le

traitement de la parole auditive, il nous paraît utile de faire un bref récapitulatif anatomique des

principales structures impliquées dans la perception de la parole auditive, mais aussi, comme nous

le verrons, dans la perception de la parole visuelle et dans l’intégration audiovisuelle.

Chez l'être humain, les aires auditives sont situées au niveau de la 1ère circonvolution

temporale (ou gyrus temporal supérieur) dont la face supérieure est profondément enfouie dans la

scissure de Sylvius. Ce gyrus présente dans sa partie postérieure une circonvolution transverse

appelée gyrus transverse ou gyrus de Heschl qui correspond aux aires de Brodmann (BA pour

Brodmann Areas) 41 et 42 et qui forme le cortex auditif primaire.

Le cortex auditif secondaire, quant à lui, se situe autour et en arrière des gyri transverses de

Heschl (BA 22) ; il correspond essentiellement à l’aire de Wernicke (partie postérieure de la face

externe de la première circonvolution temporale, incluant le planum temporale).

Enfin, l’aire de Broca, bien connue pour son rôle dans la production de la parole, semble

également impliquée dans les processus perceptifs. Cette aire est localisée au niveau du cortex

frontal inférieur gauche (troisième circonvolution frontale) et correspondant aux aires de Brodmann

44 et 45.

Nous allons à présent décrire les principales zones cérébrales impliquées dans les processus

de perception de la parole auditive, en fonction de la complexité des processus en question.

Lors de l’écoute passive de stimuli auditifs non linguistiques (clics, sons purs, …), on

remarque une activation du cortex auditif primaire, de façon bilatérale (Binder, Rao, Hammeke,

Yetkin, Jesmanowicz, Bandettini, Wong, Estkowski, Goldstein, Haughton & Hyden, 1994). Plus le

signal acoustique est simple (e.g. clic), plus cette activation est localisée au centre du cortex. Plus

celui-ci est complexe (bruits filtrés, sons comprenant plusieurs fréquences, …), plus l’activation

3

s’étend vers les régions corticales adjacentes. Le cortex auditif primaire serait ainsi responsable de

l’analyse acoustique précoce des sons ; il traite les bruits et les sons sans les interpréter. Notons

également que le cortex auditif primaire se caractérise par une organisation tonotopique. En d’autres

termes, différentes zones du cortex auditif primaire sont activées en fonction du contenu fréquentiel

du signal acoustique. La tonotopie est un principe général de l'organisation fonctionnelle du cortex

auditif présent du niveau cochléaire jusqu'au niveau cortical. A chaque portion de la cochlée

correspond une zone corticale.

Lors de l’écoute passive de stimuli linguistiques, on observe une activation du cortex auditif

primaire, mais également du cortex auditif secondaire, de façon bilatérale (Petersen, Fox, Posner,

Mintun & Raichle, 1988 ; Zatorre, Evans, Meyer & Gjedde, 1992 ; Mazoyer, Tzourio, Frak, Syrota,

Murayama, Levrier, Salamon, Dehaene, Cohen & Mehler, 1993 ; Binder et al., 1994). Cette

activation est indépendante du statut lexical des items présentés puisqu’elle a été démontrée aussi

bien pour des mots que pour des pseudo-mots.

Lorsque les participants doivent effectuer une tâche de nature phonologique (par exemple,

une tâche de jugement de rimes), plusieurs auteurs ont mis en évidence, une activation des cortex

auditifs primaires et secondaires (et en particulier de l’aire de Wernicke) s’étendant vers les gyri

temporaux moyens et inférieurs, avec un avantage de l’hémisphère gauche d’autant plus important

que la tâche est complexe (Démonet, Chollet, Ramsay, Cardebat, Nespoulous, Wise, Rascol &

Frackowiak, 1992 ; Mazoyer et al., 1993 ; Buchsbaum, Hickok & Humphries, 2001). Plus la tâche

est complexe, plus l’activation est étendue et plus l’asymétrie gauche-droite est marquée. L’analyse

phonologique suscite également une activation de l’aire de Broca, moins importante toutefois que

celle observée au niveau des aires temporales (Démonet et al., 1992 ; Zatorre, Meyer, Gjedde &

Evans, 1996 ; Binder, Frost, Hammeke, Cox, Rao & Prieto, 1997). Selon Zatorre et al. (1996), pour

être en mesure d’effectuer le jugement phonologique, les participants doivent pouvoir accéder à une

représentation articulatoire des stimuli impliquant les circuits neuronaux de l’aire de Broca.

L’activation de l’aire de Broca dans des tâches perceptives suggère un lien étroit, sur lequel nous

4

reviendrons, entre perception et production. Notons qu’un tel lien a également été pointé par

d’autres auteurs suite à des études d’Imagerie par Résonance Magnétique fonctionnelle (IRMf)

comparant perception et production de la parole. D’une part, Buchs baum et al. (2001) ont observé

que la réalisation d’une tâche perceptive phonologique et la production (silencieuse) de pseudo-

mots activaient des aires se recouvrant partiellement au niveau de la partie postérieure du gyrus

temporal supérieur. D’autre part, Wilson, Saygin, Sereno et Iacoboni (2004) ont montré que la

perception passive de monosyllabes active des aires localisées au sein du cortex pré-moteur ventral

recouvrant largement les aires impliquées dans la production de la parole.

Enfin, lorsque les participants doivent effectuer une analyse sémantique des stimuli

linguistiques, de nombreux auteurs (Mazoyer et al., 1993 ; Vandenberghe, Price, Wise, Josephs &

Frackowiak, 1996 ; Binder et al., 1997) ont observé une activation de structures assez dispersées,

principalement au niveau du gyrus temporal moyen et du gyrus temporal inférieur (BA 21), ainsi

qu’au niveau du gyrus angulaire (BA 39), une zone qui a aussi été décrite comme étant impliquée

dans la compréhension du langage écrit (Petersen et al., 1988). Dans toutes les études, l’activation

suscitée par une tâche sémantique était plus étendue à gauche qu’à droite.

En résumé, la parole auditive est essentiellement traitée au sein du cortex temporal.

L’analyse acoustique précoce serait réalisée par le cortex auditif primaire (gyrus temporal

supérieur), tandis que l’analyse linguistique recruterait également le cortex auditif secondaire ainsi

que les gyri temporaux moyens et inférieurs. En fonction du type de tâche réalisée sur le matériel

linguistique, d’autres aires cérébrales peuvent également être impliquées, telles que l’aire de Broca

(pour l’analyse phonologique) et le gyrus angulaire (pour l’analyse sémantique). Globalement, on

note que plus la tâche est complexe, plus les zones activées sont larges et plus la spécialisation

hémisphérique est marquée à gauche.

I.2. La parole visuelle

5

Si l’hémisphère gauche est davantage impliqué que l’hémisphère droit dans le traitement de

la parole auditive, on peut supposer qu’il en sera de même pour le traitement de la parole visuelle.

Toutefois, en tant que processus utilisant l’information portée par une partie du visage, on pourrait

également faire l’hypothèse d’une spécialisation hémisphérique droite. La majorité des études

conçues pour répondre à cette question ont été menées par l’équipe de Ruth Campbell en Grande

Bretagne à l’aide de méthodes comportementales et de l’étude de cas neuropsychologiques dans un

premier temps et plus récemment, à l’aide de l’imagerie cérébrale.

Campbell (1986) a demandé à des participants d’apparier des photographies de visages

articulant des sons de parole à des phonèmes présentés auditivement. Les résultats étaient meilleurs

lorsque les photos étaient présentées à l’hémichamp visuel gauche (hémisphère droit). Toutefois,

Campbell (1986) n’exclut pas la possibilité que l’avantage de l’hémisphère droit ait été provoqué du

fait de l’engagement préalable de l’hémisphère gauche dans le traitement des sons oraux. Dans une

étude ultérieure (Campbell, de Gelder & de Haan, 1996), la tâche proposée aux sujets consistait à

apparier, entre elles, des photos de locuteurs articulant la même syllabe (il s’agissait de photos

représentant des locuteurs différents ou le même locuteur mais photographié sous différents angles).

Cette fois, un avantage de l’hémisphère gauche a été observé. Des résultats similaires ont été

obtenus par Smeele, Massaro, Cohen & Sittig (1998) dans une tâche d’identification de syllabes

Consonne-Voyelle (CV) présentées visuellement. Les syllabes étaient mieux identifiées lorsqu’elles

étaient présentées à l’hémichamp droit.

Dans le cadre d’une étude neuropsychologique de deux patientes, Campbell, Landis et

Regard (1986) ont mis en évidence une dissociation entre traitement linguistique et non linguistique

lié au visage, démontrant également l’implication de l’hémisphère gauche dans le traitement de la

lecture labiale. Alors qu’elle était prosopagnosique, l’une des deux patientes (lésion pariétale

postérieure droite), était normalement compétente en lecture labiale. L’autre patiente (souffrant

d’une lésion occipito-temporale gauche) reconnaissait parfaitement les visages, mais était incapable

de lire sur les lèvres. Notons toutefois que de Gelder, Vroomen & Bachoud-Levi (1998) ont

6

rapporté un déficit partiel des capacités de lecture labiale chez une patiente atteinte d’agnosie

visuelle suite à une lésion occipitale droite.

Bien qu’un vaste ensemble de données soient en faveur d’une implication de l’hémisphère

gauche dans le traitement de la lecture labiale, le rôle de l’hémisphère droit n’est sans doute pas

négligeable. Selon Campbell (1996), on peut concevoir la lecture labiale comme un ensemble de

fonctions relatives à la parole et localisées au niveau de l’hémisphère gauche. Pour reprendre ses

propres termes, on peut dire que « speechreading is more like hearing than seeing ». Toutefois,

Campbell (1987 ; 1996) propose que le rôle de l’hémisphère droit pourrait être de traiter, peut-être

mieux ou plus rapidement que l’hémisphère gauche, certains aspects de l’information visuelle, tels

que les processus visuo-structurels de bas niveau (e.g. forme des lèvres). Ensuite, cette information

de nature visuelle serait envoyée vers les sites corticaux (probablement localisés à gauche)

responsables de son intégration avec la parole auditive ou, à défaut d’input auditif, de son

interprétation en termes phonologiques. Nous reviendrons sur cette hypothèse dans la section

consacrée à l’intégration audiovisuelle.

Envisageons à présent, à l’aide d’études plus récentes faisant appel à l’imagerie cérébrale,

quels pourraient être les sites corticaux impliqués dans le traitement phonologique des gestes

articulatoires.

Calvert, Bullmore, Brammer, Campbell, Williams, McGuire, Woodruff, Iversen et David

(1997) ont été les premiers à démontrer , à l’aide de l’IRMf que l’identification de matériel verbal

présenté en lecture labiale active non seulement des aires occipitales (le cortex visuel extrastrié ou

BA 19), occipito-temporales (le lobe temporal inféro-postérieur ou BA 37) et occipito-pariétales (le

gyrus angulaire ou BA 39), mais aussi les aires auditives primaires et secondaires (BA 41, 42 et 22),

avec une prépondérance de l’hémisphère gauche. Les aires auditives gauches n’étaient toutefois pas

activées par des mouvements non articulatoires de la bouche. Ces données suggèrent donc

l’existence d’une relation anatomique étroite entre la perception auditive et la perception visuelle de

la parole et indiquent que les aires auditives seraient responsables de l’analyse phonologique des

7

stimuli auditifs, mais aussi des gestes articulatoires. La parole visuelle, silencieuse, a donc le

pouvoir d’activer des parties du système de traitement de la parole qui étaient jusqu’alors

considérées comme dévolues exclusivement au traitement de la modalité auditive.

Ces résultats ont été reproduits ultérieurement par MacSweeney, Amaro, Calvert, Campbell,

David, McGuire, Williams, Woll & Brammer (2000) qui, en séparant dans le temps l’acquisition

des images et la présentation des stimuli, ont pu éliminer le facteur confondant du bruit du scanner.

Ce bruit peut, en effet, atteindre 90 dB et aurait pu, à lui seul, être responsable de l’activation des

aires auditives trouvée par Calvert et al. (1997). Par ailleurs, l’activation du cortex auditif primaire

par la parole visuelle a été tout récemment confirmée par Pekkola, Ojanen, Autti, Jääskelainen,

Möttönen, Tarkiainen et Sams (2005) en utilisant l’IRMf à 3 tesla et en définissant précisément le

cortex auditif primaire de chaque participant. Notons, à nouveau, que cette activation était beaucoup

plus importante, et plus latéralisée à gauche, pour la lecture labiale que pour des stimuli non

linguistiques mais en partageant certaines propriétés (des cercles en mouvement).

Toutefois, des données partiellement contradictoires ont été obtenues par Bernstein, Auer,

Moore, Ponton, Don & Singh (2002). En utilisant également l’IRMf, ces auteurs n’ont pas obtenu

d’activation du cortex auditif primaire par la parole visuelle. Par contre, les aires auditives

correspondant en bonne partie à celles mises en évidence par Calvert et al. (1997) en dehors du

cortex auditif primaire ont bien été activées dans l’étude de Bernstein et al. (2002). Il s’agissait en

particulier du gyrus temporal supérieur, du gyrus temporal moyen et du sillon temporal supérieur

(STS) qui sépare le gyrus temporal supérieur du gyrus temporal moyen. Selon Bernstein et al.

(2002), l’information visuelle ne serait donc pas injectée au système auditif au niveau du cortex

auditif primaire à partir duquel elle suivrait la même voie de traitement que l’information auditive,

mais elle serait injectée lors d’une étape plus tardive du traitement, lors de l’analyse phonologique,

voire sémantique.

Enfin, il faut citer, entre autres, les travaux de Campbell, MacSweeney, Surgula dze, Calvert,

McGuire, Suckling, Brammer et David (2001) et de Callan, Jones, Munhall, Callan, Kroos et

8

Vatikiotis-Bateson (2003) montrant une activation des aires motrices dans le traitement de la parole

visuelle. Ceci renforce l’hypothèse émise par Zatorre et al. (1996) selon laquelle ces aires

permettent l’accès à une représentation articulatoire des stimuli linguistiques.

La parole étant par nature multimodale, et principalement audiovisuelle, il convient à

présent de s’intéresser aux substrats neuraux de l’intégration audiovisuelle.

I.3. La parole audiovisuelle

Un des principaux paradigmes utilisés pour étudier les mécanismes sous -jacents à

l’intégration audiovisuelle dans la perception de la parole est celui de l’effet McGurk (McGurk &

MacDonald, 1976). Ce paradigme consiste à présenter un signal linguistique auditif (e.g. une

syllabe CV) en même temps qu’un visage articulant des mouvements articulatoires ne

correspondant pas à ce signal auditif (e.g. une autre syllabe CV). Dans ce cas, les participants

rapportent avoir entendu un percept qui ne correspond ni à l’information auditive, ni à l’information

visuelle. Deux types d’illusions ont été décrites : les fusions et les combinaisons. Dans le cas des

fusions, une syllabe comportant une consonne bilabiale (e.g. /bi/) est présentée auditivement tandis

que les mouvements des lèvres du locuteur articulent une syllabe comportant une consonne vélaire

(e.g. /gi/). Les participants rapportent classiquement avoir entendu /di/, c’est-à-dire un percept

intermédiaire entre les signaux des deux modalités. Dans le cas des combinaisons (la vélaire est

présentée auditivement et la bilabiale est présentée visuellement), les participants combinent ces

deux éléments pour percevoir /bgi/. On peut expliquer l’occurrence des fusions et des combinaisons

en terme de saillance perceptive. En effet, visuellement, la saillance serait plus importante pour les

consonnes bilabiales que pour les vélaires (e.g. Walden, Prosek, Montgomery, Scherr & Jones,

1977), tandis qu’auditivement la saillance augmente à mesure que le point d’occlusion recule dans

la bouche, l’énergie de l’explosion étant plus importante pour les consonnes vélaires que pour les

bilabiales (Dorman, Studdert -Kennedy & Raphaël, 1977). Dans le cas des combinaisons, où l’on

perçoit à la fois la composante acoustique et la composante visuelle, l’information visuelle d’une

9

bilabiale /p/ ou /b/ est tellement saillante qu’elle ne peut être ignorée ; il en est de même pour

l’information phonétique fournie par /k/ ou /g/. Les deux modalités sont donc naturellement

combinées. Pour les fusions, l’information visuelle de la consonne vélaire et l’information

acoustique de la bilabiale sont plus ambiguës. Les visèmes /g/ et /k/ sont associés à plusieurs lieux

d’articulation possibles, tandis que, sur le plan acoustique, l’explosion des bilabiales est peu

saillante. Cette double ambiguïté mènerait à un percept intermédiaire entre le son et l’image (/d/).

Pour une revue des illusions McGurk dans la perception de la parole, voir Colin & Radeau (2003),

Hardison (1996), Massaro (1998).

L’intérêt de l’effet McGurk est de démontrer que la lecture labiale ne contribue pas

seulement à la perception de la parole lorsque le message auditif est dégradé (bruit, surdité, …)

mais aussi lorsque le signal auditif est clair et non ambigu. L’utilisation de la lecture labiale dans la

perception de la parole semble donc spontanée et irrépressible. L’effet McGurk a ainsi été utilisé

par de nombreux auteurs comme paradigme d’étude des mécanismes sous-jacents à l’intégration

audiovisuelle dans la perception de la parole et de leurs substrats neuraux.

Comme pour la parole visuelle, nous passerons d’abord en revue les études

comportementales et neuropsychologiques principalement dédiées à examiner la spécialisation

hémisphérique sous-jacente à la perception audiovisuelle de la parole. Dans un deuxième temps, par

le biais des études d’imagerie cérébrale, nous aborderons plus précisément l’étude des sites

corticaux responsables de l’intégration audiovisuelle.

Des données en faveur d’une implication prépondérante de l’hémisphère gauche ont été

obtenues par Campbell, Garwood, Franklin, Howerd, Landis et Regard (1990) sur base de quatre

cas neuropsychologiques. Deux patients avaient une lésion postérieure droite et souffraient de

prosopagnosie. Ils lisaient, par contre, sans problème sur les lèvres et étaient sensibles à l’effet

McGurk. Les deux autres patients étaient atteints d’une lésion gauche. Le premier souffrait

d’aphasie mais était toujours capable de lire sur les lèvres et manifestait énormément de captures

visuelles face à l’effet McGurk. Le second, n’était pas aphasique, mais ne pouvait cependant pas

10

lire sur les lèvres et n’était pas sensible à l’effet McGurk. Les auteurs suggèrent qu’au sein de

l’hémisphère gauche, des fonctions séparées seraient impliquées dans la lecture labiale et dans la

parole auditive. L’intégration audiovisuelle serait réalisée par un processeur phonologique amodal.

Si ce processeur est isolé des entrées auditives, le patient tient excessivement compte de la lecture

labiale (cas du premier patient atteint d’une lésion gauche). Si le processeur amodal est déconnecté

des entrées visuelles, le patient ne rapportera que l’information auditive dans le cas de stimuli

audiovisuels incongrus (second cas de lésion gauche).

Si l’hémisphère gauche exerce un rôle prépondérant dans le traitement de la parole

audiovisuelle, quelques données indiquent toutefois que l’hémisphère droit pourrait, lui aussi, y

apporter une contribution non négligeable.

Baynes, Funnel et Fowler (1994) ont exposé des participants de contrôle droitiers, un patient

commissurotomisé et quatre patients souffrant d’épilepsie (servant de « contrôle » par rapport au

patient commissurotomisé) à des stimuli audiovisuels incongrus, articulés par un locuteur dont le

visage apparaissait dans l’hémichamp gauche ou droit. Par la suite, des paires de mots écrits étaient

présentées dans l’un des deux hémichamps visuels et les participants devaient alors choisir le mot

qui correspondait à leur perception. L’influence visuelle a été la plus importante lorsque les mots

écrits étaient présentés à l’hémichamp droit (hémisphère gauche) et lorsque les visages étaient

projetés dans l’hémichamp gauche (hémisphère droit). Il ne nous semble toutefois pas exclu que ces

résultats puissent être partiellement dus à une supériorité de l’hémisphère droit pour le traitement

des visages et de l’hémisphère gauche pour le traitement des mots écrits, indépendamment de la

latéralisation des processus d’intégration audiovisuelle. En ce qui concerne le patient

commissurotomisé, des réponses d’intégration ont été obtenues quel que fût l’hémichamp de

présentation des stimuli visuels, mais en moins grand nombre que chez les patients épileptiques ou

que chez les participants de contrôle. Les auteurs ont déduit de ces résultats que les deux

hémisphères contribuent à l’intégration de la parole audiovisuelle. Notons que Campbell (1992) a

aussi examiné un patient commissurotomisé exposé à des syllabes audiovisuelles congruentes et

11

incongrues. Comme le patient testé par Baynes et al. (1994), ce dernier a fourni des réponses

audiovisuelles, mais dans une moindre mesure que des participants de contrôle.

Diesch (1995) a également décrit un apport des deux hémisphères dans l’effet McGurk. A

chaque essai, deux visages étaient présentés : l’un à gauche et l’autre à droite d’un point de fixation.

De façon imprévisible, un des deux visages articulait une syllabe, tandis qu’un son congruent ou

incongru émanait de deux haut-parleurs situés de chaque côté de l’écran. Les réponses de type

fusion ont été rapportées plus fréquemment lorsque le visage apparaissait dans l’hémichamp gauche

(hémisphère droit). Le pattern inverse a été observé pour les combinaisons. Diesch explique

l’avantage de l’hémisphère droit pour les fusions en termes d’analyse visuo-spatiale. En effet, les

consonnes visuelles donnant lieu aux fusions (des vélaires) sont moins saillantes que les bilabiales

qui suscitent des combinaisons. Par conséquent, le traitement lors des fusions nécessite une analyse

visuo-spatiale plus élaborée. Cette dernière serait une fonction de l’hémisphère droit. La supériorité

de l’hémisphère gauche pour les combinaisons a été attribuée au poids perceptif plus important

imposé au codage phonétique par les stimuli complexes impliqués dans ces percepts. Or, le codage

phonétique serait réalisé par l’hémisphère gauche. Cette hypothèse nous semble difficilement

conciliable avec le fait que les stimuli impliqués dans les combinaisons sont particulièrement

saillants, à la fois au niveau visuel et au niveau auditif. L’analyse phonétique ne serait donc pas plus

complexe que pour les fusions, au contraire.

Bien que les données comportementales en faveur d’une implication des deux hémisphères

dans l’intégration audiovisuelle ne nous paraissent pas complètement convaincantes, il est

vraisemblable, comme l’indiquent les données issues des deux patients commissurotomisés, que

l’hémisphère droit joue un rôle, sinon équivalent à celui de l’hémisphère gauche, au moins non

négligeable. Nous en revenons donc à l’hypothèse émise par Campbell (1996) et déjà exposée dans

la section concernant les substrats neuraux de la parole visuelle. En cas de stimulation bimodale, la

fonction de l’hémisphère droit pourrait être de traiter certains aspects relatifs à la lecture labiale

12

(telle que l’analyse visuo-structurelle) et d’ensuite fournir cette information aux sites responsables

de leur interprétation phonologique et de leur intégration avec un éventuel signal auditif.

Reste à présent à déterminer quels sites corticaux particuliers seraient impliqués dans un tel

processus.

Un des travaux pionniers est celui de Sams, Aulanko, Hämäläinen, Hari, Lounasmaa, Lu et

Simola (1991). A l’aide de la magnétoencéphalographie (MEG), ces auteurs ont montré que la

présentation de syllabes audiovisuelles incongrues, parmi une séquence de syllabes audiovisuelles

congruentes, suscitait une activation magnétique différentielle au niveau du gyrus temporal

supérieur. En 1996, Sams et Levänen ont reproduit la même étude en considérant les deux

hémisphères cérébraux (seul l’hémisphère gauche avait été pris en compte lors de l’étude de 1991).

La différence d’activation magnétique entre les syllabes audiovisuelles congruentes et incongrues a

été retrouvée au niveau des gyri temporaux supérieurs bilatéraux, mais elle était toutefois

globalement plus marquée à gauche.

L’implication de la région temporale dans l’intégration de la parole audiovisuelle a été

confirmée ultérieurement par plusieurs équipes. A insi, à l’aide de l’IRMf, Calvert, Brammer,

Bullmore, Campbell, Iversen et David (1999) ont examiné les zones cérébrales spécifiquement

impliquées dans la parole audiovisuelle par rapport à la parole auditive et à la parole visuelle. Par

rapport aux conditions unimodales, ces chercheurs ont découvert une augmentation d’activation

bilatérale au niveau d’aires visuelles (BA 19 et 37), ainsi qu’au niveau des aires auditives bilatérales

(BA 41 et 42)1. Notons que l’activation au niveau des aires auditives était plus étendue à gauche

qu’à droite. De façon assez surprenante, aucune contribution émanant d’une autre zone cérébrale,

représentant un site possible d’intégration multimodale, n’a été constatée. Selon les auteurs, la

possibilité qu’une aire d’intégration soit impliquée dans la parole audiovisuelle n’est cependant pas

1 L’implication des aires auditives dans l’intégration audiovisuelle a été récemment confirmée chez le singe rhésus par Ghazanfar, Maier, Hoffman et Logothetis (2005) dans une étude portant sur l’intégration entre des visages articulant des cris spécifiques de l’espèce et le son correspondant. Les Potentiels Evoqués étaient modulés par la présentation bimodale des stimuli au niveau du cœur et de la ceinture latérale du cortex auditif, aires qui sont, respectivement, considérées comme les homologues des aires auditives primaires et secondaires chez l’humain.

13

à exclure. Ils émettent l’hypothèse qu’un candidat probable serait le STS. En effet, chez le singe,

cette structure reçoit les entrées convergentes des cortex auditif, visuel et somatosensoriel et

comporte des neurones multimodaux (Jones & Powell, 1970), ce qui suggère un rôle potentiel dans

l’intégration multimodale. Par ailleurs, Barraclough, Xiao, Baker, Oram et Perrett (2005) ont

récemment démontré son implication, chez le singe rhésus, dans l’intégration entre la vue d’une

action et le son correspondant à cette action. Chez l’être humain, le STS serait impliqué dans la

perception phonétique (Binder et al., 1994 ; Binder, Frost & Hammeke, 1996) et dans la lecture

labiale (Bernstein et al., 2002 ; Calvert & Campbell, 2003).

Récemment, un nombre conséquent d’études d’imagerie cérébrale ont précisément pointé le

rôle du STS dans l’intégration audiovisuelle. Une activation spécifique du STS (et en particulier de

sa région postérieure) en réponse à des stimuli linguistiques audiovisuels a ainsi été trouvée par

Callan et al. (2003), Calvert, Campbell et Brammer (2000), Fingelkurts, Fingelkurts, Krause,

Möttönen et Sams (2003), Jones et Callan (2003), Macaluso, George, Dolan, Spence et Driver

(2004), Sekiyama, Kanno, Miura et Sugita (2003) ainsi que par Wright, Pelphrey, Allison,

McKeown et McCarthy (2003). Ces études indiquent également que l’activation du STS semble être

modulée par la qualité du signal audiovisuel d’entrée. Ainsi, l’activation est moins prononcée

lorsque les signaux auditifs et visuels sont incongrus que lorsqu’ils sont congruents (Wright et al.,

2003). Cette observation a été interprétée comme un argument supplémentaire en faveur du rôle du

STS dans le traitement des stimuli qui ont une pertinence sociale (e.g. dans l’analyse du regard).

Dans le même ordre d’idées, Fingelkurts et al. (2003) ont montré que l’activation du STS était

moins importante pour les participants qui étaient peu ou pas sensibles à l’effet McGurk.

L’activation serait, par contre, d’autant plus forte que le signal auditif est présenté dans du bruit

(Callan et al., 2003 ; Sekiyama et al., 2003), ce qui confirme l’observation comportementale selon

laquelle la lecture labiale contribue d’autant plus à la perception que le signal auditif est peu clair

(Sumby & Pollack, 1954) 2. Enfin, l’activation du STS est aussi plus forte lorsque les stimuli

2 Ces observations peuvent être mises en relation avec la règle d’efficacité inverse mise en évidence par Meredith et Stein (1983) pour les neurones multimodaux du colliculus supérieur. Chez le chat, ces neurones répondent de façon

14

audiovisuels sont synchrones que lorsqu’ils sont désynchronisés (Macaluso et al., 2004). Ceci

confirme également une observation comportementale : l’effet McGurk est affecté lorsque les

signaux auditifs et visuels sont désynchronisés (e.g. Jones & Munhall, 1996; Massaro, Cohen &

Smeele, 1996). Notons toutefois que le système perceptif tolère une désynchronisation d’au moins

200 msec. lorsque l’image précède le son, mais seulement de quelques dizaines de secondes dans le

cas contraire. En résumé, il semble donc que l’implication du STS dans l’intégration audiovisuelle

de la parole soit d’autant plus importante que l’intégration est facilitée par les propriétés des stimuli

(synchronie et congruence) ou par celles du système perceptif (sujets particulièrement compétents à

intégrer les signaux de diverses modalités) ou qu’elle est rendue impérative par le contexte, par

exemple parce que le signal auditif n’est pas suffisamment saillant pour être parfaitement

intelligible.

Une autre structure cérébrale est aussi considérée par certains auteurs comme

potentiellement impliquée dans l’intégration audiovisuelle. Il s’agit du claustrum gauche. Cette

petite structure sous -corticale (profondément enfouie au sein du lobe frontal) reçoit et envoie des

projections vers les cortex auditifs et visuels. Elle est décrite comme une station relais par laquelle

les différentes modalités sensorielles peuvent directement accéder les unes aux autres. Ainsi, en

utilisant la Tomographie par Emission de Postitrons (TEP), Hadjikhani et Roland (1998), ainsi que

Banati, Goerres, Tjoia, Aggleton et Grasby (2000) ont démontré l’implication du claustrum dans

l’intégration visuo-tactile. Dans une étude d’IRMf, Olson, Gatenby et Gore (2002) ont exposé des

participants à des stimuli audiovisuels synchrones ou désynchronisés. Si, à l’instar de nombreux

autres auteurs, ils ont bien trouvé une activation du STS par la parole audiovisuelle, contrairement à

ce qui a été décrit par Macaluso et al. (2004), cette activation s’est avérée indépendante du fait que

les signaux auditifs et visuels étaient ou non synchrones. Par contre, le claustrum gauche, également

activé par les stimuli bimodaux, l’était davantage lorsque ceux-ci étaient synchrones que lorsqu’ils

beaucoup plus intense en cas de stimulation bimodale qu’en cas de stimulation unimodale et cet accroissement multimodal est inversement proportionnel à l’efficacité des stimuli unimodaux. En d’autres termes, l’organisme bénéficie davantage de la com binaison de stimuli faibles, les stimuli unimodaux n’ayant pas besoin d’être accentués pour être efficaces. Il pourrait donc s’agir ici d’une règle générale de l’intégration multimodale au niveau du système nerveux central des mammifères.

15

étaient désynchronisés. Les auteurs suggèrent par conséquent que, plutôt que le STS, le claustrum

gauche serait responsable de l’intégration audiovisuelle dans la perception de la parole.

Enfin, l’implication d’aires motrices dans l’intégration audiovisuelle a été démontrée à

l’aide de l’IRMf dans plusieurs travaux récents. Callan et al. (2003) ont mis en évidence une

activation de l’aire de Broca, du cortex pré-moteur et de l’aire motrice supplémentaire, non

seulement, en réponse à des stimuli linguistiques visuels, mais aussi en réponse aux mêmes stimuli

présentés avec le signal auditif correspondant, mais bruité. Cette observation a été mise en relation

avec l’hypothèse selon laquelle la facilitation de la perception de la parole par la lecture labiale est

le fruit d’un processus de récapitulation interne des gestes articulatoires produits par les locuteurs,

d’autant plus nécessaire que le signal auditif concomitant est dégradé. Plus récemment,

l’implication d’aires motrices (essentiellement l’aire de Broca et le cortex pré-moteur) dans la

perception audiovisuelle a été montrée, pour des signaux auditifs intacts, par Ojanen, Möttönen,

Pekkola, Jääskeläinen, Joensuu, Autti et Sams (2005) et par Skipper, Nusbaum et Small (2005).

L’implication des aires motrices dans la perception de la parole, qu’elle soit auditive,

visuelle ou audiovisuelle, est à mettre en relation avec l’existence des « neurones miroirs ». De tels

neurones, mis en évidence au niveau de l’aire F5 du macaque (qui est considérée comme

l’homologue de l’aire de Broca chez l’être humain), ont la propriété de décharger à la fois

lorsqu’une action est effectuée et lorsqu’un congénère accomplit cette action (Rizzolati, Fadiga,

Gallese & Fogassi, 1996). L’existence de ces « neurones miroirs » suggère que les mêmes circuits

neuronaux sont impliqués dans la réalisation et dans la perception des actions. Par ailleurs, certains

« neurones miroirs », dits audiovisuels, sont activés non seulement par l’observation d’une action

mais aussi par l’écoute du son correspondant à cette action (Kohler, Keysers, Umilta, Fogassi,

Gallese & Rizzolatti, 2002), ce qui suggère qu’un signal auditif permet, via l’activation des aires

motrices, d’accéder à la représentation de l’action codée dans ces aires. De telles observations sont

cohérentes avec l’idée d’un lien étroit entre production et perception de la parole, et

particulièrement avec le postulat, déjà été avancé par les protagonistes de la Théorie Motrice de

16

perception de la parole (Liberman & Mattingly, 1985), selon lequel la perception de la parole

consiste à récupérer les gestes articulatoires qui ont généré le signal afin de retrouver les

« intentions phonétiques » du locuteur.

Pour conclure cette section, on peut dire que la perception audiovisuelle de la parole

implique à la fois des aires spécifiques à la modalité visuelle (BA 19 et 37), des aires spécifiques à

la modalité auditive (cortex auditif primaire et secondaire), des a ires d’intégration (en particulier le

STS) et des aires motrices (aire de Broca et cortex pré-moteur). Nous allons à présent nous

interroger sur l’ordre dans lequel ces différentes structures sont activées.

II. Le décours temporel des processus de perception de la parole

Au cours des sections précédentes, nous avons brossé un tableau des aires cérébrales

impliquées dans le traitement de la parole auditive, de la parole visuelle et dans l’intégration

audiovisuelle. Nous allons à présent nous attacher à étudier le moment auquel ces aires sont activées

et en particulier le moment auquel les signaux auditifs et visuels sont intégrés dans la perception de

la parole.

Deux hypothèses, radicalement opposées, ont été émises pour répondre à cette dernière

question : l’hypothèse d’intégration tardive et celle d’intégration précoce.

Selon l’hypothèse d’intégration tardive (e.g. Massaro, 1998), les signaux auditifs et visuels

sont d’abord traités et évalués chacun séparément et indépendamment avant d’être intégrés. Chaque

source est donc complètement catégorisée avant d’être intégrée à d’éventuelles autres sources.

Après intégration, l’entrée sensorielle est comparée à un ensemble de prototypes stockés en

mémoire et une réponse est sélectionnée sur base du prototype le plus consistant avec les indices

multisensoriels.

Selon l’hypothèse d’intégration précoce, l’intégration opère sur des représentations,

amodales, communes aux deux modalités, élaborées par des mécanismes de bas niveau, antérieurs à

la catégorisation. Une possibilité, défendue par plusieurs auteurs, est que ces représentations

17

correspondent aux gestes articulatoires qui ont été exécutés pour produire le signal de parole

(Liberman, Cooper, Shankweiler & Studdert -Kennedy, 1967 ; Fowler, 1991). Les signaux auditifs

et visuels seraient donc recodés sous forme d’un code moteur sur lequel opèrerait l’intégration

audiovisuelle. Le résultat de l’intégration serait alors, enfin, catégorisé.

Avant l’avènement des techniques de cartographie cérébrale, plusieurs études

comportementales ont tenté de séparer ces deux hypothèses (pour une revue, voir Green, 1998). Les

quelques arguments qui ont été avancés en faveur du concept d’intégration tardive ne sont pas

totalement convaincants. L’un d’eux est issu d’études relatives à l’adaptation sélective auditive 3.

Plusieurs auteurs (Roberts et Summerfield, 1981 ; Roberts, 1987 ; Saldaña et Rosenblum, 1994) ont

montré qu’un /d/ illusoire (/b/ auditif doublé de /g/ visuel) ne produisait pas d’effet d’adaptation

comparable à celui émanant d’un /d/ acoustique. Il provoquait un effet identique à celui d’un /b/

acoustique. Des effets d’adaptation sélective ne pourraient donc pas se produire dans le cadre de

l’intégration de la parole audiovisuelle. Ceci a parfois été considéré comme s ignifiant que

l’intégration est consécutive à la catégorisation phonétique. Une telle interprétation repose toutefois

sur l’hypothèse selon laquelle l’adaptation auditive aurait lieu au moment de la catégorisation

phonétique. Or, selon Schwartz, Robert-Ribès et Escudier (1998), elle pourrait dépendre de

mécanismes auditifs de niveau plus précoce (par exemple, une adaptation au niveau du nerf auditif).

Un autre argument plaidant en faveur de l’intégration tardive a été développé par Munhall et

Tohkura (1998). Ces chercheurs ont examiné le décours temporel de l'intégration audiovisuelle à

l'aide d'un paradigme de dévoilement progressif (« gating ») appliqué à des dissyllabes de type

VCV. Le signal d’une des deux modalités était présenté entièrement alors que celui de l’autre

modalité était dévoilé progressivement. Quelle que soit la modalité manipulée par le processus de

dévoilement, l’effet McGurk a augmenté progressivement avec celui-ci. La modification ne suivait

cependant pas le même décours selon la modalité dévoilée. Elle était linéaire pour la modalité

3 Le paradigme d’adaptation sélective consiste à exposer des participants à la présentation répétée d’une syllabe correspondant à l’une des deux extrémités d’un continuum synthétique. Lorsqu’on leur demande ensuite de classer des syllabes, ayant une valeur intermédiaire au sein de ce continuum, en fonction de l’une ou l’autre extrémité, on constate que l’identification de ces syllabes se déplace vers l’extrémité du continuum qui a servi d’adaptateur.

18

visuelle, indiquant que la perception de l'information visuelle est continue, variant en fonction de la

dynamique d'articulation. Dans le cas de l'information auditive la modification n’était pas linéaire,

certains instants acoustiques, comme l’explosion, étant plus saillants. L'information auditive de la

portion VC était considérablement moins efficace que celle de la portion CV (l'identification de la

consonne étant restée difficile jusqu'à l'explosion acoustique). Ces données suggèrent que

l'information dynamique serait extraite séparément pour chaque modalité avant que les informations

visuelle et auditive soient intégrées. Un tel processus d’extraction séparée n’implique évidemment

pas que les deux signa ux ont nécessairement été catégorisés complètement avant d’être intégrés.

Enfin, Massaro, Cohen et Thompson (1988) ont mis en évidence un effet McGurk lorsque les

mouvements articulatoires visuels étaient remplacés par des mots écrits. Selon ces auteurs,

l’interférence entre mots écrits et signal sonore n’a pu se produire que si ces deux types

d’informations avaient été intégrées post-catégoriellement. Ces observations n’ont cependant pas

été reproduites par Fowler et Dekle (1991). De plus, Vroomen et de Gelder (1999) en indiquent

quelques limitations. D'une part, les percepts de type combinaison ne se produisent pas avec la

parole écrite. D'autre part, même s'il y a réellement une interaction entre l'information écrite et

acoustique, rien ne permet de déceler à quel niveau elle se produit. La lecture écrite et la lecture

labiale pourraient très bien interagir avec l'information auditive à des niveaux différents. Alors que

la lecture labiale interagirait avec la parole entendue à un niveau perceptif, l’interaction entre la

lecture écrite et la parole entendue pourrait se produire lors d'une étape de prise de décision. Si tel

est le cas, les données de Massaro et al. (1988) ne permettent aucune conclusion quant à la relation

temporelle entre intégration et caté gorisation phonétique.

L’hypothèse d’intégration précoce, quant à elle, est confortée par de nombreux résultats.

Ainsi par exemple, Rosen, Fourcin et Moore (1981) ont montré que lorsque la fréquence

fondamentale (F0) d’un signal auditif est présentée en même que les mouvements articulatoires, la

perception d’un message audiovisuel est tout à fait possible alors que, présentés seuls, ni la F0, ni

les mouvements articulatoires ne permettent d’atteindre un niveau de compréhension de la parole

19

suffisant. Cette observation est incompatible avec un modèle d’intégration tardive dans lequel, ni

les processus de décodage auditif, ni ceux de décodage visuel n’auraient pu fournir d’indices

permettant une décision par rapport au signal. D’autres arguments sont issus de s travaux de Kerry

Green et de ses collègues. Green et Miller (1985) ont montré que la localisation de la frontière

phonémique d’une syllabe auditive CV issue d’un continuum de délai d’établissement du voisement

(DEV)4 pouvait varier en fonction du débit d’articulation de la syllabe visuelle, présentée

simultanément, correspondant à l’une des deux extrémités du continuum. L’information visuelle de

débit de parole est donc pertinente pour la perception du voisement. Elle ne peut, par conséquent,

être intégrée à l’information auditive qu’avant la catégorisation phonétique. De plus, Green et Kuhl

(1989) ont montré que lorsqu’un continuum auditif allant de /ibi/ à /ipi/ était doublé de l’articulation

de /igi/, la frontière de voisement des percepts audiovisuels était déplacée vers des valeurs de DEV

plus longues que celles observées lorsqu’un continuum auditif était présenté sans stimulation

visuelle. Il résulte de ce constat que l’information visuelle est combinée avec l’information auditive

avant que la décision d’identité phonétique ne soit prise, excluant, ainsi, toute possibilité d’une

intégration audiovisuelle post -phonétique. Une autre étude de Green et Kuhl (1991) confirme l'idée

que l’information auditive de voisement et l’information visuelle de lieu d'articulation sont traitées

comme une unité intégrée plutôt que de façon séparée. Les auteurs ont construit quatre stimuli

audiovisuels en combinant /ibi/ et /ipi/ auditifs à /ibi/ et /igi/ visuels. Des participants devaient

classifier chaque stimulus audiovisuel le plus rapidement possible comme voisé ou non-voisé et/ou

comme bilabial ou vélaire. Les temps de réaction pour l’identification du voisement et du lieu

d’articulation ont été plus lents dans une condition où les stimuli variaient selon les deux

dimensions que dans une condition où les stimuli ne variaient qu’en fonction d’une seule

dimension. Les indices auditifs et visuels seraient donc traités de façon interactive plutôt que

séparée. Enfin, Green et Gerdeman (1995) ont montré que l’effet McGurk diminuait lorsque les

stimuli auditifs et visuels divergeaient en termes d’environnement vocalique (par exemple, /ba/

4 Le DEV, ou Voice Onset Time (VOT) en anglais, correspond au délai entre la fin de l’explosion acoustique et le début des vibrations des cordes vocales. Lorsque ce délai est inférieur à 0 msec. (vibrations commençant avant l’explosion acoustique), les phonèmes sont perçus comme voisés ; lorsqu’il est supérieur à 0 msec. (vibrations commençant après l’explosion acoustique), les phonèmes sont perçus comme non-voisés.

20

auditif doublé de /gi/ visuel). Ce résultat suggère qu’en intégrant la parole audiovisuelle, les sujets

sont sensibles à l’information de coarticulation entre une consonne et la voyelle qui la suit. Si les

signaux auditifs et visuels étaient catégorisés avant d’être intégrés, l’information de coarticulation

ne jouerait aucun rôle.

Tous ces résultats confortent donc l’hypothèse selon laquelle les informations auditives et

visuelles interagissent à un niveau précoce de traitement phonétique, bien avant que l’information

soit appariée avec une représentation phonétique.

Plus récemment, les techniques de cartographie cérébrale ont apporté d’autres éléments en

faveur de l’idée d’intégration précoce. Les techniques les plus appropriées d’étude du décours

temporel des processus perceptifs et cognitifs sont les Potentiels Evoqués (PE) et la MEG,

respectivement basées sur l’enregistrement de l’activité cérébrale électrique et magnétique évoquée

par la présentation de stimuli. Le décours temporel de cette activité peut -être suivi avec une

résolution temporelle de l’ordre de la milliseconde.

Des effets d’interaction audiovisuelle dans la perception de la parole ont été démontrés à

l’aide de deux types de paradigmes. Pour le premier paradigme, l’idée consiste à comparer

l’activation suscitée par une condition de parole bimodale (congruente) à celle suscitée par la

somme des deux conditions unimodales. Si les PE sont similaires dans ces deux situations, cela

indique un traitement indépendant des signaux auditifs et visuels. Au contraire, des différences

suggèrent des effets d’interaction. Pour le deuxième paradigme, il s’agit de comparer l’activation

suscitée par de la parole audiovisuelle congruente à celle suscitée par de la parole audiovisuelle

incongrue. Le postulat sous -jacent est que les différences d’activation potentielles sont supposées

refléter un effet spécifiquement phonétique.

En ce qui concerne la comparaison entre conditions unimodales et bimodales, les recherches

ont porté tant sur l’amplitude que sur la latence des PE. Par exemple, Klucharev, Möttönen et Sams

(2003) ont présenté à des participants finnois des voyelles dans les conditions unimodale auditive,

unimodale visuelle, audiovisuelle congruente et audiovisuelle incongrue. Dans les 225 premières

21

msec. après le début du stimulus auditif, trois déflections successives avaient une amplitude

moindre dans la condition bimodale (que ce soit pour les voyelles congruentes ou incongrues) que

dans la somme des deux conditions unimodales. La première déflection (85 msec.) reflétait

probablement une modulation de la composante visuelle N1, tandis que les deuxième (125 msec.) et

troisième (225 msec.) déflections ont été considérées comme une modulation des composantes

auditives N1 et P2. Ces effets d’interaction, précoces et indépendants de l’identité phonétique des

stimuli, ont donc été localisés au niveau des cortex sensoriels spécifiques des modalités auditive et

visuelle. Selon les auteurs, ils refléteraient des interactions audiovisuelles au niveau du traitement

des traits généraux, non spécifiquement phonétiques, partagés par les stimuli auditifs et visuels (tels

que la concordance spatiale et temporelle). En utilisant un paradigme assez similaire, Besle, Fort,

Delpuech et Giard (2004) ont montré que la composante auditive N1 évoquée par des syllabes était

de moindre amplitude dans une condition audiovisuelle congruente par rapport à la somme de de ux

conditions unimodales. Par contre, contrairement à Klucharev et al. (2003), aucun effet

d’interaction n’a été trouvé au niveau des composantes visuelles. Besle et al. (2004) ont interprèté

ces données en termes d’une dominance de la modalité auditive pour la perception de la parole. De

façon générale, les résultats de ces deux études suggèrent que dans la perception de la parole, les

signaux auditifs et visuels ne sont pas traités de façon indépendante et interagissent déjà

probablement au niveau des aires sensorielles.

Citons également les données de Jääskelainen, Ojanen, Ahveninen, Auranen, Levänen,

Möttönen, Tarnanen et Sams (2004) indiquant que l’amplitude de l’équivalent magnétique de la

composante N1 évoquée par une voyelle auditive peut être modulée par la présentation (anticipée de

500 msec.) des mouvements articulatoires correspondants. Ceci suggère que le fait de voir les

mouvements articulatoires d’un locuteur influence la perception auditive en modulant la réponse

des neurones du cortex auditif.

Des effets de latence, favorisant l’hypothèse d’une intégration précoce, ont été mis en

évidence, en utilisant la MEG, par Möttönen, Krause, Tiippana et Sams (2002). Ces auteurs ont

22

montré que des mouvements articulatoires activent le cortex auditif (gyrus temporal supérieur) de

façon plus précoce (endéans les 200 msec. post -stimulus) lorsqu’ils sont présentés avec un contexte

auditif que lorsqu’ils sont présentés seuls. Le contexte auditif joue donc un rôle facilitateur dans le

traitement des mouvements articulatoires, au niveau du cortex auditif. Dans le même ordre d’idées,

van Wassenhove, Grant et Poeppel (2005) ont observé que la parole visuelle accélère le traitement

d’un message auditif au niveau cortical. Les composantes P1, N1 et P2 évoquées par un même

stimulus auditif avaient, en effet, une latence plus courte lorsque ce dernier était présenté en même

temps que les mouvements des lèvres correspondants que lorsqu’il était présenté seul.

Les premières études comparant les activations suscitées par la parole audiovisuelle

congruente à celles suscitées par la parole audiovisuelle incongrue sont celles de Sams et al. (1991)

et de Sams et Levänen (1996) déjà décrites dans la section consacrée aux substrats neuraux de la

parole audiovisuelle. Grâce à la MEG, ces auteurs ont montré une différence d’activation entre des

syllabes audiovisuelles congruentes et incongrues qui se manifestait au niveau du gyrus temporal

supérieur à partir de 180 msec. après le début de la stimulation. En utilisant la même technique et un

paradigme assez similaire, Klucharev et al. (2003) ont obtenu des résultats concordants avec ceux

de Sams et de ses collègues. Outre les interactions audiovisuelles précoces déjà décrites ci-dessus,

ces auteurs ont également pointé des interactions plus tardives. Les stimuli audiovisuels congruents

et incongrus ont suscité des différences d’activation magnétique à partir de 155 msec. à partir du

début de la stimulation auditive. Selon les auteurs, le générateur de cet effet serait la partie

postérieure du STS. Deux autres effets d’interaction ont été également pointés, respectivement à

235 et 325 msec. et ont été attribués à des aires hétéromodales au niveau des cortex pariétaux et

temporaux.

Enfin, des effets d’interaction phonétique ont également été démontré par notre équipe

(Colin, Radeau, Soquet, Colin & Deltenre, 2002 ; Colin, Radeau, Soquet & Deltenre, 2004) en

utilisant la Mismatch Negativity (MMN), une composante des PE auditifs qui indexe la détection

automatique, pré-attentive, d’une disparité physique d’un stimulus déviant se produisant

23

occasionnellement dans une séquence homogène de stimuli standards et présentant une disparité

physique par rapport à ces derniers (paradigme dit « oddball »). Pour une revue sur la MMN, voir

Näätänen (1992), Lang, Eerola, Korpilahti, Holopainen, Salo et Aaltonen (1995), Ritter, Deacon,

Gomes, Javitt et Vaughan (1995) et Picton, Alain, Otten, Ritter et Achim (2000). La MMN est

évoquée sous forme d’une onde négative, se produisant 100 à 200 msec. après le début de la

stimulation déviante et est décrite comme le résultat d’un processus de comparaison automatique

entre le stimulus déviant et la trace formée par la représentation sensorielle du stimulus standard en

mémoire auditive sensorielle (Näätänen, 1992; Cowan, Winkler, Teder & Näätänen, 1993). Nous

avons montré que la MMN pouvait être évoquée par la présentation occasionnelle de syllabes

audiovisuelles incongrues, apparaissant dans une séquence homogène de syllabes congruentes et ne

différant de ces dernières qu’en termes de mouvements articulatoires visibles, le signal sonore étant

constant tout au long de la séquence. La présentation des mêmes mouvements articulatoires en

l’absence de contexte auditif n’a généré aucune MMN. Par conséquent, la MMN évoquée dans la

condition audiovisuelle n’était ni « auditive » puisque aucun contraste auditif n’était présent dans

les séquences audiovisuelles, ni « visuelle » puisque les mêmes mouvements articulatoires présentés

en l’absence de contexte auditif n’ont pas suscité de MMN, mais était générée par la signification

phonétique conférée aux mouvements articulatoires par un contexte auditif approprié. Par ailleurs,

la MMN étant une composante automatique et pré-attentive, ces résultats suggèrent que les

mécanismes phonétiques d’intégration de la parole audiovisuelle se produisent à un niveau perceptif

pré-attentif et automatique.

En conclusion, de nombreuses données tant comportementales qu’électrophysiologiques

arguent en faveur de l’hypothèse d’intégration précoce. Les signaux auditifs et visuels ne seraient

pas complètement traités indépendamment avant d’être intégrés, mais interagiraient à une étape

précoce du traitement perceptif. En effet, la comparaison entre les PE en condition bimodale et les

PE par la somme des deux conditions unimodales montre des effets d’interaction précoces, en

moyenne selon les études, opérant entre 100 et 200 msec. après le début de la stimulation

24

probablement au niveau des cortex sensoriels spécifiques. Le rôle du cortex auditif a été

particulièrement mis en évidence, plusieurs études montrant que les mouvements articulatoires

« entrent » au niveau du cortex auditif dont ils modulent l’activité. Ceci est à mettre en

correspondance avec les données relatives aux substrats neuraux de la parole visuelle suggérant que

les mouvements articulatoires, même présentés seuls, activent le cortex auditif.

La comparaison entre la parole audiovisuelle congruente et incongrue indique des effets

d’interaction, spécifiquement phonétiques, opérant légèrement plus tardivement (globalement, entre

150 et 300 msec.). Klucharev et al. (2003) ont suggéré que le substrat neural de ces interactions

pourrait être le STS. Notons que cette hypothèse est soutenue par les données d’imagerie cérébrale

démontrant d’une part, une modulation de cette structure en fonction de la congruence des stimuli

audiovisuels et d’autre part, son implication dans le traitement phonétique de stimuli auditifs.

Citons également les données de Raij, Uutela et Hari (2000) et de van Atteve ldt, Formisano, Goebel

et Blomert (2004) démontrant l’implication du STS dans l’intégration entre parole auditive et mots

écrits (le STS s’avérant la seule structure cérébrale dont l’activation par la présentation

concomitante de lettres et de sons phonétiquement appariés ou non était modulée par la congruence

phonétique des stimuli audiovisuels).

On pourrait ainsi supposer que les stimuli auditifs et visuels dans la perception de la parole

interagiraient dans un premier temps au niveau du cortex auditif avant d’être intégrés, à un niveau

phonétique, au niveau du STS. Des données récentes de Möttönen, Schürmann et Sams (2004)

semblent confirmer cette hypothèse. En utilisant la MEG, ces auteurs ont comparé l’activité

évoquée par des voyelles audiovisuelles congruentes à celle évoquée par la somme des activations

suscitées par les mêmes voyelles présentées dans les deux conditions unimodales. Deux effets

principaux d’interaction ont été mis en évidence. Les effets les plus précoces avaient lieu entre 150

et 200 msec. au niveau du gyrus temporal supérieur. Des effets plus tardifs (250-600 msec.) ont été

localisés au niveau du STS. Notons toutefois que le design expérimental ne permet pas de

déterminer si ces derniers effets étaient spécifiquement phonétiques puisque aucune condition de

25

parole incongrue n’était présentée. Par ailleurs, les latences observées au niveau du STS étaient

sensiblement plus tardives que celles décrites par Klucharev et al. (2003). Enfin, l’activation du

STS était essentiellement enregistrée à droite. Des études ultérieures doivent donc être menées afin

de déterminer si les interactions observées par Möttönen et al. (2004) au niveau du STS sont bien du

même type que celles décrites par Klucharev et al. (2003).

Une autre possibilité quant à l’ordre d’activation des structures cérébrales impliquées dans

l’intégration audiovisuelle de la parole a été proposée par Calvert et ses collègues (Calvert,

Brammer & Iversen, 1998 ; Calvert et al., 2000 ; Calvert 2001). Ces auteurs estiment que

l’intégration audiovisuelle d’effectue d’abord au niveau du STS. Ensuite, l’information visuelle

serait renvoyée, via des rétro-projections, vers le cortex auditif dont elle modulerait l’activité. Ce

phénomène rendrait compte de l’observation comportementale selon laquelle l’ajout d’une

information visuelle améliore la perception de la parole auditive. A l’appui de l’hypothèse de

Calvert et de ses collègues, citons l’expérience de Sams et al. (1991) décrite ci-dessus, dans laquelle

la différence d’activité magnétique entre une condition de parole audiovisuelle congruente et une

condition de parole audiovisuelle incongrue se produisait à partir de 180 msec. au niveau du cortex

auditif. Selon Calvert et al. (1998), cette latence illustrerait un retard de traitement pa r rapport à la

parole auditive, ce qui est compatible avec la possibilité qu’après intégration des signaux auditifs et

visuels au niveau du STS, l’information soit renvoyée, par feedback, au niveau des aires de

traitement de la parole auditive. Notons auss i les données de Schroeder et Foxe (2002) montrant,

chez le singe, que les signaux visuels entrent au niveau du cortex auditif via des rétro-projections

plutôt que via des projections directes.

Quel que soit l’ordre d’activation de ces différentes structures, on peut conclure de cette

section que la parole auditive et la parole visuelle commencent à interagir dès les premières étapes

du traitement de l’information et continuent vraisemblablement à interagir lors des traitements

ultérieurs. Les aires cérébrales impliquées dans les processus d’intégration seraient localisées au

niveau temporal, principalement à gauche. Toutefois, si la grande majorité des auteurs s’accordent

26

sur la supériorité hémisphérique gauche dans les processus de traitement du langage oral, quelle que

soit sa modalité, la cause de cette spécialisation reste sujette à débats.

III. La question de la spécialisation hémisphérique gauche

Alors que certains auteurs attribuent la supériorité hémisphérique gauche à l’existence d’un

processeur spécifiquement dédié au traitement de la parole, d’autres l’expliquent en termes d’une

distribution différentielle des mécanismes de traitement acoustique entre les deux hémisphères.

Ainsi, selon Tallal (1980), les propriétés cruciales des sons de parole sont liées à l’existence de

changements temporel rapides et l’asymétrie gauche/droite pour le traitement du langage

correspondrait à un effet de résolution temporelle différente, l’hémisphère gauche étant spécialisé

dans le traitement des variations temporelles rapides. De nombreuses données (pour une revue, voir

Zatorre, Belin & Penhune, 2002) indiquent en effet que la résolution temporelle est meilleure au

niveau du cortex auditif gauche qu’au niveau du cortex auditif droit alors que le patron inverse est

observé pour la résolution spectrale. Ainsi, par exemple, Zatorre (1988) a observé qu’une lésion au

niveau du gyrus de Heschl droit entraîne un déficit dans la perception de la hauteur de sons

complexes, alors qu’un tel déficit n’est pas observé en cas de lésion gauche. Par ailleurs, Liégeois-

Chauvel, de Graaf, Laguitton et Chauvel (1999) ont observé, en implantant des électrodes

intracrâniennes au niveau des aires temporales bilatérales chez des patients épileptiques, que le

gyrus de Heschl gauche répond davantage que le droit à des différences temporelles brèves, que

celles-ci se produisent au sein de stimuli linguistiques (des syllabes CV) ou non (des analogues de

parole reproduisant la structure temporelle des syllabes). Un effet de résolution temporelle a

également été mis en évidence pour la modalité visuelle. Dans l’étude de Smeele et al. (1998), un

avantage de l’hémisphère gauche avait été démontré pour l’identification de syllabes CV présentées

visuellement. Le même avantage a été trouvé pour l’id entification de stimuli visuels non

linguistiques mais ayant des propriétés dynamiques. Selon ces auteurs, l’activation plus importante

27

de l’hémisphère gauche par la lecture labiale dépendrait davantage des propriétés dynamiques des

stimuli que du fait qu’ ils aient un contenu linguistique.

Toutefois, les résultats de nombreuses autres études sont en faveur de l’idée d’une

spécialisation hémisphérique gauche due à la spécificité linguistique des stimuli traités.

Ces études peuvent être subdivisées en deux catégories : celles portant sur l’indépendance de

la modalité d’entrée et celles portant sur la signification, linguistique ou non linguistique, des

stimuli.

Les études de la première catégorie portent essentiellement sur l’examen de patients sourds,

locuteurs de la langue des signes. L’idée sous-jacente à ces études est que ce système linguistique

véhicule une information d’ordre visuo-spatial plutôt que d’ordre temporel. Par conséquent, si le

traitement de la langue des signes s’avère latéralisé à gauche, on pourrait en conclure que la

spécialisation hémisphérique gauche pour le langage ne repose pas sur une supériorité pour le

traitement de stimuli caractérisés par des variations temporelles rapides mais repose sur le caractère

spécifiquement linguistiques des stimuli, quelle que soit leur modalité d’entrée. Hickok, Bellugi et

Klima (1996) ont examiné des patients sourds, locuteurs de la langue des signes américaine (LSA),

atteints d’une lésion temporale unilatérale. Seuls les patients victimes d’une lés ion gauche ont

montré un déficit dans le traitement de la LSA. Par ailleurs, des études d’IRMf (Bavelier, Corina,

Jezzard, Clark, Karni, Lalwani & Rauscheker, 1998) et de TEP (Petitto, Zatorre, Gauna, Nikelski,

Dostie & Evan, 2000) indiquent que chez les locuteurs de la LSA, le traitement de celle-ci suscite

une activation dominante du cortex auditif secondaire gauche par rapport au droit.

Les études portant sur le caractère linguistique ou non linguistique des stimuli reposent, pour

la plupart, sur la comparaison des activations ou PE suscités, soit par des stimuli partageant des

caractéristiques temporelles et spectrales similaires mais ayant ou non un caractère linguistique, soit

par des stimuli parfaitement similaires mais prenant ou non un caractère linguistique en fonction de

l’expérience linguistique des participants ou du contexte de l’expérience.

28

En ce qui concerne la première catégorie d’études, des données très convaincantes ont été

obtenues par Rinne, Alho, Alku, Holi, Sinkkonen, Virtanen, Bertrand et Näätänen (1999). Ces

auteurs ont construit deux continua de huit stimuli vocaliques (/a/ et /i/) allant de la voyelle au son

pur correspondant (obtenu par filtrage) et présentés dans un paradigme oddball. Chacun des huit

sons du continuum des /a/ servait de standard dans une condition différente, tandis que le déviant

correspondait au son analogue dans le continuum des /i/. L’activation générée par le processus à la

base de la MMN est passée de gauche à droite entre la condition « voyelles » et la condition « sons

purs », au moment où la perception passait de la voyelle au son pur. Les auteurs en ont conclu que

la prédominance de l’hémisphère gauche dépend strictement de la perception du son en tant que

phonème.

En utilisant la MEG, Shtyrov, Kujala , Palva, Ilmoniemi et Näätänen (2000) ont comparé les

activations suscitées par des syllabes CV et des analogues non phonétiques mais ayant la même

complexité acoustique. Ces analogues partageaient soit exactement la même structure temporelle et

spectrale que les syllabes, soit avaient une structure temporelle différente (l’analogue de l’explosion

acoustique initiale était plus longue). Les résultats suggèrent que l’hémisphère droit est supérieur

dans la perception des transitions acoustiques lentes, qu’auc un hémisphère ne domine la perception

des analogues caractérisés par la même structure temporelle et spectrale que les syllabes et que

l’hémisphère gauche domine la perception des sons spécifiquement linguistiques.

En ce qui concerne les publications relatives à la deuxième catégorie, il faut noter les études

cross-linguistiques entre l’anglais et les langues à tons. Dans les langues à tons (telles que le thaï ou

le chinois), la hauteur tonale des sons du langage a un caractère linguistique car elle permet, à elle

seule, de distinguer deux productions, similaires du point de vue des autres traits acoustiques mais

ayant des significations sémantiques différentes. En français, ou en anglais, la hauteur tonale

n’affecte pas la signification sémantique des sons du langage. Il est donc possible de mener des

études cross-linguistiques dans lesquelles les mêmes stimuli sont présentés à des sujets qui vont leur

attribuer, ou non, une signification linguistique, en fonction de leur environnement linguistique. En

29

utilisant la TEP, Gandour, Wong et Hutchins (1998) ainsi que Gandour, Wong, Hsieh, Weinzapfel,

Van Lancker et Hutchins (2000) ont montré que, pour les mêmes stimuli (des mots thaï), le

traitement phonologique de la hauteur tonale recrutait les structures de l’hémisphère gauche

uniquement chez des participants locuteurs du thaï. Des résultats similaires ont été obtenus

ultérieurement par Klein, Zatorre, Milner et Zhao (2001) en comparant le chinois mandarin et

l’anglais. En plus de la spécialisation hémisphérique gauche chez les locuteurs de la langue à tons,

ces auteurs ont également trouvé une spécialisation hémisphérique droite chez les anglophones, ce

qui concorde avec l’hypothèse d’une spécialisation de l’hémisphère droit pour le traitement de la

hauteur tonale. La spécialisation hémisphérique gauche pour la parole dépendrait donc bien de la

signification linguistique des stimuli.

Näätänen, Lehtokoski, Lennes, Cheour, Huotilainen, Ilvonen, Vainio, Alku, Ilmoniemi,

Luuk, Sinkkonen et Alho (1997) ainsi que Winkler, Lehtokoski, Alku, Vainio, Czigler, Csépe,

Aaltonen, Raimo, Alho, Lang, Ilvonen et Näätänen (1999) ont mis en évidence des traces neurales,

latéralisées à gauche, propres à la représentation phonémique. En comparant des groupes de

participants issus de différents environnements linguistiques, ces auteurs ont étudié la MMN

évoquée par des contrastes vocaliques appartenant ou non à l’inventaire phonémique des

participants et ont montré que, pour un même contraste, la MMN était plus ample et plus latéra lisée

à gauche lorsque celui appartenait à la langue de naissance des participants.

En utilisant des analogues sinusoïdaux de syllabes CV, Dehaene-Lambertz, Pallier,

Serniclaes, Sprenger-Charolles, Jobert et Dehaene (2005) ont également mis en évidence une

dominance hémisphérique gauche strictement liée à un mode linguistique de perception de la

parole. De tels stimuli acoustiques ne sont perçus comme de la parole que si on attire l’attention des

participants sur leur nature linguistique. Dans le cas contraire, ils sont perçus comme des sons de

sifflement. Dehaene -Lambertz et al. (2005) ont observé que le fait de passer d’un mode de

perception non linguistique à un mode de perception linguistique produisait un surcroît d’activation

30

au niveau de la partie postérieure du gyrus et du sillon temporaux supérieurs gauches ainsi qu’au

niveau du gyrus supramarginal gauche.

Enfin, en ce qui concerne la parole visuelle, Campbell et al. (2001) ont obtenu des données

contradictoires à celles de Smeele et al. (1998). Alors que ces derniers, par des techniques

comportementales, avaient observé un avantage de l’hémisphère gauche pour l’identification de

stimuli visuels linguistiques et non linguistiques (mais dynamiques), Campbell et al. (2001), ont

observé, par l’IRMf, que des mouvements des lèvres articulant des mots suscitaient plus

d’activation au niveau du STS gauche que des mouvements des lèvres ne correspondant pas à de la

parole (mouvements de mâchage exagérés). Par ailleurs, Calvert et Campbell (2003) ont montré

qu’à l’instar des mouvements articulatoires, des stimuli linguistiques visuels privés de leurs

caractéristiques dynamiques activaient également (mais dans une moindre mesure) les aires

responsables du traitement de la parole avec une dominance hémisphérique gauche. La dominance

hémisphérique gauche pour la lecture labiale semble donc davantage liée à la spécificité

linguistique de celle-ci qu’à ses caractéristiques dynamiques.

A la lumière des différentes études citées dans cette section, il est difficile de répondre à la

question de savoir si la spécialisation hémisphérique gauche pour la perception de la parole est due

à des mécanismes auditifs généraux (traitement temporel rapide localisé à gauche) ou à des

mécanismes spécifiquement linguistiques. Selon Zatorre et al. (2002), les deux approches ne

s’excluent peut-être pas mutuellement. Il serait, en effet, possible que la spécialisation

hémisphérique gauche pour la perception de la parole soit due à une supériorité de cet hémisphère à

la fois pour le traite ment, de bas niveau, de stimuli temporels rapides, qu’ils soient linguistiques ou

non, et pour le traitement ultérieur et de plus haut niveau de stimuli spécifiquement linguistiques

(traitement qui se serait développé sur base des mécanismes de bas niveau).

IV. Aspects développementaux

31

A l’heure actuelle, une majorité d’auteurs s’accordent sur l’idée que le développement de la

parole serait la résultante de la rencontre entre des prédispositions neuroanatomiques et un

environnement linguistique particulier. Une des questions débattues dans la littérature est celle de

déterminer si ces prédispositions reposent sur des mécanismes auditifs généraux ou spécifiques à la

parole.

IV.1. Le développement repose-t-il sur des mécanismes auditifs généraux ou spécifiques au

langage ?

Dans un premier temps, cette question a été adressée à partir du phénomène de perception

catégorielle. La perception catégorielle se produit lorsque des participants répondent de façon

discontinue à des variations continues d’un continuum physique. Ainsi, dans le domaine de la

parole, la perception catégorielle se caractérise par le fait qu’à écart acoustique constant, la

discrimination de différences intra-catégorielles est nettement plus difficile que celle de différences

inter-catégorielles (Liberman, Harris, Hoffman & Griffith, 1957). Des comparaisons inter-

linguistiques ont montré que les catégories phonétiques sont organisées autour de frontières

catégorielles dites naturelles ou universelles. Le continuum de DEV (voir note de bas de page n°4) ,

par exemple, peut être divisé en trois catégories universelles, séparées par deux frontières

perceptives, centrées autour de -30 msec et +30 msec (Lisker & Abramson, 1964). Par des mesures

d’enregistrement du rythme cardiaque, Lasky, Syrdal-Lasky et Klein (1975) ont montré que la

segmentation du continuum de DEV dans ces trois catégories est déjà observable chez des bébés de

quatre mois. En utilisant les variations du taux de succion d’une sucette électronique comme mesure

des capacités de discr imination, des données similaires ont été obtenues chez des bébés de un et

quatre mois pour un continuum de DEV (Eimas, Siqueland, Jusczyk & Vigorito, 1971) et chez des

bébés de deux à trois mois pour un continuum de lieu d’articulation (Eimas, 1974). De tels résultats

ont conduit à l’hypothèse selon laquelle le phénomène de perception catégorielle est le témoin d’un

mécanisme de traitement de la parole inné et spécifique à l’espèce humaine. Toutefois, le même

32

phénomène a également été rapporté chez des animaux non humains, tels que les chinchillas (Kuhl

& Miller, 1975 ; 1978), les macaques (Kuhl & Padden, 1982 ; 1983), les perruches (Dent, Brittan-

Powell, Dooling & Pierce, 1997) ou encore les cailles (Kluender, Diehl & Killeen, 1987). Notons

cependant que les animaux non humains ont besoin de milliers d’essais et de plusieurs mois

d’entraînement avant de manifester une perception catégorielle pour des stimuli linguistiques alors

que les bébés humains y parviennent en quelques minutes. Il n’est donc pas exclu que la longueur

de l’entraînement ait progressivement sensibilisé le système auditif des animaux non humains à

percevoir, de façon catégorielle, des stimuli dépourvus, pour eux, de signification phonétique. Cette

observation est à mettre en relation avec le fait que les adultes humains sont également capables,

moyennant un long entraînement, de discriminer des contrastes qui n’appartiennent pas à leur

inventaire phonémique (Zhang, Kuhl, Imada, Iverson, Pruitt, Kotani & Stevens, 2000). Toutefois,

Ramus, Hauser, Miller, Morris et Mehler (2000) ont montré que des singes tamarins, peu entraînés,

parviennent, de la même façon que des nouveaux-nés humains, à discriminer des phrases

néerlandaises et japonaises. Puisqu’il est difficile de défendre l’idée selon laquelle les tamarins ont

évolué pour percevoir la parole, les auteurs concluent qu’au moins certains aspects de la perception

de la parole par l’humain reposent sur des sensibilités pré-établies du système auditif. Citons à ce

sujet les données de Sinex, McDonald et Mott (1991) qui ont mis en évidence que les réponses des

fibres du nerf auditif du chinchilla à des syllabes provenant d’un continuum de DEV avaient une

fonction catégorielle correspondant aux frontières décrites par Lisker & Abramson (1964). La

perception catégorielle des frontières de DEV reposerait donc sur des mécanismes élémentaires déjà

organisés au niveau du nerf auditif. On peut ainsi conclure avec Kuhl (1993) que la tendance à

répartir les sons en catégories ne reposerait pas sur des mécanismes spécifiquement humains

(comme postulé par Eimas et al., 1971), mais serait profondément enfouie dans notre histoire

phylogénétique.

Des études d’imagerie cérébrale menées chez de très jeunes enfants, principalement par

l’équipe de Ghislaine Dehaene-Lambertz, suggèrent toutefois qu’il existerait pourtant des réseaux

33

neuronaux, probablement innés, dédiés au traitement des sons spécifiquement linguistiques. En

1994, Dehaene-Lambertz et Dehaene ont examiné les PE de bébés âgés de deux mois pour un

contraste /ba/ - /ga/ présenté au sein d’un paradigme oddball. Les syllabes déviantes ont suscité une

composante négative, de type MMN, à partir de 390 msec. La polarité de cette onde s’inversait

autour de la scissure de Sylvius (ce qui indique un générateur temporal) et dominait à gauche. Les

auteurs font l’hypothèse que cette composante pourrait être le reflet de la mise en œuvre de

générateurs neuronaux sensibles à l’information spécifiquement phonétique. Toutefois, ils

admettent que la composante négative pourrait aussi provenir de la perception de différences

purement acoustiques entre les deux syllabes.

Afin de déterminer si la détection de la déviance manifestée par les bébés est le reflet de la

mise en jeu d’un réseau fonctionnel codant les différences phonétiques, Dehaene-Lambertz (2000) a

comparé la distribution topographique de la MMN évoquée par des contrastes syllabiques et par des

changements de timbre de sons continus, chez des bébés de quatre mois. Les différences de

distribution topographique des PE par ces deux types de contrastes suggèrent que des réseaux

neuronaux différents sont impliqués dans la représentation des traits acoustiques et linguistiques.

Aucun avantage de l’hémisphère gauche n’a toutefois été mis en évidence pour les PE par les

contrastes linguistiques ; les voltages enregistrés étaient toujours plus élevés au niveau de

l’hémisphère gauche, quelle que soit la nature des stimuli. Notons aussi que ces résultats

n’impliquent pas nécessairement la mise en oeuvre d’un réseau neuronal s pécifiquement dédié au

traitement des stimuli linguistiques ; les différences de topographie notées entre les deux conditions

expérimentales peuvent avoir été simplement causées par le fait que les deux types de stimuli

présentent un niveau de complexité t out à fait différent.

En utilisant le paradigme de perception catégorielle, Dehaene-Lambertz et Baillet (1998) ont

mis en évidence, chez des bébés de trois mois, des PE plus amples pour un contraste de lieu

d’articulation traversant une frontière catégorielle, que pour un contraste, caractérisé par la même

distance acoustique, mais intra-catégorie. En outre, le changement phonétique impliquait une région

34

temporale plus postérieure et plus dorsale que le changement acoustique. Par ailleurs, chez des

bébés âgés de seulement quelques jours, les PE suscités par un contraste phonétique se sont avérés

insensibles à des changements de voix des locuteurs (Dehane-Lambertz & Peña, 2001), indiquant

que l’information phonétique pertinente peut être extraite au sein de variations acoustiques non

pertinentes et confirmant la nature phonétique du réseau neuronal impliqué.

En utilisant l’IRMf, Dehaene-Lambertz, Dehaene et Hertz-Pannier (2002) ont observé, chez

des bébés de trois mois, une activation hémisphérique gauche similaire à celle décrite chez les

adultes, en réponse à de la parole auditive. Toutefois, alors que chez les adultes, on observe une

activation des aires temporales gauche plus forte pour la parole présentée à l’endroit que pour la

parole présentée à l’envers, cette asymétrie n’a pas été trouvée chez les bébés de trois mois. Ce

résultat indiquerait donc que si les structures cérébrales dédiées au traitement de la parole sont très

précocement latéralisées à gauche, elles ne sont pas d’emblée spécifiquement dédiées au traitement

phonétique.

Toutefois, lors d’une étude ultérieure, utilisant la topographie optique 5, Peña, Maki,

Kovacic, Dehaene-Lambertz, Koizumi, Bouquet et Mehler (2003) ont mis en évidence, chez des

bébés de deux à cinq jours, une supériorité de l’hémisphère gauche uniquement en réponse à la

présentation de stimuli linguistiques présentés à l’endroit (vs. inversés du point de vue temporel).

De telles données vont à l’encontre de l’hypothèse défendue par Locke (1997) selon laquelle ce

serait l’exposition au langage qui déterminerait l’asymétrie fonctionnelle en faveur de l’hémisphère

gauche.

Si de nombreux auteurs s’accordent à penser que la capacité, très précoce, des êtres humains

à segmenter les continuums phonétiques en fonction de catégories phonétiques dites universelles

repose sur des structures cérébrales, latéralisées à gauche, pré-câblées pour traiter des stimuli

auditifs, une controverse subsiste quant à la nature des mécanismes sous -jacents au traitement de la

parole. Alors que les données obtenues par Dehaene -Lambertz et ses collègues suggèrent que ceux- 5 Cette technique d’imagerie cérébrale fournit une estimation des changements de volume sanguin cérébral et de la saturation en oxygène à l’aide de fibres optiques é mettant une « lumière » qui, sur une certaine longueur d’onde, est absorbée par l’hémoglobine et, sur une autre longueur d’onde, par la désoxyhémoglobine.

35

ci sont spécifiques au traitement de la parole, les données obtenues sur l’animal non humain

indiquent plutôt qu’ils reposent sur des processus auditifs élémentaires, déjà présents au niveau du

nerf auditif.

Quelle que soit la nature des mécanismes sous-jacents au traitement de la parole, de

nombreuses données indiquent qu’ils ne sont pas établis une fois pour toutes puisqu’ils peuvent être

modulés à la fois par l’expérience linguistique et par l’expérience sensorielle.

IV. 2. Le rôle de l’expérience linguistique

L’expérience linguistique semble moduler les mécanismes à la base de la perception de la

parole de façon assez précoce. De nombreuses études suggèrent qu’à partir de six mois, les

frontières catégorielles universelles se réorganisent en fonction de l’environnement linguistique des

enfants.

Werker et ses collègues sont parmi les premiers à avoir montré qu’après l’exposition aux

sons de leur langue maternelle, les bébés semblent perdre leur sensibilité aux frontières qui ne sont

pas pertinentes. Ainsi, par exemple, en utilisant la technique d’observation de l’orientation de la

tête, Werker, Gilbert, Humphrey et Tees (1981) ont observé que des enfants de six à huit mois,

éduqués dans un environnement anglophone, sont capables de discriminer des phonèmes de l’hindi,

alors que des adultes anglophones n’y parviennent pas, même après entraînement (Tees & Werker,

1984). Chez les jeunes enfants, la perte de cette capacité à discriminer les phonèmes n’appartenant

pas à l’inventaire phonémique de leur langue native interviendrait à partir de 10-12 mois pour les

consonnes (Werker & Tees, 1984) et de six mois pour les voyelles (Kuhl, Williams, Lacerda,

Stevens & Lindblom, 1992).

L’évolution des capacités de discrimination phonétique au cours de la première année a été

confirmée par des études faisant appel à l’électrophysiologie. Cheour, Ceponiene, Lehtokoski,

Luuk, Allik, Alho et Näätänen (1998) ont étudié, à l’aide des PE, la discrimination de voyelles

spécifiques du finnois et de l’estonien chez des enfants finnois (testés à six et 12 mois) et estoniens

36

(testés à 12 mois uniquement). La MMN enregistrée à six mois chez les enfants finnois était de

même amplitude pour le contraste spécifique au finnois et pour celui spécifique à l’estonien. A 12

mois, la MMN était beaucoup plus ample pour le contraste spécifique à la langue que pour l’autre

contraste, et ce, pour les deux groupes d’enfants. Plus récemment, Rivera-Gaxiola, Silva-Pereyra et

Kuhl (2005) ont soumis des enfants anglophones de sept et 11 mois à des contrastes de DEV

spécifiques de l’anglais ou de l’espagnol. Les PE indiquent qu’à sept mois, les enfants sont capables

de discriminer les deux types de contrastes alors qu’à 11 mois, ils sont davantage sensibles au

contraste de leur langue native. Notons toutefois que les données individuelles indiquent qu’à onze

mois, les enfants conservent une certaine capacité à discriminer les contrastes non-natifs.

Cette dernière observation nous amène à citer des données indiquant que l’environnement

linguistique continue à modeler les capacités de discrimination phonétique bien après l’âge de un

an. Ainsi par exemple, des enfants unilingues finnois âgés de trois à six ans, exposés de façon

intensive (mais passive) au français, se sont avérés capables de développer en quelques semaines

une sensibilité à la frontière de voisement pertinente en français (Cheour, Shestakova, Alku,

Ceponienne & Näätänen, 2002 ; Shestakova, Huotilainen, Ceponienne & Cheour, 2003).

Plusieurs hypothèses on été avancées pour rendre compte de l’influence de l’environnement

linguistique sur les capacités de discrimination des sons du langage. Selon Kuhl (1993), l’exposition

aux phonèmes spécifiques de la langue native structurerait l’espace phonétique autour de

prototypes, ce qui entraînerait un déclin dans les capacités de sensibilité phonétique universelle et

une réorganisation fonctionnelle au niveau sensoriel (« structure-changing approach »). Selon

Werker (1991), les étapes précoces de la perception phonétique resteraient inchangées, mais

l’exposition à la langue native aboutirait à la formation de représentations phonologiques

additionnelles qui filtreraient les sons selon les catégories de la langue native à un stade ultérieur du

traitement (« structure-adding approach »). Werker (1991) en veut pour preuve la possibilité, pour

des adultes, de discriminer certains contrastes non natifs pour autant que ceux-ci ne soient pas

37

susceptibles d’interférer avec la langue native. Ainsi par exemple, des adultes anglophones

montrent une certaine capacité à discriminer des clics zoulous (Best, McRoberts & Sithole, 1988).

IV. 3. Le rôle de l’expérience sensorielle

La première question est de savoir si l’exposition à une stimulation acoustique est nécessaire

pour que le cortex temporal se spécialise dans le traitement de la parole. Neville, Schmidt et Kutas

(1983) ont observé, chez des adultes sourds profonds congénitaux utilisant l’ASL, des PE visuels au

niveau des aires corticales temporales qui auraient dû être auditives. Par conséquent, la privation

sensorielle auditive induit une réorganisation fonctionnelle des aires corticales auditives. Cette

réorganisation n’est que fonctionnelle puisque les aires temporales conservent leur macroanatomie

et leur niveau de métabolisme du glucose (Kujala, Alho & Näätänen, 2000).

La question de la nécessité de l’expérience acoustique a également été abordée en examinant

les activations suscitées par la lecture labiale chez des patients sourds congénitaux éduqués

oralement (MacSweeney, Campbell, Calvert, McGuire, David, Suckling, Andrew, Woll &

Brammer, 2001). Par rapport aux entendants, les sourds ont montré un patron d’activation du cortex

temporal gauche moins important et plus dispersé. Les auteurs en ont conclu que la spécialisation

fonctionnelle du cortex temporal gauche pour la perception de la parole semble régie par

l’exposition à l’input acoustique. Lorsque cet input est absent dès la naissance, cette région ne

montre pa s le patron de spécialisation focale attendu, malgré les activations idiosyncrasiques

observées dans différentes régions temporales par les individus sourds. Le fait d’entendre la parole

aiderait à développer le système cohérent de perception de la parole au sein des aires latérales du

lobe temporal gauche.

La question suivante est de savoir dans quelle mesure cette situation est modifiée lorsque

l’input acoustique est restauré, par exemple par la pose d’un implant cochléaire. De nombreuses

études ont démontré, chez les enfants sourds profonds congénitaux, un important bénéfice de

l’implant cochléaire sur les capacités de perception (e.g. Wu & Yang, 2003) et de production (e.g.

38

Vieu, Mondain, Blanchard, Sillon, Reuillard-Artieres, Tobey, Uziel & Piron, 1998) de la parole

auditive. Pour des raisons évidentes de plasticité du système nerveux central, la précocité de la mise

en place de l’implant cochléaire est un élément fondamental dans les performances qu’atteignent les

enfants sourds. Ainsi, les scores en perception de la parole auditive après implantation deviennent

d’autant meilleurs que l’implant a été posé tôt, de préférence avant 3 ou 4 ans (e.g. Baumgartner,

Pok, Egelierler, Franz, Gstoettner & Hamzavi, 2002). On peut ainsi penser que l’implantation

précoce permettrait aux aires cérébrales auditives de maintenir leur fonctionnalité initiale.

L’étude des PE auditifs enregistrés chez des enfants munis d’un implant cochléaire, permet

d’étayer cette hypothèse (pour une revue, voir Purdy, Kelly & Thorne, 2001). Ponton, Don,

Eggermont, Waring, Kwong et Masuda (1996) ont montré que les latences de la composante

auditive P1 sont prolongées chez des enfants sourds implantés, comparées à celles observées chez

des enfants normo-entendants appariés du point de vue de l’âge. Toutefois, ces latences sont

d’autant plus normales que l’implantation a été précoce (Sharma, Dorman, Spahr & Todd, 2002).

Par ailleurs, le rythme de maturation de ces PE corticaux auditifs est essentiellement le même, voire

plus rapide, chez le s enfants munis d’un implant que chez les enfants entendant normalement

(Sharma, Dorman, & Spahr, 2002a ; Sharma, Dorman & Kral, 2005). Sharma, Dorman et Spahr

(2002b) suggèrent que la plasticité cérébrale serait maintenue pendant une période de surdité

n’excédant pas 3.5 ans ; l’introduction, pendant cette période, d’une stimulation via l’implant

permettant de reprendre la séquence maturationnelle normale. On peut également conclure de ces

données que les effets de l’âge d’implantation sur le développement des habiletés perceptives de

plus haut niveau seraient le reflet de périodes critiques agissant au niveau des aires auditives

centrales.

Pour des raisons techniques et éthiques, la question des aires cérébrales impliquées dans le

traitement de la parole chez les sourds implantés n’a pu, pour l’instant, être abordée que chez les

adultes. Plusieurs études indiquent que les aires corticales sous -jacentes au traitement de la parole

39

ont une organisation fonctionnelle différente chez les personnes ayant connu une longue période de

privation sensorielle.

Nishimura, Hashikawa, Doi, Iwaki, Watanabe, Kusuoka, Nishimura et Kubo (1999) ont

étudié un patient sourd exposé à la langue des signes, et muni, lorsqu’il était adulte, d’un implant

cochléaire. La stimulation auditive à travers l’implant a provoqué une activation du cortex auditif

primaire mais aucune activation du cortex auditif secondaire. Il semble donc que le cortex auditif

primaire de personnes sourdes signantes reste réceptif au traitement du son. Le cortex auditif

secondaire quant à lui, une fois recruté pour le traitement de la langue des signes, ne pourrait plus se

réadapter au traitement de l’information acoustique. Ces données suggèrent que la nature de

l’expérience linguistique précoce affecte le développement des systèmes langagiers dans le cerveau.

En utilisant la TEP, Giraud, Price, Graham, Truy & Frackowiak (2001) ont mis en évidence

une activation du cortex auditif et du cortex visuel chez des adultes sourds post -linguaux engagés

dans une tâche d’écoute de mots, activation qui était positivement corrélée avec les capacités de

lecture labiale de ces personnes. L’activation du cortex visuel n’a pas été observée dans un groupe

de sujets de contrôle, ni pour des sons non naturels (autres que des mots, syllabes ou sons

environnementaux), indiquant que le cortex visuel des patients implantés répond à tous les stimuli

dotés d’une signification. Par ailleurs, les activations visuelles étaient moins marquées et moins

consistantes chez les patients récemment implantés que chez ceux qui avaient bénéficié d’une plus

longue période de réhabilitation. Ce résultat suggère que ces activations ne sont pas dues à la

plasticité cérébrale liée à la surdité en soi, mais évoluent parallèlement à l’utilisation fonctionnelle

de l’audition grâce à l’expérience avec l’implant cochléaire. De telles données ont été confirmées

dans une étude ultérieure (Giraud & Truy, 2002). Les résultats de ces études montrent que des

changements significatifs peuvent se produire dans le système nerveux de l’adulte en réponse à un

nouvel apprentissage. Même tardive, la pose d’un implant cochléaire modifie l’organisation

fonctionnelle des aires dévolues au traitement de la parole.

40

On ne peut que souhaiter que les progrès de l’IRMf permettent, dans un proche avenir,

d’étudier l’organisation fonctionnelle des aires cérébrales impliquées dans la perception du langage

oral chez les enfants implantés précocement et tardivement.

IV.4. Les processus développementaux ont-ils d’emblée une composante audiovisuelle ?

Selon de nombreux auteurs, les enfants représenteraient très précocement la parole de façon

multimodale. Ainsi, par exemple, comme les adultes, des bébés de quatre à six mois sont sensibles à

la synchronisation de signaux linguistiques auditifs et visuels (Dodd, 1979). En outre, au même âge

(Kuhl & Meltzoff, 1982 ; 1984 ; MacKain, Studdert-Kennedy, Spieker & Stern, 1983 ; Walton &

Bower, 1993 ; Patterson & Werker, 1999), et même déjà à deux mois (Patterson & Werker, 2003),

ils sont capables d’associer des sons de parole aux configurations correspondantes de la bouche.

Lorsqu’ils sont placés face à deux écrans vidéo, présentant chacun simultanément un visage, les

bébés préfèrent regarder le visage dont le geste articulatoire est apparié avec le phonème entendu et

ils le font mieux lorsque le visage est présenté à l’hémichamp droit (MacKain et al., 1983). Notons

qu’une telle association audiovisuelle ne se produit pas pour des stimuli non linguistiques (Kuhl,

Williams & Meltzoff, 1991).

Dans l’optique d’une sensibilité précoce à la parole audiovisuelle, une intégration entre des

signaux audiovisuels discordants devrait également apparaître de façon très précoce. L’observation

d’un effet McGurk chez de très jeunes enfants est évidemment rendue complexe par la difficulté de

mesurer la perception d’enfants n’ayant pas encore accès au langage.

En utilisant des mesures du temps de regard, Rosenblum, Schmuckler et Johnson (1997) ont

mis en évidence une intégration des modalités auditive et visuelle chez des bébés de cinq mois.

L’expérience a été menée à l’aide d’une procédure d’habituation/déshabituation, avec habituation à

des stimuli audiovisuels congruents. Lorsque les enfants étaient habitués à un stimulus audiovisuel

congruent, ainsi que le montrait la diminution de leur temps de regard, un stimulus incongru était

présenté qui pouvait entraîner (chez l’adulte) la même perception que le stimulus congruent ou une

41

perception différente. Les bébés ont montré un regain d’intérêt envers les stimuli incongrus

suscitant une autre perception que le stimulus congruent. Dès cinq mois, les enfants seraient donc

capables d’intégration audiovisuelle. En utilisant un paradigme d’habituation/déshabituation assez

similaire, Burnham et Dodd (1996) ont également montré que des enfants de quatre mois et demi

sont sensibles à l’effet McGurk.

Les auteurs admettent cependant qu’en cinq mois, les bébés ont pu disposer d’une

expérience suffisante avec la parole audiovisuelle pour qu’elle serve de base aux effets observés.

Les parts de l’innéité et de l’apprentissage dans l’intégration audiovisuelle sont donc difficiles à

évaluer. L’utilisation de techniques de cartographie cérébrale non invasives sur des bébés âgés de

quelques jours, voire de quelques heures, soumis à des stimuli linguistiques audiovisuels permettrait

certainement d’apporter de nouveaux éléments à ce débat. On peut toutefois estimer assez probable

la possibilité que les représentations phonologiques soient d’emblée de nature multimodale. Des

données obtenues par Streri (2003) indiquent, en effet, que des bébés âgés de seulement quelques

heures sont capables de reconnaître visuellement un objet qui leur a été présenté quelques minutes

auparavant via la modalité tactile (main droite). On peut en inférer que la capacité à se représenter

le monde de façon multimodale est innée.

Si la perception de la parole est effectivement basée sur des prédispositions précoces, voire

innées, il faut remarquer qu’à l’instar des capacités de discrimination phonétique étudiées pour la

parole auditive, les représentations phonologiques audiovisuelles sont modulées à la fois par

l’expérience sensorielle (e.g. augmentation des réponses visuelles chez des enfants sourds implantés

soumis à un paradigme McGurk ; Clark, 2003) et par l’expérience linguistique. Ainsi, la taille des

illusions McGurk varie en fonction du contexte linguistique. Par exemple, dans les langues à tons

telles que le chinois ou le japonais, l’effet McGurk est décrit comme assez faible (Sekiyama &

Tohkura, 1991 ; 1993 pour le japonais ; Sekiyama, 1997 pour le chinois). Or, dans ces langues, le

signal visuel n’a pas le même degré d’informativité que dans des langues telles que le français ou

l’anglais.

42

On pourrait donc penser qu’au cours du développement, le poids perceptif accordé à

l’audition et à la vision serait modulé en fonction de l’expérience sensorielle et linguistique propre à

chacun-e.

V. Conclusion

Il est maintenant bien établi que lorsque nous écoutons un message auditif, celui-ci est traité

au niveau d’aires temporales, essentiellement au niveau du gyrus temporal supérieur. En fonction de

ce que nous décidons de faire de ce signal (écoute passive, analyse phonologique, analyse

sémantique, …), d’autres aires cérébrales sont susceptibles d’être recrutées. Citons, entre autres, les

gyri temporaux moyens et inférieurs, le gyrus angulaire et l’aire de Broca.

Dans la situation où seuls les mouvements des lèvres seraient disponibles, on constate, outre

une implication d’aires occipitales, l’implication d’aires temporales supérieures et d’aires motrices

globalement similaires à celles observées pour la parole auditive. Une question qui demeure en

suspend est celle de déterminer à quel moment l’information visuelle, venant des aires occipitales,

est injectée au niveau des structures auditives : d’entrée de jeu, au niveau du cortex auditif primaire,

ou au niveau du cortex auditif secondaire ?

Lorsque le message auditif s’accompagne de la vue du locuteur, ce qui est le cas de la

majorité des situations de la vie quotidienne, on observe des effets d’interaction à la fois au niveau

des aires sensorielles spécifiques à la modalité auditive et à la modalité visuelle et au niveau d’aires

polysensorielles telles que le STS.

En ce qui concerne les aires sensorielles, les effets d’interaction ont à la fois été mis en

évidence par les techniques d’imagerie cérébrale (la parole audiovisuelle suscitant davantage

d’activation à ce niveau que les deux conditions unimodales) et par les techniques des PE et de la

MEG (les PE exogènes étant modulés, tant au niveau de leur latence que de leur amplitude, dans

une condition de parole audiovisuelle par rapport aux conditions unimodales). Notons qu’un

nombre beaucoup plus conséquent d’études ont démontré des effets d’interaction au niveau des

43

aires auditives qu’au niveau des aires visuelles. Dans la mesure où le signal visuel module l’activité

du cortex auditif primaire et secondaire dès les premières étapes de traitement de l’information

(autour de 100 msec. après le début de la stimulation), ces effets d’interaction peuvent qualifiés de

précoces. Comme l’indiquent également de nombreuses études comportementales, il est

vraisemblable que les signaux auditifs et visuels ne sont pas traités de façon complètement séparée

avant d’être intégrés. Il reste toutefois encore à déterminer de quel ordre exactement est

l’interaction au niveau des aires sensorielles. Le traitement de l’information effectué à ce niveau

est-il déjà d’ordre linguistique, ou, comme le suggèrent Klucharev et al. (2003), d’ordre général

(extraction des traits communs, non spécifiquement linguistiques, aux deux modalités) ?

De nombreux travaux convergent vers l’idée que les effets d’interaction décrits au niveau du

STS sont de nature phonétique. Ceux-ci sont en moyenne légèrement plus tardifs (vers 200 msec.

post-stimulation) que ceux décrits au niveau des aires sensorielles. La variabilité des latences

rapportées dans la littérature ne permet toutefois pas de déterminer précisément si l’activation du

STS est nécessairement consécutive à celle des aires sensorielles. Rappelons, à ce sujet, l’hypothèse

émise par Calvert et al. (1998 ; 2000) selon laquelle l’intégration audiovisuelle s’effectuerait

d’abord au niveau du STS avant que l’information visuelle soit renvoyée, via des rétro-projections,

au niveau du cortex auditif dont elle modulerait alors l’activité.

Notons que ces deux hypothèses (activation du STS antérieure ou postérieure à celle du

cortex auditif) ne sont peut -être pas complètement contradictoires. On pourrait imaginer que des

effets d’interaction précoces opèrent, dès les premières étapes de traitement de l’information, au

niveau des aires sensorielles. Le résultat de ces effets d’interaction pourrait alors être envoyé au

niveau du STS où les signaux auditifs et visuels seraient intégrés sur base phonétique. Enfin, cette

information pourrait être renvoyée au niveau du cortex auditif où le percept issu de l’intégration

serait véritablement traduit en termes auditifs.

Une autre question soulevée dans ce chapitre est celle de la base sur laquelle se fait

l’intégration. Suivant le concept d’intégration précoce, on peut admettre que l’intégration se fait sur

44

une base commune aux deux modalités. Les études d’imagerie cérébrale récentes démontrant

l’activation des aires motrices dans le traitement du langage oral, qu’il soit auditif, visuel ou

audiovisuel constituent un argument supplémentaire en faveur de l’idée, défendue par plusieurs

auteurs (e.g. Liberman et al., 1967), selon laquelle l’intégration audiovisue lle se ferait sur base d’un

code moteur. Une question qui n’a, à notre connaissance, pas encore été abordée dans la littérature

est celle du moment auquel les aires motrices sont impliquées, notamment par rapport aux aires

sensorielles et au STS, dans le t raitement du langage oral. La réponse à cette question permettrait

certainement de mieux comprendre comment les aires temporales et motrices interagissent pour

intégrer les représentations sensorielles multimodales avec les commandes motrices sous-jacentes à

ces représentations.

Si, comme nous venons de le voir, de nombreux questions relatives à l’organisation

cérébrale fonctionnelle du langage oral sont encore débattues actuellement, la très grande majorité

des auteurs s’accordent néanmoins sur l’idée que le traitement de la parole, quelle que soit sa

modalité d’entrée, est principalement l’œuvre de l’hémisphère gauche. Toutefois, alors que certains

auteurs attribuent la spécialisation hémisphérique gauche pour le traitement de la parole à des

mécanismes auditifs non spécifiquement linguistiques (avantage de l’hémisphère gauche pour le

traitement de stimuli nécessitant une haute résolution temporelle, ce qui est typiquement le cas des

stimuli linguistiques), d’autres auteurs y voient la marque d’une spécific ité intrinsèque de

l’hémisphère gauche pour le traitement de la parole. Comme nous l’avons souligné, les deux

hypothèses pourraient être conciliées sur base de l’idée que les mécanismes sous-jacents à la

résolution temporelle et ceux spécifiques à la parole interviendraient à des niveaux de traitement

différents (Zatorre et al., 2002).

Des questions similaires sont débattues en termes développementaux. Selon certains auteurs,

le développement de la parole reposerait sur des mécanismes auditifs généraux, non spécifiquement

humains (e.g. une sensibilité particulière du système nerveux animal à traiter les stimuli nécessitant

une haute résolution temporelle, tels les stimuli variant en termes de DEV). Sur base de cette idée,

45

on peut émettre l’hypothèse selon laquelle, au cours du développement, le traitement de la parole va

continuer à reposer sur de tels mécanismes non spécifiquement linguistiques. Toutefois, on ne peut

exclure, qu’au cours de l’exposition au langage, les êtres humains mettent en place des mécanismes

de traitement de la parole, spécifiquement linguistiques et localisés au niveau de l’hémisphère

gauche (dont la spécialisation fonctionnelle ne serait alors pas donnée d’emblée).

Selon un autre point de vue, le système nerveux serait prédisposé à traiter des stimuli

spécifiquement linguistiques. Le développement de la parole reposerait alors sur des mécanismes

spécifiquement linguistiques, qui seraient le fruit du développement phylogénétique de notre

espèce. Dans cette optique, l’hémisphère gauche serait d’emblée fonctionnellement organisé pour

traiter la parole.

Quelle que soit la nature des mécanismes à la base du développement de la perception de la

parole, de nombreux arguments indiquent que ceux-ci sont à la fois modulés par l’expérience

linguistique et par l’expérience sensorielle. Alors qu’au cours des premiers mois de leur vie, les

bébés humains structurent leurs représentations linguistiques en fonction de catégories dites

universelles, à partir de l’âge de six mois, ils commencent à les façonner en fonction de leur

environnement linguistique. Ce processus n’est pas établi une fois pour toutes, puisqu’il est possible

de développer très rapidement, même après plusieurs années d’utilisation de la langue native, une

sensibilité à des contrastes linguistiques d’autres langues. Pour des raisons de plasticité cérébrale,

on peut évidemment penser que cet apprentissage est d’autant plus rapide et solide qu’il est réalisé

précocement.

Dans le même ordre d’idées, les personnes privées d’input acoustique pendant les premiers

mois de leur vie, sont susceptibles de développer des compétences langagières et une organisation

fonctionnelle cérébrale sous-jacente à ces compétences s’approchant d’autant plus de la normale

que l’input auditif aura été restauré (par implant cochléaire par exemple) précocement. Toutefois,

un input acoustique minimum semble nécessaire au développement des structures auditives

cérébrales. En effet, des personnes sourdes n’utilisant pas de prothèse auditive ne montrent pas le

46

patron d’organisation cérébrale habituel. Par ailleurs, la nature de l’input acoustique affecte le

développement des structures cérébrales impliquées dans la perception du langage puisque le patron

d’activation observé suite à l’écoute de stimuli auditifs ne semble pas être le même chez des

patients sourds implantés et chez des personnes normo-entendantes.

Enfin, plusieurs données suggèrent que les mécanismes à la base du développement de la

parole possèdent, sinon d’emblée, du moins très rapidement une composante audiovisuelle.

Malgré les nombreuses questions qui restent en suspend à l’issue de ce chapitre, on peut au

moins conclure que la perception de la parole ne peut plus être considérée comme un phénomène

purement auditif. Le signal visuel est non seulement intégré, de façon irrépressible, au signal auditif

dès les premières étapes de traitement de la parole, mais il le serait aussi dès les premières étapes de

l’apprentissage du langage. On peut ainsi considérer que la parole possède, par essence, un statut

audiovisuel.

Remerciements

Ce travail a pu être réalisé grâce au soutien financier de la Fondation Fyssen.

Bibliographie

Banati, R.B., Goerres, G.W., Tjoia, C., Aggleton, J.P., & Grasby, P. (2000). The functional

anatomy of visual-tactile integration in man : a study using positron emission tomography.

Neuropsychologia, 38, 115-124.

Barraclough, N.E., Xiao, D., Baker, C.I., Oram, M.W., & Perrett, D.I. (2005). Integration of

visual and auditory information by superior temporal sulcus neurons responsive to the sight of

actions. Journal of Cognitive Neuroscience, 17, 377-391.

47

Baumgartner, W.D., Pok, S. M., Egelierler, B., Franz, P., Gstoettner, W., & Hamzavi, J.

(2002). The role of age in pediatric cochlear implantation. International Journal of Pediatric

Otorhinolaryngology, 62, 223-228.

Bavelier, D., Corina, D., Jezzard, P., Clark, V., Karni, A., Lalwani, A., Rauscheker, J.P.,

Braun, A., Turner, R., & Neville, H. (1998). Hemispheric specialization for English and ASL: left

invariance-right variability. NeuroReport, 9, 1537-1542.

Baynes, K., Funnell, M.G., & Fowler, C.A. (1994). Hemispheric contributions to the

integration of visual and auditory information in speech perception. Perception and Psychophysics,

55, 633-641.

Bernstein, L.E., Auer, E.T.J., Moore, J.K., Ponton, C.W., Don, M., & Singh, M. (2002).

Visual speech perception without primary auditory cortex activation. NeuroReport, 13, 311-315.

Besle, J., Fort, A., Delpuech, C., & Giard, M.H. (2004). Bimodal speech : early suppressive

visuel effects in human auditory cortex. European Journal of Neuroscience, 20, 2225-2234.

Best, C.T., McRoberts, G.W., & Sithole, N.M. (1988). Examination of perceptual

reorganisation for nonnative speech contrasts: zulu click discrimination by english-speaking adults

and infants. Journal of Experimental Psychology: Human Perception and Performance, 14, 345-360.

Binder, J.R., Frost, J.A., & Hammeke, T.A. (1996). Function of the left planum temporale in

auditory and linguistic processing. Brain, 119, 1239-1247.

Binder, J.R., Frost, J.A., Hammeke, T.A., Cox, R.W., Rao, S.M., & Prieto, T. (1997).

Human brain language areas identified by functional magnetic resonance imaging. Journal of

Neuroscience, 17, 353-362.

Binder, J.R., Rao, S.M., Hammeke, T.A., Yetkin, F.Z., Jesmanowicz, A., Bandettini, P.A.,

Wong, E.C., Estkowski, L.D., Goldstein, M.D., Haughton, V.M., & Hyden J.S. (1994). Functional

magnetic resonance imaging of human auditory cortex. Annals of Neurology, 35, 662-672.

48

Buchsbaum, B.R., Hickok, G., & Humphries, C. (2001). Role of left posterior superior

temporal gyrus in phonological processing for speech perception and production. Cognitive

Science, 25, 663-678.

Burnham, D., & Dodd, B. (1996). Auditory-visual speech perception as a direct process:

The McGurk effect in infants and across languages. Proceedings of Speechreading by Humans and

Machines Conference. Castéra-Verzudan, France, 103-113.

Callan, D.E., Callan, A.M., Kroos, C., & Vatikiotis-Bateson, E. (2001). Multimodal

contribution to speech perception revealed by independent component analysis: a single-sweep

EEG case study. Cognitive Brain Research, 10, 349-353.

Callan, D.E., Jones, J.A., Munhall, K., Callan, A.M., Kroos, C. & Vatikiotis-Bateson, E.

(2003). Neural processes underlying perceptual enhancement by visual speech gestures.

NeuroReport, 14, 2213-2218.

Calvert, G.A. (2001). Crossmodal processing in the human brain : Insights from functional

neuroimaging studies. Cerebral Cortex, 11, 1110-1123.

Calvert, G.A., Brammer, M.J., Bullmore, E.T., Campbell, R., Iversen, S.D., & David, S.A.

(1999). Response amplification in sensory-specific cortices during crossmodal binding.


Calvert, G.A., Brammer, M.J., & Iversen, S.D. (1998). Crossmodal identification. Trends in

Cognitive Sciences, 2, 247-253.

Calvert, G.A., Bullmore, E.T., Brammer, M.J., Campbell, R., Williams, S.C.R., McGuire, P.

K., Woodruff, P.W.R., Iversen, S.D., & David, A.S. (1997). Activation of auditory cortex during

silent lipreading. Science, 276, 593-595.

Calvert, G.A., & Campbell, R. (2003). Reading speech from still and moving faces : the

neural substrates of visible speech. Journal of Cognitive Neuroscience, 15, 57-70.

49

Calvert, G.A., Campbell, R., & Brammer, M.J. (2000). Evidence from functional magnetic

resonance imaging of crossmodal binding in the human heteromodal cortex. Current Biology, 10,

649-657.

Campbell, R. (1986). The lateralization of lip-read sounds: a first look. Brain and Cognition,

15-21.

Campbell, R. (1987). The cerebral lateralization of lip-reading. In B. Dodd & R. Campbell

(Eds.), Hearing by Eye: The Psychology of Lip-reading (pp. 215-225). London, NJ: Lawrence

Erlbaum Associates.

Campbell, R. (1992). Lip-reading and the modularity of cognitive function:

Neuropsychological glimpses of fractionation for speech and for faces. In J. Alegria, D. Holender, J.

Morais, & M. Radeau (Eds.), Analytic Approaches to Human Cognition (pp. 275-289). Elsevier

Science publishers.

Campbell, R. (1996). Seeing brains reading speech: A review and speculations. Proceedings

of Speechreading by Humans and Machines Conference. Castéra-Verzudan, France, 115-133.

Campbell, R., de Haan, E.H.F., & de Gelder, B. (1996). The lateralization of lipreading: a

second look. Neuropsychologia, 34, 1235-1240.

Campbell, R., Garwood, J., Franklin, S., Howard, D., Landis, T., & Regard, M. (1990).

Neuropsychological studies of auditory-visual fusion illusions. Four cases studies and their

implications. Neuropsychologia, 28, 787-802.

Campbell, R., Landis, T., & Regard, M. (1986). Face recognit ion and lipreading: a

neurological dissociation. Brain, 109, 509-521.

Campbell, R., MacSweeney, M., Surguladze, S.A., Calvert, G.A., McGuire, P., Suckling, J.,

Brammer, M.J., & David, A.S. (2001). Cortical substrates for the perception of face actions : a n

fMRI study of the specificity of activation for seen speech and for meaningless lower-face acts

(gurning). Cognitive Brain Research, 12, 233-243.

50

Cheour, M., Ceponiene, R., Lehtokoski, A., Luuk, A., Allik, J., Alho, K., & Näätänen, R.

(1998). Development of language-specific phoneme representation in the infant brain. Nature

Neuroscience, 1, 351-353.

Cheour, M., Shestakova, A., Alku, P., Ceponienne, R., & Näätänen, R. (2002). Mismatch negativity

shows that 3-6 year old children can learn to discriminate non native speech sounds within two

months. Neuroscience Letters, 325, 187-190.

Clark, G. (2003). Cochlear implants in children : safety as well as speech and language.

International Journal of Pediatric Otorhinolaryngology, 67, S7-S20.

Colin, C., & Radeau, M. (2003). Les illusions McGurk dans la parole : 25 ans de recherches.

L'Année Psychologique, 104, 497-542.

Colin, C., Radeau, M., Soquet, A., Colin, F., & Deltenre, P. (2002). Mismatch negativity

evoked by the McGurk-MacDonald effect : Evidence for a phonological representation within the

auditory sensory short term memory. Clinical Neurophysiology, 113, 495-506.

Colin, C., Radeau, M., Soquet, A., & Deltenre, P. (2004). Generalization of the generation

of an MMN by illusory McGurk percepts : voiceless consonants. Clinical Neurophysiology, 115,

1989-2000.

Cowan, N., Winkler, I., Teder, W., & Näätänen, R. (1993). Memory prerequisites of

mismatch negativity in the auditory event-related potential (ERP). Journal of Experimental

Psychology: Learning, Memory and Cognition, 19, 909-921.

de Gelder, B., Vroomen, J., & Bachoud-Levi, A.-C. (1998). Impaired speechreading and

audio-viual speech integration in prosopagnosia. In R. Campbell, B. Dodd, & D. Burnham (Eds.),

Hearing by eye II (pp. 195-207). Psychology Press.

Dehaene-Lambertz, G. (2000). Le développement de la perception phonologique chez

l'enfant: études électrophysiologiques. Revue de Neuropsychologie, 10(4), 519-533.

Dehaene-Lambertz, G., & Baillet, S. (1998). A phonological representation in the infant

brain. NeuroReport, 9, 1885-1888.

51

Dehaene-Lambertz, G., & Dehaene, S. (1994). Speed and cerebral correlates of syllable

discrimination in infants. Nature, 370, 292-295.

Dehaene-Lambertz, G., Dehaene, S., & Hertz-Pannier, L. (2002). Functional neuroimaging

of speech perception in infants. Science, 298, 2013-2015.

Dehaene-Lambertz, G., Pallier, C., Serniclaes, W., Sprenger-Charolles, L., Jobert, A. &

Dehaene, S. (2005). Neural correlates of switching from auditory to speech perception.

NeuroImage, 24, 21-33.

Dehaene-Lambertz, G., & Peña, M. (2001). Electrophysiological evidence for automatic

phonetic processing in neonates. NeuroReport, 12, 3155-3158.

Démonet, J.F., Chollet, F., Ramsay, S., Cardebat, D., Nespoulous, J.L., Wise, R., Rascol, A.,

& Frackowiak, R. (1992). The anatomy of phonological and semantic processing in normal

subjects. Brain, 115, 1753-1768.

Dent, M.L., Brittan-Powell, E.F., Dooling, R.J., Pierce, A. (1997). Perception of synthetic

/ba/-/wa/ speech continuum by budgerigars (Melopsittacus undulates). Journal of the Acoustical

Society of America, 102, 1891-1897.

Diesch, E. (1995). Left and right hemifield advantages of fusions and combinations in

audiovisual speech perception. Quarterly Journal of Experimental Psychology, 48A, 320-333.

Dodd, B. (1979). Lip reading in infants: Attention to speech presented in- and out-of-

synchrony. Cognitive Psychology, 11, 478-484.

Dorman, M.F., Studdert-Kennedy, M., & Raphaël, L.J. (1977). Stop-consonant recognition:

Release bursts and formant transitions as functionally equivalent, context-dependent cues.

Perception and Psychophysics, 22, 109-122.

Eimas, P.D. (1974). Auditory and linguistic processing of cues for place of articulation by

infants. Perception and Psychophysics, 16, 513-521.

Eimas, P.D., S iqueland, E.R., Jusczyk, P., & Vigorito, J. (1971). Speech perception in

infants. Science, 171, 303-306.

52

Fingelkurts, A.A., Fingelkurts, A.A., Krause, C.M., Möttönen, R., & Sams, M. (2003).

Cortical operational synchrony during audio-visual speech integration. Brain and Language, 85,

297-312.

Fowler, C.A. (1991). Auditory perception is not special: We see the world, we feel the

world, we hear the world. Journal of the Acoustical Society of America, 89, 2910-2915.

Fowler, C.A., & Dekle, D.J. (1991). Listening with eye and hand: Cross-modal contributions

to speech perception. Journal of experimental Psychology: Human Perception and Performance, 17,

816-828.

Gandour, J., Wong, D., Hsieh, L., Weinzapfel, B., Van Lancker, D., & Hutchins, G. D.

(2000). A crosslinguistic PET study of tone perception. Journal of Cognitive Neuroscience, 12, 207-

222.

Gandour, J., Wong, D., & Hutchins, G. (1998). Pitch processing in the human brain is

influenced by language experience. NeuroReport, 9, 2115-2119.

Ghazanfar, A.A., Maier, J.X., Hoffman, K.L., Logothetis, N.K. (2005). Multisensory

integration of dynamic faces and voices in rhesus monkey auditory cortex. Journal of Neuroscience,

25, 5004-5012.

Giraud, A.L., Price, C.J., Graham, J. M., Truy, E., & Frackowiak, R.S.J. (2001). Cross-

modal plasticity underpins language recovery after cochlear implantation. Neuron, 30, 657-663.

Giraud, A.L., & Truy, E. (2002). The contribution of visual areas to speech comprehension:

a PET study in cochlear implants patients and normal-hearing subjects. Neuropsychologia, 40,

1562-1569.

Green, K.P. (1998). The use of auditory and visual information during phonetic processing:

implications for theories of speech perception. In R. Campbell, B. Dodd, & D. Burnham (Eds.),

Hearing by eye II (pp. 3-25). Psychology Press.

53

Green, K.P., & Gerdeman, A. (1995). Cross-modal discrepancies in coarticulation and the

integration of speech information: The McGurk effect with mismatched vowels. Journal of

Experimental Psychology: Human Perception and Performance, 21, 1409-1426.

Green, K.P., & Kuhl, P.K. (1989). The role of visual information in the processing of place

and manner features in speech perception. Perception and Psychophysics, 45, 34-42.

Green, K.P., & Kuhl, P.K. (1991). Integral processing of visual place and auditory voicing

information during phonetic perception. Journal of Experimental Psychology: Human Perception

and Performance, 17, 278-288.

Green, K.P., & Miller, J.L. (1985). On the role of visual rate information in phonetic

perception. Perception and Psychophysics, 38, 269-276.

Hadjikhani, N., & Roland, P.E. (1998). Cross-modal transfer of information between the

tactile and the visual representations in the human brain : a positron emission tomography study.

Journal of Neuroscience, 18, 1072-1084.

Hardison, D.B. (1996). B imodal perception by native and nonnative speakers of English:

Factors influencing the McGurk effect. Language Learning, 46, 3-73.

Hickok, G., Bellugi, U., & Klima, E.S. (1996). The neurobiology of sign language and its

implications for the neural basis of language. Nature, 381, 699-702.

Jääskelainen, I.P., Ojanen, V., Ahveninen, J., Auranen, T., Levänen, S., Möttönen, R.,

Tarnanen, I., & Sams, M. (2004). Adaptation of the neuromagetic N1 responses to phonetic stimuli

by visual speech in humans. NeuroReport, 15, 2741-2744.

Jones, E.G., & Powell, T.P.S. (1970). An anatomical study of converging sensory pathways

within the cerebral cortex of the monkey. Brain, 93, 793-820.

Jones, J.A., & Callan, D. (2003). Brain activity during audiovisual speech perception: an

fMRI study of the McGurk effect. NeuroReport, 14, 1129-1133.

Jones, J.A., & Munhall, K.G. (1996). Spatial and temporal influences on audiovisual speech

perception. International Journal of Psychology, 31, 473.4.

54

Klein, D., Zatorre, R.J., Milner, B., & Zhao, V. (2001). A cross-linguistic PET study of tone

perception in Mandarin Chinese and English speakers. NeuroImage, 13, 646-653.

Klucharev, V., Möttönen, R., & Sams, M. (2003). Electrophysiological indicators of

phonetic and non-phonetic multisensory interactions during audiovisual speech perception.

Cognitive Brain Research, 18, 65-75.

Kluender, K.R., Diehl, R.L., & Killeen, P.R. (1987). Japonese quail can learn phonetic

categories. Science, 237, 1195-1197.

Kohler, E., Keysers, C., Umilta, M. A., Fogassi, L., Gallese, V., & Rizzolatti, G. (2002).

Hearing sounds, understanding actions : Action representation in mirror neurons. Science, 297, 846-

848.

Kuhl, P.K. (1993). Innate predispositions and the effects of experienc e in speech perception:

the native language magnet theory. In d. Boysson-Bardies (Ed.), Developmental Neurocognition :

Speech and Faces Processing in the First Year of Life (pp. 259-274). Kluwer Academic Publishers.

Kuhl, P.K., & Meltzoff, A.N. (1982). The bimodal perception of speech in infancy. Science,

218, 1138-1141.

Kuhl, P.K., & Meltzoff, A.N. (1984). The intermodal representation of speech in infants.

Infant Behavior and Development, 7, 361-381.

Kuhl, P.K., & Miller (1975). Speech perception by the chinchilla : voiced-voiceless

distinction in alveolar plosive consonants. Science, 190, 69-72.

Kuhl, P.K., & Miller (1978). Speech perception by the chinchilla : identification function for

synthetic VOT stimuli. Journal of the Acoustical Society of America, 63, 905-917.

Kuhl, P.K., & Padden, D.M. (1982). Enhanced discriminability at the phonetic boundaries

for the voicing feature in macaques. Perception and Psychophysics, 32, 542-550.

Kuhl, P.K., & Padden, D.M. (1983). Enhanced discriminability at the phonetic boundaries

for the place feature in macaques. Perception Journal of the Acoustical Society of America, 73,

1003-1010.

55

Kuhl, P.K., Williams, K.A., Lacerda, F., Stevens, K.N., & Lindblom, B. (1992). Linguistic

experience alters phonetic perception in infants by 6 months of age. Science, 255, 606-608.

Kuhl, P.K., Williams, K.A., & Meltzoff, A.N. (1991). Cross-modal speech perception in

adults and infants using non speech auditory stimuli. Journal of Experimental Psychology: Human

Perception and Performance, 17, 826-840.

Kujala, T., Alho, K., & Näätänen, R. (2000). Cross-modal reorganization of human cortical

functions. Trends in Neuroscience, 3, 115-120.

Lang, A.H., Eerola, O., Korpilahti, P., Holopainen, I., Salo, S., & Aaltonen, O. (1995).

Practical issues in the clinical application of mismatch negativity. Ear and Hearing, 16, 118-130.

Lasky, R.E., Syrdal-Lasky, A., & Klein, R.E. (1975). VOT discrimination by four to six a

half months old infants from Spanish environments. Journal of Experimental Child Psychology, 20,

215-225.

Liberman, A.M., Cooper, F.S., Shankweiler, D.P., & Studdert-Kennedy, M. (1967).

Perception of the speech code. Psychological Review, 74, 431-461.

Liberman, A.M., Harris, K.S., Hoffman, H.S., & Griffith, B.C. (1957). The discrimination of

speech sounds within and across phoneme categories. Journal of Experimental Psychology, 54, 358-

368.

Liberman, A.M., & Mattingly, I.G. (1985). The motor-theory of speech revised. Cognition,

21, 1-36.

Liégeois-Chauvel, C., de Graaf, J.B., Laguitton, V., & Chauvel, P. (1999). Specialization of

left auditory cortex for speech perception in man depends on temporal coding. Cerebral Cortex, 9,

484-496.

Lisker, L., & Abramson, A.S. (1964). A cross language study of voicing in initial stops :

acoustical measurement. Word, 20, 384-422.

Locke, J.L. (1997). A theory of neurolinguistic development. Brain and Language, 58, 265-

326.

56

Macaluso, E., George, N., Dolan, R., Spence, C., & Driver, J. (2004). Spatial and temporal

factors during processing of audiovisual speech : a PET study. NeuroImage, 21, 725-732.

MacKain, K., Studdert-Kennedy, M., Spieker, S., & Stern, S. (1983). Infant intermodal

speech perception is a left hemisphere function. Science, 219, 1347-1349.

MacSweeney, M., Amaro, E., Calvert, G., Campbell, R., David, A., McGuire, P., Williams,

S., Woll, B., & Brammer, M. (2000). Silent speechreading in the absence of scanner noise : an

event-related fMRI study. NeuroReport, 11, 1729-1733.

MacSweeney, M., Campbell, R., Calvert, G. A., McGuire, P. K., David, A. S., Suckling, J.,

Andrew, C., Woll, B., & Brammer, M. J. (2001). Dispersed activation in the left temporal cortex for

speech-reading in congenitally deaf people. Proceedings of the Royal Society of London, 268, 451-

457.

Massaro, D.W. (1998). Perceiving Talking Faces: From Speech Perception to a Behavioral

Principle: The MIT Press.

Massaro, D.W., Cohen, M.M., & Smeele, P.M.T. (1996). Perception of asynchronous and

conflicting visual and auditory speech. Journal of the Acoustical Sociey of America, 100, 1777-

1786.

Massaro, D.W., Cohen, M.M., & Thompson, L.A. (1988). Visible language in speech

perception : Lipreading and reading. Visible Language, 1, 8-31.

Mazoyer, B.M., Tzourio, N., Frak, V., Syrota, A., Murayama, N., Levrier, O., Salamon, G.,

Dehaene, S., Cohen, L., & Mehler, J. (1993). The cortical representation of speech. Journal of

Cognitive Neuroscience, 5, 467-479.

McGurk, H., & MacDonald, J. (1976). Hearing lips and seeing voices. Nature, 264, 746-748.

Meredith, M.A., & Stein, B.E. (1983). Interaction among converging sensory inputs in the

superior colliculus. Science, 221, 389-391.

Möttönen, R., Krause, C.M., Tiipana, K., & Sams, M. (2002). Processing of changes in

visual speech in the human auditory cortex. Cognitive Brain Research, 13, 417-425.

57

Möttönen, R., Schürmann, M., & Sams, M. (2004). Time course of multisensory interactions

during audiovisual speech perception in humans : a magnetoencephalographic study. Neuroscience

Letters, 363, 112-115.

Munhall, K.G., & Tohkura, Y. (1998). Audiovisual gating and the time course of speech

perception. Journal of the Acoustical Society of America, 104, 530-539.

Näätänen, R. (1992). Attention and brain function. Hillsdale, N.J.: Lawrence Erlbaum

Associates.

Näätänen, R., Lehtokoski, A., Lennes, M., Cheour, M., Huotilainen, M., Livonen, A.,

Vainio, M., Alku, P., Limoniemi, R. J., Luuk, A., Sinkkonen, J., & Alho, K. (1997). Language -

specific phoneme representations revealed by electric and magnetic brain responses. Nature, 385,

432-434.

Neville, H.J., Schmidt, A., & Kutas, M. (1983). Altered visual-evoked potentials in

congenitally deaf adults. Brain Research, 266, 127-132.

Nishimura, H., Hashikawa, K., Doi, K., Iwaki, T., Watanabe, Y., Kusuoka, H., Nishimura,

T., & Kubo, T. (1999). Sign language "heard" in the auditory cortex. Nature, 392, 116.

Ojanen, V., Möttönen, R., Pekkola, J., Jääskeläinen, I.P., Joensuu, R., Autti, T., Sams, M.

(2005). Processing of audiovisual speech in Broca’s area. NeuroImage, 25, 333-338.

Olson, I.R., Gatenby, J.C., & Gore, J.C. (2002). A comparison of bound and unbound audio-

visual information processing in the human cerebral cortex. Cognitive Brain Research, 14, 129-138.

Patterson, M.L., & Werker, J.F. (1999). Matching phonetic information in lips and voice is

robust in 4.5-month-old infants. Infant Behavior and Development, 22, 237-247.

Patterson, M.L., & Werker, J.F. (2003).Two-month-old infants match phonetic information

in lips and voice. Developmental Science, 6, 191-196.

Pekkola, J., Ojanen, V., Autti, T., Jääskela inen, I.P., Möttönen, R., Tarkiainen, A. & Sams,

M. (2005). Primary auditory cortex activation by visual speech : an fMRI study at 3 T.


58

Peña, M., Maki, A., Kovacic, D., Dehaene -Lambertz, G., Koizumi, H., Bouquet, F., &

Mehler, J. (2003). Sounds and silence : An optical topography study of language recognition at

birth. Proceedings of the National Academy of Sciences, 100, 11702-11705.

Petersen, S.E., Fox, P.T., Posner, M.I., Mintun, M., & Raichle, M.E. (1988). Positron

emission tomographic studies of the cortical anatomy of single-word processing. Nature, 331, 585-

589.

Petitto, L.A., Zatorre, R.J., Gauna, K., Nikelski, E.J., Dostie, D., & Evans, A.C. (2000).

Speech-like cerebral activity in profoundly deaf people processing signe d languages : implications

for the neural basis of human language. Proceedings of the National Academy of Sciences, 97,

13961-13966.

Picton, T.W., Alain, C., Otten, L., Ritter, W., & Achim, A. (2000). Mismatch Negativity :

Different water in the same river. Audiology and Neurootology, 5, 111-139.

Ponton, C.W., Don, M., Eggermont, J.J., Waring, M.D., Kwong, B., & Masuda, A. (1996).

Auditory system plasticity in children after long periods of complete deafness. NeuroReport, 8, 61-

65.

Purdy, S., Kelly, A.S., & Thorne, P.R. (2001). Auditory evoked potentials as measures of

plasticity in humans. Audiology and Neurootology, 6, 211-215.

Raij, T., Uutela, K. & Hari, R. (2000). Audiovisual integration of letters in the human brain.

Neuron, 28, 617-625.

Ramus, F., Hauser, M.D., Miller, C., Morris, D., & Mehler, J. (2000). Language

discrimination by human newborns and by cotton-top tamarin monkeys. Science, 288, 349-351.

Rinne, T., Alho, K., Alku, P., Holi, M., Sinkkonen, J., Virtanen, J., Bertrand, O., &

Näätänen, R. (1999). Analysis of speech sounds is left -hemisphere predominant at 100-150 ms after

sound onset. NeuroReport, 10, 1113-1117.

59

Ritter, W., Deacon, D., Gomes, H., Javitt, D.C., & Vaughan, H.G.J. (1995). The mismatch

negativity of event-related potentials as a probe of transient auditory memory: A review. Ear and

Hearing, 16, 52-67.

Rivera-Gaxiola, M., Silva-Peyrera, J. & Kuhl, P.K. (2005). Brain potentials to native and

non-native speech contrasts in 7- and 11-month-old American infants. Developmental Science, 8,

162-172.

Rizzolati, G., Fadiga, L., Gallese, V., & Fogassi, L. (1996). Premotor cortex and the

recognition of motor actions. Cognitive Brain Research, 3, 131-141.

Roberts, M. (1987). Audio-visual speech perception and selective adaptation. In B. Dodd &

R. Campbell (Eds.), Hearing by Eye: The Psychology of Lip-reading (pp. 85-96). London, NJ:

Lawrence Erlbaum Associates.

Roberts, M., & Summerfield, Q. (1981). Audiovisual presentation demonstrates that

selective adaptation in speech perception is purely auditory. Perception and Psychophysics, 30, 309-

314.

Rosen, S.M., Fourcin, A.J., & Moore, B.C.J. (1981). Voice pitch as an aid to lipreading.

Nature, 291, 150-153.

Rosenblum, L.D., Schmuckler, M.A., & Johnson, J.A. (1997). The McGurk effect in infants.

Perception and Psychophysics, 59, 347-357.

Saldaña, H.M., & Rosenblum, L.D. (1994). Selective adaptation in speech perception using

a compelling audiovisual adaptor. Journal of the Acoustical Society of America, 95, 3658-3661.

Sams, M., Aulanko, R., Hämäläinen, M., Hari, R., Lounasmaa, O. V., Lu, S.-T., & Simola,

J. (1991). Seeing speech: Visual information from lip movements modifies activity in the human

auditory cortex. Neuroscience Letters, 127, 141-145.

Sams, M., & Levänen, S. (1996). Where and when are the heard and seen speech integrated:

Magnetoencephalographical (MEG) studies. Proceedings of Speechreading by Humans and

Machines Conference. Castéra-Verzudan, France, 233-246.

60

Schroeder, C. E., & Foxe, J. J. (2002). The timing and laminar profile of converging inputs

to multisensory areas of the macaque neocortex. Cognitive Brain Research, 14, 187-198.

Schwartz, J.-L., Robert-Ribes, J., & Escudier, P. (1998). Ten years after Summerfield: a

taxonomy of models for audio-visual fusion in speech perception. In R. Campbell, B. Dodd, & D.

Burnham (Eds.), Hearing by eye II (pp. 85-108). Psychology Press.

Sekiyama, K. (1997). Cultural and linguistic factors in audiovisual speech processing: The

McGurk effect in Chinese subjects. Perception and Psychophysics, 59, 73-80.

Sekiyama, K., Kanno, I., Miura, S., & Sugita, Y. (2003). Auditory-visual speech perception

examined by fMRI and PET. Neuroscience Research, 47, 277-287.

Sekiyama, K., & Tohkura, Y. (1991). McGurk effect in non-English listeners: few visual

effects for Japanese subjects hearing Japanese syllables of high auditory intelligibility. Journal of

the Acoustical Society of America, 90, 1797-1805.

Sekiyama, K., & Tohkura, Y. (1993). Inter-language differences in the influence of visual

cues in speech perception. Journal of Phonetics, 21, 427-444.

Sharma, A., Dorman, M.F., & Kral, A. (2005). The influence of a sensitive period on central

auditory development in children with unilateral and bilateral cochlear implants. Hearing Research,

203, 134-143.

Sharma, A., Dorman, M.F., & Spahr, A. (2002a). Rapid development of cortical auditory

evoked potentials after early cochlear implantation. NeuroReport, 13, 1365-1368.

Sharma, A., Dorman, M.F., & Spahr, A. (2002b). A sensitive period for the development of

the central auditory system in children with cochlear implantation. Ear and Hearing, 23, 532-539.

Sharma, A., Dorman, M.F., Spahr, A.J., & Todd, N.W. (2002). Early cochlear implantation

in children allows normal development of central auditory pathways. Annals of Oto-Rhino-

Laryngology, Suppl., 189, 38-41.

61

Shestakova, A., Huotilainen, M., Ceponienne, R., & Cheour, M. (2003). Event related

potentials associated with second language learning in children. Clinical Neurophysiology, 114,

1507-1512.

Shtyrov, Y., Kujala, T., Palva, S., Ilmoniemi, R. J., & Näätänen, R. (2000). Discrimination

of speech and of complex nonspeech sounds of different temporal structure in the left and right

cerebral hemispheres. NeuroImage, 12, 657-663.

Sinex, D.G., McDonald, L.P., & Mott, J.B. (1991). Neural correlates of nonmonotonic

temporal acuity for voice onset time. Journal of the Acoustical Society of America, 90, 2441-2449.

Skipper, J.I., Nusbaum, H.C., Small, S.L. (2005). Listening to talking faces : motor cortical

activation during seech perception. NeuroImage, 25, 76-89.

Smeele, P.M.T., Massaro, D.W., Cohen, M., & Sittig, A.C. (1998). Laterality in visual

speech perception. Journal of Experimental Psychology: Human Perception and Performance, 24,

1232-1242.

Streri, A. (2003). Cross-modal recognition of shape from hand to eyes in human newborns.

Somatosensory and Motor Research, 20, 13-18.

Sumby, W.H., & Pollack, I. (1954). Visual contribution to speech intelligibility in noise.

Journal of the Acoustical Society of America, 26, 212-215.

Tallal, P. (1980). Language disabilities in children : a perceptual or linguistic deficit ?

Journal of Pediatric Psychology, 5, 127-140.

Tees, R.C. & Werker, J.F. (1984). Perceptual flexibility : Maintenance or recovery of the

ability to discriminate nonnative speech sounds. Canadian Journal of Psychology, 38, 579-590.

van Atteveldt, N., Formisano, E., Goebel, R., & Blomert, L. (2004). Integration of letters

and speech sounds in the human brain. Neuron, 43, 1-12.

Vandenberghe, R., Price, C., Wise , R., Josephs, O., & Frackowiak, R.S.J. (1996). Functional

anatomy of a common semantic system for words and pictures. Nature, 383, 254-256.

62

van Wassenhove, V., Grant, K.W. & Poeppel, D. (2005). Visual speech speeds up the neural

processing of auditory speech. Proceedings of the National Academy of Sciences, 102, 1181-1186.

Vieu, A., Mondain, M., Blanchard, K., Sillon, M., Reuillard-Artieres, F., Tobey, E., Uziel,

A., & Piron, J. P. (1998). Influence of communication mode on speech intelligibility and syntactic

structure of sentences in profoundly hearing impaired French children implanted between 5 and 9

years of age. International Journal of Pediatric Otorhinolaryngology, 44, 15-22.

Vroomen, J., & de Gelder, D. (1999). Crossmodal integration: A good fit is no criterion.

Trends in Cognitive Science, 4, 37-38.

Walden, B.E., Prosek, R.A., Montgomery, A.A., Scherr, C.K., & Jones, C.J. (1977). Effects

of training on the visual recognition of consonants. Journal of Speech and Hearing Research, 20,

130-145.

Walton, G.E., & Bower, T.G.R. (1993). Amodal representation of speech in infants. Infant

Behavior and Development, 16, 233-243.

Werker, J.F. (1991). The ontogeny of speech perception. In I. G. Mattingly & M. Studdert-

Kennedy (Eds.), Modularity and the Motor Theory of Speech Perception (pp. 91-110). Hillsdale,

N.J.: Lawrence Erlbaum Associates.

Werker, J.F., Gilbert, J.H.V., Humphrey, K., & Tees, R.C. (1981). Developmental aspects of

cross-language speech perception. Child Development, 52, 349-355.

Werker, J.F., & Tees, R.C. (1984). Cross-language speech perception: Evidence for

perceptual reorganization during the first year of life. Infant Behavior and Development, 7, 49-63.

Wilson, S.M., Saygin, A.P., Sereno, M.I., & Iacobini, M. (2004). Listening to speech

activates motor areas involved in speech production. Nature Neuroscience, 7, 701-702.

Winkler, I., Lehtokoski, A., Alku, P., Vainio, M., Czigler, I., Csepe, V., Aaltonen, O.,

Raimo, I., Alho, K., Lang, H., Iivonen, A., & Näätänen, R. (1999). Pre-attentive detection of vowel

contrasts utilizes both phonetic and auditory memory representations. Cognitive Brain Research, 7,

357-369.

63

Wright, T.M., Pelphrey, K.A., Allison, T., McKeown, M.J., & McCarthy, G. (2003).

Polysensory interactions along lateral temporal regions evoked by audiovisual speech. Cerebral

Cortex, 13, 1034-1043.

Wu, J.L., & Yang, H.M. (2003). Speech perception of Mandarin Chinese speaking young

children after cochlear implant use : effect of age at implantation. International Journal of Pediatric

Otorhinolaryngology, 67, 247-253.

Zatorre, R.J. (1988). Pitch perception of complex tones and human temporal-lobe function.

Journal of the Acoustical Society of America, 84, 566-572.

Zatorre, R.J., Belin, P., & Penhune, V.B. (2002). Structure and function of auditory cortex :

music and speech. Trends in Cognitive Sciences, 6, 37-46.

Zatorre, R.J., Evans, A.C., Meyer, E., & Gjedde, A. (1992). Lateralization of phonetic and

pitch discrimination in speech processing. Science, 256, 846-849.

Zatorre, R.J., Meyer, E., Gjedde, A., & Evans, A.C. (1996). PET studies of phonetic

processing of speech: Review, replication and reanalysis. Cerebral Cortex, 6, 21-30.

Zhang, Y., Kuhl, P.K., Imada, T., Iverson, P., Pruitt, J., Kotani, M. & Stevens, E. (2000).

Neural plasticity revealed in perceptual training of a Japanese adult listener to learn American /l-r/

contrast : a whole -head magnetoencephalography study. Proceedings of the 6th International

Conference of Spoken Language Processing.

L’organisation cérébrale fonctionnelle du langage oral et ...

Documents

Transcript of L’organisation cérébrale fonctionnelle du langage oral et ...