Post on 11-Jul-2015
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 1/33
1
Les banques d’items. Construction d’une banque pour le
Test de Connaissance du Français.
DEVOUCHE1
Emmanuel
Centre International d’Etudes Pédagogiques (CIEP)
1, avenue Léon Journault
F92318 Sèvres
Nombre total de mots du documents : 11104.
1 L’auteur adresse ses vifs remerciements à Yannick Savina qui a mis en place et développé la
méthodologie sous-jacente à l’élaboration du TCF. Cet article doit beaucoup aux documents
internes qu’il a rédigés alors qu’il travaillait au CIEP.
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 2/33
2
Les banques d’items. Construction d’une banque pour le
Test de Connaissance du Français.
Summary
This article first presents the construction, organization and functioning of an item bank,
through an evaluation of the pros and cons of its utilisation. Then, the process of
elaborating an item bank comes illustrated through the analysis of the TCF, a language
test developed by the CIEP. While presenting this process, we'll explain and comment the
methodology and criteria according to which items will be selected for a test. As a
conclusion, we will compare the item bank theory to its application.
Key wordsItem banking, item response model, language test
Résumé
Cet article présente tout d'abord la construction, l'organisation et le fonctionnement
d'une banque d'items, tout en s’interrogeant sur les avantages et les contraintes liés à
son utilisation. Il illustre ensuite le processus d'élaboration d'une banque d'items à
travers l’analyse du Test de Connaissance du Français développé par le Centre
International d'Etudes Pédagogiques. L’étude de ce processus permet de déterminer la
méthodologie et les critères qui président à la sélection des items pour un test donné :
nous commenterons ces différents aspects, afin de confronter la théorie initiale des
banques d’items à son utilisation.
Mots-clés
Banques d’items, modèle de réponses à l’item, test de connaissance en langue
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 3/33
3
1. INTRODUCTION
Une banque d’items est un système de « gestion des items qui permet de stocker des
informations afin de pouvoir élaborer des tests aux contenus et difficultés connus. »
(Milanovitch, 1998).
Cet article se propose de présenter le processus de construction d’une banque d’items à
partir d’un exemple concret, le Test de Connaissance du Français (TCF®), élaboré par le
Centre international d’études pédagogiques (CIEP). Cette illustration sera l’occasion
d’aborder la pratique d’une banque d’items, avec les avantages et inconvénients que cela
suppose. L’accent sera ainsi davantage mis sur la dimension pratique, l’aspect théorique
étant plus largement traité dans la littérature spécialisée. Par ailleurs, bien que les
banques d’items possèdent toutes un certain nombre de principes communs, de
nombreux points de la présentation seront spécifiques à la banque d’items du TCF.
Après une présentation de la théorie de la réponse à l’item, une partie sera consacrée au
concept de banque d’items. Nous passerons en revue ses avantages et ses contraintes et
donnerons quelques illustrations de banques existantes. Nous aborderons ensuite le
processus de validation des items appliqué au CIEP pour le TCF, en développant plus
particulièrement les aspects pratiques liés à l’application du modèle du Rasch. Enfin,
préalablement à la discussion, nous présenterons le principe de l’ancrage et de
l’assemblage d’un test.
2. LA THEORIE DE LA REPONSE A L’ITEM
2.2. Pr incipe fondamental et avantages de la théorie de la réponse à l’item
La théorie de la réponse à l’item (TRI), développée au siècle dernier, est apparue comme
une réponse aux limites de la théorie classique des tests et notamment à la dépendance
existant entre les différentes mesures (estimations) et l’échantillon (pour aller plus loin,
lire van der Linden, 1986 ; Dickes, Tournois, Flieller, Kop, 1994 ; Embretson et Reise,
2000). La TRI offre des techniques pour construire une échelle de mesure invariante,
rendant possible une mesure objective de traits psychologiques. Le principe fondamental
de cette théorie est que personnes (de l’échantillon) et items (du test) peuvent être
localisés sur un même continuum latent qui décrit simultanément la compétence2 de la
personne et la difficulté de l’item. La non-dépendance à l’échantillon tient au caractère
2 Il est nécessaire de bien distinguer la ‘compétence’ au sens psychométrique de la ‘compétence’
au sens linguistique : « competence is a psychological construct, but proficiency is a measure. »
(Jones, 1992).
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 4/33
4
linéaire et invariant de l’échelle qui autorise l’addition ultérieure d’items mesurant le
même trait latent, et de personnes appartenant à la même population générale,
moyennant un ajustement des mesures (ce point sera abordé dans le paragraphe
décrivant le principe de l’ancrage).
Ainsi le principal avantage de la TRI est avant tout que, à l’intérieur du domaine défini
par le trait latent, l’estimation de la compétence d’une personne est indépendante de
l’échantillon d’items utilisé, et l’estimation de la difficulté d’un item est indépendante de
l’échantillon de personnes sur lequel l’item est prétesté. Par ailleurs, la TRI permet
d’obtenir des erreurs d’estimation séparées pour chaque item et pour chaque personne,
et de prendre ainsi en compte le comportement de chaque item et de chaque personne.
De plus, l’estimation de la compétence d’une personne peut être simultanément reliée à
un groupe de personnes (le test peut être normatif) et à la performance probable de
cette personne à n’importe quel autre item (le test peut devenir critériel). Enfin, la TRI
facilite la création de banques d’items en autorisant le calibrage des items sur une
échelle commune.
2.2. Choisir un modèle de réponse à l’item
Un modèle de réponse à l’item (MRI) décrit en termes mathématiques la relation entre
des « constructs » ; par exemple, compétence de la personne et difficulté de l’item. Un
tel modèle représentant un idéal, son application à des données réelles comprend un
certain degré d’inadéquation, dont on souhaite qu’il soit le plus petit possible. On
distingue habituellement trois grands types de MRI : le modèle logistique à un paramètre
(dont le plus connu est le modèle de Rasch ; Wright et stone, 1979) et les modèles
logistiques à deux et trois paramètres (Lord et Novick, 1968). Ces modèles diffèrent dans
le poids attribué aux items. Le modèle de Rasch, le plus simple, possède un seul
paramètre appelé ‘compétence-difficulté’. Le modèle à deux paramètres (modèle 2P)
nécessite en plus un paramètre pour le ‘caractère discriminant’ de l’item, et le modèle à
trois paramètres (modèle 3P) un paramètre supplémentaire dit de ‘conjecture’ (Dickes, et
al., 1994 ; Embretson et Reise, 2000).
Les arguments en faveur d’un modèle en particulier reposent sur la précision de
l’estimation, des considérations pratiques et économiques, mais surtout sur une
orientation philosophique différente (Jones, 1992). Le plus élaboré, le modèle 3P, sera le
plus approprié dans le cas où tous les paramètres sont nécessaires pour expliquer les
données, c’est-à-dire dans le cas où les items varient beaucoup du point de vue de ladiscrimination, et où la conjecture est un facteur incident dans les scores. Dans les autres
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 5/33
5
cas, les modèles 1P et 2P fonctionneront aussi bien, voire mieux. La taille de l’échantillon
est un facteur à prendre en compte car plus le modèle est complexe, plus il nécessitera
de sujets. Avec des échantillons de 100 à 200 personnes, le modèle de Rasch est le seul
choix possible. Le modèle 2P demandera au moins trois fois plus de sujets, et le modèle
3P, dix fois plus (Jones, 1992). En ce qui concerne le modèle de Rasch, Linacre (1994)
nous donne une indication de la stabilité du calibrage des items, avec une garantie
associée en fonction de la taille de l’échantillon. Ainsi, l’auteur garantit une stabilité de
plus ou moins 0.5 logit à 99% pour un échantillon allant de 108 à 243 personnes. Notons
que cette approche est partagée par Wright (1977) et Bond et Fox (2001). L’exigence
plus réduite en terme de nombre de sujets fait donc du modèle de Rasch le plus
économique du point de vue du temps comme du point de vue du coût.
La différence la plus fondamentale entre ces modèles peut être exprimée comme suit : la
question du modèle de Rasch est « Les données empiriques correspondent-elles (‘fit’)
aux attentes du modèle de mesure ? » ; alors que la question des modèles 2P et 3P est
« Comment les paramètres additionnels peuvent être manipulés pour maximiser
l’ajustement des modèles aux données ? » (Bond et Fox, 2001). Les défenseurs du
modèle 1P ou modèle de Rasch revendiquent que seul ce modèle permet d’obtenir une
mesure objective : le modèle de Rasch n’est pas un ‘modèle de données’, mais une
‘définition de la mesure’. En d’autres termes, avec le modèle de Rasch, si les items du
test ne correspondent pas au modèle, ce sont les items qui posent problème et non lemodèle. Par opposition, les modèles plus complexes sont perçus comme imposant des
contraintes arbitraires sur les valeurs que les paramètres peuvent prendre dans le
processus d’estimation (Jones, 1992). Selon Bond et Fox (2001), « c’est précisément
l’addition de paramètres supplémentaires qui dépouille les données de leurs propriétés
fondamentales de mesure » (p. 191, trad.). En bref, choisir le modèle de Rasch, c’est
accorder la primauté au modèle de mesure et non aux données. Une telle approche
implique toutefois que le construct que le test est censé évaluer soit unidimensionnel,
sinon le choix du modèle de Rasch revient à sacrifier la validité de contenu (Bond et Fox,2001).
2.3. MRI et banque d’items
Le recours au modèle de Rasch (et de manière générale à un MRI) permet un calibrage
qui conduit à une échelle commune aux individus et aux items. Tous les items mesurant
un trait particulier peuvent être positionnés le long d’une échelle, leurs positions et leurs
espacements étant déterminés par le niveau de difficulté auquel ils correspondent. Laréussite d’une personne à une partie de ces items peut être exprimée au travers d’une
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 6/33
6
valeur correspondant à un point donné de cette échelle. Un individu a ainsi une
probabilité supérieure à 50% de réussir aux items situés à gauche de sa position et
inférieure à 50 % de réussir aux items situés à droite de sa position (cf. figure 1). Quant
aux items occupant exactement la même position que l’individu sur l’échelle de difficulté,
ils seront réussis avec une probabilité de 50 % (Choppin, 1979).
- insérer figure 1 -
Il est important de souligner que la construction d’une banque d’items sans un MRI est
irréaliste. Masters et Evans (1986) pensent que la méthode psychométrique utilisée pour
transformer une collection d’items en un système de mesure cohérent est probablement
la partie la plus importante d’une banque d’items : « Sans une méthode psychométrique
sous-jacente, une banque d’items cesse d’être un système de mesure et redevient une
simple collection. » (1986, p. 365). L’utilisation de liens (items ancres) dans les tests
permet d’ajouter de nouveaux items à un ensemble d’items déjà calibrés (la ‘banque’).
De ce point de vue, la mise en banque d’items est un cas particulier du calibrage vertical
(‘test equating’).
3. LA BANQUE D’ITEMS
3.1. Le concept de banque d’items
« Une banque d’items est une grande collection d’items organisés et catalogués comme
les livres d’une bibliothèque. L’idée est que l’utilisateur du test peut sélectionner les
items pour répondre à la fabrication d’un test précis. Compte tenu qu’une banque d’items
peut contenir plusieurs milliers d’items, le nombre possible de tests que l’on peut
fabriquer est astronomique. Le principal avantage de ce système est sa flexibilité. Les
tests peuvent être courts ou longs, faciles ou difficiles, à volonté. » (Choppin, 1979). Une
telle approche implique le recours à une méthode permettant de calculer pour chaque
ensemble d’items (mesurant un trait commun et issu d’une banque d’item), et pour
chaque ensemble de réponses à ces items, un score calibré de compétence qui soit
interprétable relativement à tous les items de la banque, et non pas seulement aux items
d’un même test. La construction d’une banque d’items offre donc l’énorme avantage de
produire des formes multiples d’un même test tout en préservant la stabilité de la
mesure. Cet avantage est essentiel lorsqu’il s’agit, comme c’est le cas pour le TCF, de
produire un test différent pour chaque session, considérant qu’il y a une dizaine de
sessions par an, et que chaque test consomme une certaine quantité d’items.
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 7/33
7
Ingebo (1997) souligne que, dans la mesure où construire une banque d’items, c’est
développer un outil permettant de produire une multitude de tests, des erreurs dans la
construction de la banque d’items se répercuteront nécessairement sur les tests
construits à partir de cette banque et, de fait, sur l’appréciation du niveau des candidats.
Lors de la définition du domaine de compétence, les développeurs du test doivent avant
tout s’attacher à définir très précisément ce qu’ils veulent mesurer. La question du
contenu des items constituant l’outil d’évaluation est fondamentale car elle renvoie au
problème de validité de l’outil. Les rédacteurs des items doivent disposer de manuels de
rédaction qui précisent les règles de fond et de forme à respecter, au regard de la
compétence à évaluer. Par suite, les items produits seront relus de manière à vérifier leur
adéquation avec les règles définies, et seuls ceux jugés conformes seront saisis dans la
banque d’items.
Une banque d’items est tout d’abord une structure conçue pour répondre à une utilisation
prédéfinie et susceptible d’évoluer. La logique sous-jacente est de ce fait indépendante
du contenu ou de la forme des items qui la composent. Une banque d’items, c’est aussi
une organisation hiérarchique : plusieurs banques, liées par des règles de communication
précises et régentant la circulation des items. Dans cette organisation complexe, l’item
représente l’unité la plus petite, et doit posséder un code identifiant unique, un profil et
un historique. L’historique, indissociable de l’item, contient une fiche signalétique
composée de champs pouvant servir de critères de recherche ou de sélection. Il est doncindispensable de bien renseigner le système si l’on souhaite qu’il fonctionne
correctement. Toute étape du processus de traitement de l’item, autrement dit tout
mouvement de l’item dans la banque est obligatoirement inscrit dans son historique, et
tout item qui rentre dans la banque d’items n’en ressort jamais.
3.2. Avantages d’une banque d’items
Les avantages d’une banque d’items couplée à un MRI sont nombreux. Nous proposons
ci-dessous une liste non exhaustive inspirée notamment de l’article de Wright (1977) qui
constitue une référence en la matière.
Flexibilité des banques d’items
Cet avantage est probablement l’un des principaux : soulignée par Wright (1977),
Choppin (1979) et Dickes, Tournois, Flieller et Kop (1994), la flexibilité renvoie à la
possibilité de créer un test sur mesure, c’est-à-dire de mettre ou d’enlever des items
dans un test. En effet, même si la banque d’items contient des items hétérogènes
(certains utilisés dans un programme éducatif régional, et d’autres utilisés à un niveau
national par exemple), ils sont tous sur une échelle commune et conviennent tous du
point de vue de leur qualités psychométriques et de leur adéquation avec la variable
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 8/33
8
latente. On peut ainsi développer des tests en fonction des niveaux de compétence à
évaluer et de la précision souhaitée. Cet avantage est flagrant lorsque l’on veut suivre le
développement d’une compétence. Un seul test ne peut couvrir l’ensemble des niveaux à
évaluer tout en restant de longueur raisonnable et de bonne précision. La banque
d’items, grâce à l’échelle commune, permet de construire des tests pour chaque niveau
dont les résultats restent comparables.
Caractère dynamique de la banque d’items
Une banque d’items permet aisément l’ajout, le déplacement ou la suppression d’items
(Masters et Evans, 1986). Les procédures d’ancrage permettent en effet d’alimenter la
banque au rythme des phases de prétest. De plus, un contrôle régulier de la qualité
favorise la détection d’items qui ne conviennent plus pour diverses raisons : ils sont alors
modifiés ou migrent vers une partie dévolue de la banque d’items. Deux banques
peuvent aussi être fusionnées, à condition qu’elles mesurent le même trait, et qu’elles
aient en commun un nombre suffisant d’items.
Utilisation de critères externes de réussite
Une banque d’items peut intégrer des critères externes de réussite comme la réussite
des candidats à tel ou tel examen, leur admission en niveau supérieur d’étude, etc. Il
suffit de coder ces critères en binaire puis de les calibrer en même temps que les items
d’un prétest (Wright, 1977). On obtient alors des points sur l’échelle de mesure, qui sont
interprétables en termes d’aptitudes maîtrisées, de niveau d’études ou de niveau
d’admission (Choppin, 1979). Croisé avec la flexibilité, cet avantage permet de
sélectionner les items les mieux adaptés, par exemple, à un test d’admission d’un niveau
donné.
Sécurité et économie
L’historique associé à chaque item permet de contrôler précisément son utilisation. Lors
de la fabrication d’un test on peut ainsi tenir compte du nombre d’utilisations de l’item,
de son nombre d’utilisations avec les autres items du test, et des centres où il a été
prétesté et utilisé. De cette manière, on diminue les risques « d’apprentissage », tout ens’autorisant à réutiliser des items dont le coût d’obtention est élevé.
Validation et expérimentation
L’existence d’une échelle commune à l’intérieur de la banque d’items permet
d’expérimenter de nouveaux types d’items, dont les résultats seront confrontés à ceux
des items contenus dans la banque. Ces nouveaux items peuvent provenir d’hypothèses
concernant la validité de la banque d’items (c’est-à-dire de l’ensemble des items la
constituant) et ainsi contribuer à une meilleure définition de la variable à mesurer
(Wright, 1977).
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 9/33
9
3.3. Contraintes liées à l’utilisation d’une banque d’items
Contraintes de construction
La banque d’items n’est pas en soi une solution à tout problème de mesure. Ses
avantages reposent sur le maintien de la qualité dans l’écriture des items, dansl’adéquation du contenu des items avec le trait latent et dans les caractéristiques
psychométriques des items introduits. Sa construction, son développement et son
utilisation requièrent des compétences dans le domaine évalué, dans l’évaluation et dans
les aspects mathématiques et théoriques qui lui sont sous-jacents.
Le contrôle continu de la qualité
Il n’est pas possible de considérer que le calibrage d’un item dans la banque d’items est
immuable. L’utilisation d’une banque d’items impose un contrôle continu de la qualité. La
difficulté d’un item peut être influencée, par exemple, par une évolution de la définition
de la variable latente ou par des différences liées au contexte culturel (apparition d’un
biais). La tendance des items à changer de niveau de difficulté ou à être biaisés doit être
surveillée à travers les analyses cumulées des résidus, en fonction du temps, du lieu et
de la personne (Wright 1977). Il s’agit d’établir un diagnostic périodique sur les qualités
psychométriques des items, leur précision d’estimation et leur invariance (van der
Linden, 1986) : à titre d’exemple, les statistiques relatives aux items du TCF sont
contrôlées et mises à jour après la passation d’un test. Choppin (1979) souligne à ce titre
le danger de se focaliser sur la production de tests et de laisser stagner la banqued’items.
Coût et rentabilité à long terme
Il est indispensable de prévoir une phase de développement assez longue avant de
pouvoir espérer utiliser une banque d’items. Il est difficile d’estimer le coût que nécessite
son développement dans la mesure où l’investissement porte sur l’infrastructure
informatique, la logistique et les compétences des personnes impliquées. Quant au
temps, il doit être suffisant pour constituer un stock d’items de qualité, et dépend donc
des moyens humains et financiers mis en œuvre. A terme cependant, et à condition
qu’elle ait été constituée selon les règles, la banque offrira à son utilisateur tous les
avantages cités précédemment, et assurera ainsi une certaine rentabilité.
3.4. Exemples de banques d’items
Une banque d’items peut être utilisée dans tout domaine ayant un objectif d’évaluation.
Chartier et Vrignaud (1999) proposent une liste non-exhaustive de différentes
conceptions de l’évaluation qui constituent autant d’objectifs d’utilisation d’une banque
d’items. Une banque d’items contient de quelques centaines à plusieurs milliers d’items,
en fonction du degré de résolution et de la segmentation. Wright et Bell (1984)
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 10/33
10
présentent quelques banques d’items relatives à plusieurs domaines contenant de 51
items à près de 10000 items. De même, la segmentation de l’échelle de difficulté est
variable : le TCF se décompose en 6 niveaux, mais l’on trouve des échelles possédant
jusqu’à 100 niveaux, un choix de précision qui dépend surtout des besoins de
l’évaluation.
Dans le domaine de l’évaluation de la langue, de nombreux pays ont développé des
outils, notamment pour faire face à l’immigration et définir ainsi un critère pour obtenir la
citoyenneté. La plupart des organismes européens chargés du développement des outils
d’évaluation de la langue (y compris le CIEP) appartiennent à l’association ALTE
(Association of Language Testers in Europe) si bien que l’on observe une certaine
homogénéité en la matière. Toutefois, si tous respectent les mêmes règles (Code of
Practice), des différences sensibles peuvent être soulignées, notamment en ce qui
concerne la constitution de la banque d’items. Pour illustrer notre propos, nous
proposons de présenter brièvement les banques d’items de trois pays européens.
La LIBS3, développée par l’ESOL4 de l’université de Cambridge, constitue une référence
en matière de banque d’items. Elle intègre plusieurs tests différents qui s’adressent,
selon le test, à des scolaires, des étudiants et des professionnels. Cette banque contient
à peu près 250 000 tâches5 et 7500 tests (stockés dans ce qu’ils nomment une « live
bank » et qui correspond à notre banque de stockage des tests). La mise à jour des
tâches dans la LIBS est réalisée environ trois fois par an, et ce pour chaque composante
de chaque test, si bien que l’ajout de nouvelles tâches est un processus presquehebdomadaire. La méthodologie sous-jacente à la validation et au calibrage des items est
quasi la même que celle appliquée pour le TCF car la mise au point du système de
production du TCF a bénéficié de l’expérience de l’ESOL de Cambridge. Il est important
de préciser qu’à Cambridge, la même banque (la LIBS) sert à l’élaboration d’outils
différents, et que le bon fonctionnement du système repose sur une organisation
hiérarchisée, très réglementée et très sécurisée, où à chaque type d’outil correspond un
département. Notons également, que la segmentation en niveaux dépend de l’outil
considéré : par exemple, l’IELTS
6
(l’outil le plus proche du TCF) situe le candidat sur uneéchelle à 9 niveaux alors que la BEC7 se décompose en 5 niveaux.
3 Local Item Banking System
4 English for Speakers of Other Languages
5 Une tâche peut être composée de 1 ou plusieurs items (parfois plus de 10 items). La distinction
item / tâche est nécessaire car un même support peut être associé à plusieurs questions (items).
Le TCF utilise également cette distinction.
6 International English Language Testing System7 Business English Certificates
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 11/33
11
Les banques d’items du TestDaF8 et du CNaVT9, développées respectivement par l’intitut
TestDaF en Allemagne, et par les universités Catholique de Louvain et d’Amsterdam en
Hollande, représentent d’autres exemples de banques fonctionnelles. Le TestDaF
s’adresse exclusivement aux étudiants désirant s’inscrire à l’université et uniquement
pour les niveaux 3, 4 et 5 (en référence aux 6 niveaux établis par le Conseil de l’Europe).
Le processus d’intégration de nouveaux items dans la banque est, comme pour la LIBS,
un processus continu qui repose également sur une phase de prétest, avec cependant
une fréquence moins importante du fait de la taille de l’organisme. Leur processus de
validation et de calibrage des items est assez contraignant car il impose une première
évaluation sur une population d’étrangers et de natifs, puis deux sessions de prétest
entrecoupées d’une révision du matériel et d’un dépouillement des questionnaires qu’ils
proposent à chaque étape aux candidats et aux examinateurs. La révision porte non
seulement sur le contenu mais également sur les qualités psychométriques des items
(théorie classique et modèle de Rasch). L’institut TestDaF produit 4 tests différents par
an à partir de la banque, pour répondre aux besoins des 4 sessions annuelles qu’il
organise.
Le CNaVT touche également plus particulièrement (mais pas exclusivement) la population
étudiante étrangère et se développe selon un cycle annuel : une session de test par an,
qui sert simultanément de session de prétest. N’ayant pas accès à une population prétest
suffisamment importante, l’organisme accorde beaucoup d’attention à la création des
items, lesquels sont alors testés en direct lors de la session annuelle de test. Lesanalyses psychométriques (modèle de Rasch et modèle 2P) permettent d’identifier et
d’exclure les items non conformes. Les candidats sont alors évalués uniquement sur les
items conformes, et les items conformes sont ajoutés à la banque après ajustement de
leur calibrage (cf. la partie sur le processus d’ancrage). La banque ainsi constituée
s’adresse avant tout aux enseignants : pour leur permettre d’accéder à un outil
d’évaluation et pour les inciter à prendre une part active dans l’évaluation de langue.
Leur site Internet (exclusivement en hollandais) propose un accès à la banque, via un
identifiant et un mot de passe.Pas plus que pour le TestDaF il n’a été possible d’obtenir des informations plus précises
sur le nombre d’items de la banque du CNaVT, ou sur le nombre de candidats testés par
an, leur origine… A notre connaissance, seul l’ESOL de Cambridge (pour l’IELTS) produit
un rapport annuel où l’on trouve des informations sur la population testée, sur le
développement du test, sur la reconnaissance du test, et sur la recherche développée sur
le test. Le CIEP travaille actuellement sur un rapport annuel similaire.
8 Test Deutsch als Fremdsprache (Test d’allemand langue étrangère)9 Certificaat Nederlands als Vreemde Taal (Certificat d’hollandais langue étrangère)
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 12/33
12
4. LE TCF, TEST DE CONNAISSANCE DU FRANÇAIS
4.1. Rationnel du test
Le développement des échanges internationaux, la mobilité accrue des personnes et les
exigences d’une politique linguistique extérieure fondée sur la promotion du pluralisme
culturel et du plurilinguisme ont conduit en 1999 le ministère de l’Education nationale à
confier au Centre international d’études pédagogiques (CIEP) la création d’un test de
connaissance du français. L’objectif d’un tel test était de permettre à des publics non
francophones de faire évaluer et valider leurs connaissances en français, de façon fiable
et reconnue, selon des modalités simples et rapides. Le TCF®, test de connaissance du
français lancé officiellement en janvier 2002, est le fruit de deux années de
développement.
Le TCF est un test de niveau linguistique en français langue générale, qui évalue les
connaissances de compréhension orale et écrite ainsi que la maîtrise des structures de la
langue. Le résultat obtenu au test donne lieu à délivrance d'une attestation de niveau,
précisant d’une part un niveau global et d’autre part le niveau du candidat dans chacune
des trois sous-échelles qui composent le test. Le TCF s’inscrit dans le cadre d’orientations
préconisées par le Conseil de l’Europe et la Commission des Communautés européennes,
qui visent à favoriser la mobilité et à valoriser les compétences linguistiques des
citoyens. Il témoigne de la volonté française de s’inscrire dans une perspective
complémentaire des projets décidés à Strasbourg et à Bruxelles.
Le TCF s’adresse aux apprenants inscrits dans une école de langue et qui souhaitent
connaître leur niveau, aux étudiants qui souhaitent venir étudier en France et qui doivent
faire la preuve de leurs compétences en français avant d’entrer en première année
d’université, aux stagiaires qui souhaitent connaître leur niveau de français avant une
formation, ou encore toute personne engagée dans le monde du travail et qui désire
bénéficier de la mobilité professionnelle et doit de ce fait attester d’un certain niveau en
français. Les organismes intéressés par le TCF regroupent des autorités éducatives, des
organismes de formation, des Universités, des Grandes écoles, des employeurs, ou
encore des entreprises.
Le TCF est disponible à ce jour dans 102 centres agréés à l’étranger, répartis dans 46
pays, et dans 37 centres agréés en France. Par ailleurs, le CIEP a également agréé 8
centres en France et en Europe qui servent de centres de prétest. La passation du TCF
conduit à la délivrance d’une attestation où le score obtenu est associé à un niveau de
connaissance, conformément à l’échelle de niveaux définie par le Conseil de l’Europe. Lesniveaux sont définis en termes de capacités afin que les acteurs du monde éducatif
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 13/33
13
(étudiants, organismes de formation, …) et les acteurs du monde professionnel
(employés, entreprises, …) puissent connaître de façon précise la compétence en français
d’une personne ayant passé le TCF.
Dans la mesure où le TCF propose 10 sessions par an, il s’est avéré indispensable de
recourir à la construction d’une banque d’items. Les deux années de développement
(2000-2001) ont permis d’élaborer un produit adéquat du point de vue du contenu, et de
procéder à plusieurs prétests. Par ailleurs, comme toute base de données, et à plus forte
raison parce que les règles qui la régissent sont très strictes, une banque d’items
implique un support informatique conséquent, qui lui aussi demande un certain temps de
développement. Si aujourd’hui le processus de conception du test est bien défini, la base
de données développée par le service informatique du CIEP nécessite encore des
améliorations, et la phase de prétest se poursuit car l’ajout de nouveaux items dans la
banque reste une préoccupation permanente.
4.2. La banque d’items du TCF
La figure 2 présente l’organigramme de la banque d’items utilisée dans le cadre du TCF.
L’application du concept de banque d’items du TCF implique un support informatique (un
logiciel de base données) qui autorise un mode gestion efficace, sécurisé, et qui impose
des règles d’utilisation strictes.
- insérer figure 2 -
La saisie des items a lieu obligatoirement dans la banque d’entrée de la banque d’items
(banque des items saisis) et est actuellement possible à distance grâce à une interface
MySQL : les rédacteurs se connectent à la banque d’items du TCF sur Internet et ont
accès à une interface conçue pour rédiger les items, via leur identifiant et un mot de
passe. Ce système offre de multiples avantages :
1. les rédacteurs peuvent travailler chez eux, saisissent directement leur production (ce
qui limite les risques d’erreur et le coût liés à la saisie ‘administrative’ des items), et sont
obligés de respecter un certain format lors de la rédaction ;
2. l’item rédigé est automatiquement enregistré dans la banque sous un identifiant
unique, au bon format, ses différentes caractéristiques (niveau, clé, …) étant
automatiquement distribuées dans les champs pertinents de la banque ;
3. les chef d’équipe et la commission interne peuvent évaluer aisément le contenu de
l’item dès la clôture de la commande, et ce de n’importe quel lieu disposant d’un accès à
Internet (toujours via un identifiant et un mot de passe), et les modifications sont
automatiquement enregistrées ;
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 14/33
14
4. la gestion des rédacteurs et de leurs productions est plus aisée, et facilite par
conséquent l’émission d’une commande d’items répondant aux besoins de la banque.
La banque des items saisis autorise l’assemblage d’items en vue de l’élaboration d’un
prétest. Les items d’un prétest passent alors de la banque des items saisis à la banque
des items en prétest (cf. figure 2). Après la phase de prétest et les analyses
psychométriques nécessaires, les paramètres statistiques obtenus sont associés aux
items (l’importation dans la base de données est automatique), puis les items du prétest
sont désassemblés et transférés vers la banque des items prétestés où ils peuvent suivre
plusieurs chemins : (1) être acceptés et se déplacer vers la banque de construction du
test, (2) être refusés et migrer vers la banque des items rejetés. Dans ce dernier cas,
certains des items pourront être soumis à modification et réintégrer alors le statut
d’items non calibrés dans la banque de saisie. Certains items ‘conformes’ pourront aussi
être stockés dans la banque des items ancres.
Le recours à un système informatisé est, nous l’avons évoqué plus haut pour la saisie des
items, un avantage réel dans la construction et la gestion d’une banque d’items (il est
difficile de concevoir une banque d’items sans support informatique). Il est aussi
particulièrement utile pour sélectionner un item ou un ensemble d’items. Les champs
renseignés lors de la saisie et à chaque étape du long processus de validation sont autant
de critères potentiels pour opérer des filtres dans la banque : combien d’items attendentd’être prétestés, combien d’items sont des minis conversations, combien d’items de
compréhension orale de niveau 3 disponibles pour un test, etc…
5. PROCESSUS D’ELABORATION DU TCF
Un item présent dans un test est une sorte de survivant, au terme d’un long processus
de sélection. Au fil des étapes, les items sont « tamisés », et seuls ceux qui témoignent
d’une réelle adéquation avec les exigences de chacune de ces étapes pourront espérerintégrer un test.
Cette nouvelle partie détaille le long processus de sélection (représenté dans la figure 3)
qui doit garantir la qualité des items contenus dans la banque d’items du TCF et par
conséquent dans les tests produits à partir de la banque.
- insérer figure 3 -
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 15/33
15
5.1. Rédaction et évaluation des items
Trois équipes de rédacteurs, une pour chaque échelle constituant le test, sont chargées
de l’élaboration des items. Ces équipes, placées sous la responsabilité d’un chef, sont
composées de professeurs de lettres ou de langue. Chaque rédacteur dispose d’un ‘manuel du rédacteur’ dans lequel sont définis, entre autres, les 6 niveaux de
compétence évalués et les règles de rédaction à respecter.
Les rédacteurs répondent à une commande spécifique mensuelle émanant du CIEP, et
soumettent les items rédigés aux chefs d’équipe. Ces derniers peuvent accepter ou
rejeter l’item, ou encore inciter à une amélioration du contenu. Après vérification, les
chefs d’équipe font parvenir les items au CIEP. A réception de la commande, la
Commission interne d’évaluation (CIE) du CIEP vérifie que les items produits conformes
aux attentes. L’évaluation porte tout autant sur le contenu que sur la forme, et les items
non-conformes sont soit rejetés, soit modifiés. Chaque item accepté est alors importé
dans la banque d’items, avec son historique et son identifiant unique. La figure 4
présente un exemple d’item de la partie « maîtrise des structures de la langue » (la
séquence de 8 chiffres précédant l’item est le code sous lequel l’item est identifié). Dans
cet exemple, il s’agit de compléter une mini conversation (texte lacunaire) en retrouvant
la bonne réponse (la clé) parmi l’ensemble des choix possibles. D’autres formes d’items
sont également utilisées (questions sur un texte, choix d’un commentaire de dessin, …)
mais toutes ont en commun la présentation des choix possibles sous forme de liste.
- insérer figure 4 -
5.2. Construction et passation du prétest
Le prétest est constitué à partir des items acceptés par la CIE. Il est composé de 80
items, 30 pour la ‘compréhension orale’, 20 pour les ‘structures de la langue’ et 30 pour
la ‘compréhension écrite’. A l’intérieur de chaque échelle, les items sont organisés par
ordre croissant de niveau, le nombre d’items par niveau et par échelle étant défini au
préalable. La mise en forme du document du prétest constitue la phase finale de cette
étape.
Le prétest est ensuite soumis à une population d’environ 200-250 personnes susceptibles
d’être des candidats au TCF. La passation du prétest se déroule dans des conditions
similaires aux conditions de passation du test : mêmes consignes, mêmes durées,mêmes feuilles de réponses. Les candidats reportent leurs réponses sur la feuille prévue
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 16/33
16
à cet effet, ainsi que les informations démographiques utiles telles que sexe, langue(s)
maternelle(s), nationalité. Cette feuille de réponses sera ensuite numérisée : elle
permettra d’une part de donner un retour qualitatif aux candidats, et d’autre part
d’analyser les items.
Nous avons effectué à ce jour 14 prétests, évaluant plus de 900 items. L’échantillon de
candidats prétestés compte au total 3430 personnes (soit en moyenne 245 personnes
par prétest). L’âge moyen de ces 3430 candidats est de 25.2 ans. Les âges s’étendent de
16 à 61 ans, et la dispersion moyenne est de 7.3 ans. La population est à 70 % féminine
et à 75 % étudiante. Par ailleurs, les candidats de l’échantillon représentent 141
nationalités différentes (principalement chinoise, allemande, japonaise, américaine,
polonaise, coréenne, colombienne, russe, espagnole) et 95 langues maternelles
différentes (principalement le chinois, l’espagnol, l’allemand, l’anglais, l’arabe, le
japonais, le polonais, le russe, le coréen).
5.3. Etude du prétest selon le modèle de mesure classique
L’application du modèle de mesure classique sur les données du prétest est une étape
nécessaire avant de procéder au calibrage des items (Hambleton et Swaminathan, 1985).
Elle présente l’intérêt de détecter les items dont la clé n’est pas reconnue, les items dont
un ou plusieurs distracteurs ne fonctionnent pas ou mal, ou encore les items pas ou trop
peu discriminants, ceux qui sont trop faciles ou trop difficiles. Préalablement à l’analyse
des items selon le modèle de mesure classique, il est nécessaire de ‘nettoyer’ le fichier de
données : supprimer de l’échantillon les candidats dont le nombre de non-réponses est
trop important (supérieur à 50 %) ou qui n’ont pas répondu à une échelle entière, et
recoder les absences de réponse et les réponses multiples. En effet, les valeurs
manquantes en grand nombre sont indicatives d’un problème lors de la passation, et sont
susceptibles d’introduire une certaine imprécision lors de l’application du MRI. Quant à la
distinction absence de réponse / réponses multiples / mauvaise réponse, elle est utile
pour étudier le profil de l’item : comment a-t-il été perçu par les candidats ? Par suite,
les données sont soumises au logiciel Iteman10 (ITEMAN, 1996).
L’analyse classique vise tout d’abord à éliminer les items trop faciles ou trop difficiles.
Nous utilisons l’indice classique de difficulté p afin d’exclure les items réussis par une
proportion trop faible (inférieure à 10%) ou trop forte (supérieure à 90%) de sujets.
10
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 17/33
17
Par ailleurs, il est nécessaire d’exclure les items qui s’avèrent pas ou peu discriminants.
L’indice utilisé est le coefficient de corrélation point-bisérial (rpbis) entre la réussite/échec
à l’item et le score total sans l’item. Nous avons choisi d’exclure tout item dont l’indice de
discrimination est inférieur à 0,20.
Enfin, cette analyse permet de détecter les items dont la clé et/ou les distracteurs ne
fonctionnent pas, ainsi que les items associés à un fort taux d’absence de réponse ou de
réponses multiples. La détection de problèmes de clé repose sur l’indice rpbis associé à
chaque réponse possible : le rpbis le plus fortement positif doit être celui de la clé. Un
distracteur non choisi, ou choisi par une très forte proportion de l’échantillon entraîne le
rejet de l’item.
Jusqu’à présent, l’application de tous ces critères nous a conduits à rejeter en moyenne
un peu plus de 12 items par prétest (soit 15 %) lors de l’analyse classique. Notons que
ce chiffre est en diminution (moins de 9 items par prétest sur les 5 dernier prétests) car
le constat de dysfonctionnements liés à la clé, aux distracteurs ou à la difficulté de la
question a conduit à une amélioration des règles de rédaction des items et du système
de vérification de la commission interne d’évaluation. Les items restants sont alors
calibrés par le modèle de Rasch.
5.4. Vérification de quelques hypothèses préalables à l’application du modèle de
Rasch.
L’utilisation du modèle de Rasch requiert la vérification de quelques hypothèses
préalables, notamment l’unidimensionnalité des items et l’homogénéité de leur pouvoir
discriminant (ces deux hypothèses sont aussi appelées ‘hypothèse d’indépendance locale’
et ‘hypothèse de constance de la discrimination des items’ ; Dickes et al., 1994).
Unidimensionnalité
L’idée d’une unidimensionnalité dans les modèles de réponse à l’item (pas seulement
pour le modèle de Rasch) est un concept mathématique : dès lors que l’on souhaiteordonner les personnes en fonction de leur niveau de compétence, on travaille
(mathématiquement) dans un monde à une dimension. Hamp-Lyons précise que
« L’unidimensionnalité (…) est une propriété psychométrique indépendante du concept de
‘dimensions’ de la compétence en langue, lesquelles sont des propriétés
psycholinguistiques. » (1989, p. 115, trad.). Vérifier l’unidimensionnalité des items ne
renvoie donc pas à la question de l’unidimensionnalité de la compétence que l’on
souhaite mesurer au travers du test. Par conséquent, la question n’est pas de dire si le
construct psychologique mesuré est ou non unidimensionnel, mais plutôt de savoir s’il est
pertinent, en terme de mesure, d’additionner les différentes parties d’un test, autrement
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 18/33
18
dit de résumer tous les items via une appréciation globale. Une telle approche est en tout
cas compatible avec l’approche de l’évaluation du Conseil de l’Europe (Cadre européen
commun de référence pour les langues, 2000).
Embretson et Reise (2000) passent en revue les différentes approches permettant
d’évaluer l’unidimensionnalité d’une matrice de données. Le bilan est assez négatif, et la
tendance actuelle est de se tourner vers l’utilisation de l’analyse factorielle non linéaire
comme un outil possible pour évaluer la dimensionnalité, notamment l’analyse des
résidus. Pour notre part, nous avons choisi d’appliquer une analyse en composantes
principales (ACP) sur la réussite/échec aux items. Bien que Embretson et Reise (2000)
émettent quelques réserves quant à cette méthode, ils soulignent toutefois l’utilité de
cette technique ‘heuristique’ en ce sens qu’elle étaye l’hypothèse selon laquelle les
données sont dominées par un seul facteur. Les ACP réalisées sur chacun des prétests
montrent toujours un premier axe dominant sous-tendant la performance au test et qui
explique en moyenne 14,6 % de la variance du nuage (les valeurs varient entre 12 et
18 % selon le prétest). La part de variance du nuage expliquée par le deuxième et le
troisième axe tombe respectivement en moyenne à 3,8 et 3,3 %. Cette analyse permet
d’identifier les items mal représentés par l’axe dominant et de les exclure. Nous nous
assurons également de la consistance interne du test en calculant le coefficient α de
Cronbach. Cet indice se révèle varier de 0,88 à 0,92 selon le prétest considéré et garantit
ainsi que le test est homogène et fidèle. Notons, pour cet indice également, une
remarque de Embretson et Reise (2000) selon laquelle la taille du coefficient alpha n’estpas pertinente pour attester de la dimensionnalité.
Homogénéité du pouvoir discriminant
Nous avons évoqué, lors de la partie sur l’application du modèle de mesure classique,
que nous procédions à l’élimination des items pas ou peu discriminants. Bien que cette
sélection relève d’abord du bon sens, elle est également cohérente avec le désir de
conserver les items correspondant à un certain pouvoir discriminant. Afin d’identifier les
items qui ne répondraient pas à cette exigence, nous procédons à la représentation
graphique des items, en utilisant pour coordonnées l’indice de difficulté p et la corrélation
ptbis. Cette approche graphique permet de juger de l’acceptabilité du pouvoir
discriminant d’un item en tenant compte de son niveau de difficulté. Une telle souplesse
est nécessaire si l’on considère que les items situés aux extrémités de l’échelle de
difficulté ne peuvent pas avoir le même pouvoir discriminant que ceux de difficulté
moyenne. Cette particularité tient au fait que nous ne connaissons pas a priori avec
assez de précision le niveau de compétence des personnes appartenant à l’échantillon qui
sert pour le prétest. Pour l’ensemble des items de la banque, la valeur de cet indice est
en moyenne de 0,37, pour une dispersion moyenne de 0,09.
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 19/33
19
Choix heureux par ignorance (conjecture)
Une dernière vérification, liée à l’hypothèse selon laquelle les items ne doivent pas
favoriser les choix heureux par ignorance, peut être ajoutée. Afin d’examiner ce dernier
point, on isole les individus dont le score total appartient au tiers inférieur, puis on
examine leur réussite moyenne aux items les plus difficiles (p<0,30). Les items difficiles
qui ne permettent pas de distinguer les individus du tiers inférieur du reste de
l’échantillon, sont alors rejetés.
5.5. Calibrage des items avec le modèle de Rasch
Présentation du modèle de Rasch
Le modèle de Rasch spécifie la relation mathématique entre la performance observée et
la variable latente. Il suppose que la probabilité Pni pour qu’un sujet n fournisse la bonne
réponse à l’item i est déterminée par deux paramètres : un paramètre relatif au sujet ( β )
qui mesure la position du sujet sur la variable latente, et un paramètre relatif à l’item (δ )
qui mesure la difficulté de l’item sur la même variable latente11 (pour une présentation
plus détaillée du modèle, voir Dickes et al., 1994).
Les analyses sont réalisées avec le logiciel BIGSTEPS (Wright & Linacre, 1997).
Qualité de l’ajustement
Pour chaque item, on vérifie la qualité de l’ajustement en regardant la variance des
écarts standardisés au modèle (indice identifié sous le terme ‘outfit’ par Bigsteps). Ces
écarts sont d’autant plus importants que la réponse est inattendue, compte tenu de la
compétence du sujet et de la difficulté de l’item. Un individu fort qui échoue à un item
facile, ou un individu faible qui réussit un item difficile, contribuent donc de manière plus
importante à cet indice. Toutefois, afin d’éviter de rejeter un item au nom seulement de
quelques réponses surprenantes, faites par des individus pour lesquels l’item est
inapproprié en terme de difficulté, on regarde également la variance pondérée des écarts
standardisés au modèle (indice identifié sous le terme ‘infit’ par Bigsteps). Cet indice est
calculé de manière à réduire l’importance des réponses des individus pour lesquels l’item
est inapproprié. Ces deux indices sont donc des ‘moyennes des carrés’ exprimées sous la
forme de Khi2 divisés par leurs degrés de liberté. Ainsi, la valeur attendue de ces indices
est 1, pour un domaine de variation allant de 0 à ∞+ (Bond et Fox, 2001).
L’identification d’un item dont l’ajustement au modèle est mauvais, est rendu possible
grâce au critère recommandé dans la littérature : les indices doivent varier entre 0,7 et
1,3 (Bond et Fox, 2001 ; Wright, Linacre, Gustafson et Martin-Löf, 1994). Linacre et
11 )exp(1
)exp(in
inni p
δ β δ β −+
−=
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 20/33
20
Wright (1994) précisent qu’un sous-ajustement (‘underfit’) est le signe qu’il y a plus de
variation qu’attendu et que la réponse est imprévisible ; et qu’un sur-ajustement
(‘overfit’) indique au contraire moins de variation qu’attendu par le modèle et une
réponse trop déterminée, ou trop ‘Guttman’. On peut voir sur la figure 5 (en haut du
graphique) que les items e58, e79 et o21, par exemple, présentent un indice ‘outfit’
anormalement élevé. Les items dont les indices ‘infit’ et ‘outfit’ sont anormalement
élevés, ou faibles, feront l’objet d’une attention toute particulière, et seront éliminés ou
non au regard des autres paramètres qui les caractérisent.
- insérer figure 5 -
Dans la mesure où les indices infit et outfit ne suffisent pas à décider de l’adéquation
d’un item au modèle, pour chaque item, on compare graphiquement les probabilités
prévues aux probabilités observées. Traditionnellement, on constitue six groupes de
compétences par quantilage, puis pour chaque groupe et chaque item, on calcule la
probabilité observée d’une réponse correcte et la probabilité prévue par le modèle. Il est
également possible d’avoir recours à une représentation graphique où l’on fait apparaître
les données individuelles en termes de probabilité de la réponse observée, en fonction de
la compétence mesurée de la personne. On voit ainsi apparaître le nombre d’individus
dont les réponses sont inattendues dans le cadre du modèle de Rasch. Les figures 6 et 7
illustrent deux profils différents d’item, respectivement conforme et non conforme. Lafigure 6a permet d’apprécier la coïncidence des deux courbes, et la figure 6b12, que peu
d’individus présentent une réponse inattendue : peu d’entre eux (17%) se localisent en
dessous de la ligne horizontale fixée à 0,413. En revanche dans la figure 7a, les deux
courbes ne coïncident pas : la courbe des probabilités observées est plutôt horizontale et
indique que l’item est non discriminant pour les 5 premiers niveaux. De plus, on peut
observer sur la figure 7b que beaucoup d’individus (27%) présentent une réponse
inattendue, l’item ayant en effet des indices infit et outfit supérieurs à 1,2. Ces deux
items sont également indiqués par des flèches sur la figure 5, l’item conforme étant situéau centre.
- insérer figures 6 et 7 -
12 En abscisse : la compétence estimée de la personne pour l’ensemble d’items considéré ; en
ordonnée : 1/(1+zscore²) où zscore est la valeur résiduelle standardisée de cette personne pour
cet item.
13 Le choix de la limite est évidemment arbitraire ; son intérêt est surtout d’avoir une limite
comparable pour tous les items afin de définir à terme un critère sémantique.
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 21/33
21
5.6. Vérification des caractéristiques attendues du modèle de Rasch
Après l’application du modèle de Rasch, il est recommandé de procéder à des
vérifications portant sur l’invariance des estimations des difficultés des items et des
compétences des candidats, et sur la dispersion aléatoire des valeurs résiduelles. Le
lecteur trouvera dans cette partie des vérifications qui sont équivalentes aux tests
d’adéquation (Dickes et al., 1994).
Indice global
Le modèle de Rasch propose des indices (‘reliability’ dans Bigsteps) destinés
respectivement à déterminer si les personnes seraient ‘classées’ de la même manière
face à un autre ensemble d’items mesurant le même construct, et à déterminer si les
items seraient localisés au même endroit sur l’échelle commune, dans le cas où ils
seraient soumis à un autre échantillon de personnes de compétences équivalentes. Cet
indice correspond dans les deux cas au rapport de la variance des estimations après
soustraction de la variance erreur sur la variance des estimations, en quelque sorte un
coefficient Eta2. Cet indice est calculé sous deux formes pour les items comme pour les
individus par Bigsteps : on calcule, d’une part, une variance erreur où le mauvais
ajustement est considéré comme un reflet de la nature stochastique du modèle (limite
supérieure de l’indice) et, d’autre part, une variance erreur où le mauvais ajustement est
considéré comme un écart de la matrice de données par rapport aux spécifications du
modèle (limite inférieure de l’indice). Ces deux cas extrêmes permettent d’apprécier la
fiabilité des estimations (Bond et Fox, 2001). Selon le prétest considéré, cet indice varie
pour les personnes de 0,86 à 0,99, et pour les items de 0,95 à 0,99.
Recherche d’items à fonctionnement différentiel
Lorsque les données sont bien ajustées par le modèle de Rasch, les difficultés estimées
des items doivent être indépendantes de l’échantillon ayant servi à leur obtention. Dans
la littérature spécialisée, cette étape est appelée ‘recherche d’items à fonctionnement
différentiel’ ou plus communément ‘recherche de biais14’. Il s’agit de déterminer si le
paramètre d’un item change selon que l’on considère telle ou telle partition del’échantillon. La méthode consiste à créer deux ou plusieurs sous-groupes de candidats et
à leur appliquer à chacun le modèle de Rasch (toujours en utilisant BIGSTEPS). Une telle
méthode est essentiellement limitée par la taille des sous-échantillons constitués, qui
n’est pas toujours suffisante pour permettre l’application du modèle de Rasch. Il est de
plus nécessaire que les sous-groupes constitués soient, en moyenne, de compétence
équivalente. Dans la mesure où le TCF évalue la compétence en langue française, en plus
du traditionnel biais de sexe, nous nous intéressons notamment au biais de langue
14 La notion de biais dépend bien entendu des attentes des développeurs du test.
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 22/33
22
maternelle. Toutefois, la recherche de biais ne se limite pas forcément à ces seules
caractéristiques des candidats, par exemple, dans le cas où les candidats d’un prétest
proviennent de plusieurs centres, il est également pertinent de vérifier l’existence d’un
éventuel biais de centre. L’identification d’un item à fonctionnement différentiel repose
sur la lecture du nuage de points avec la droite d’invariance. La figure 8 illustre le cas
d’un item qui se révèle plus difficile pour les candidats de langue maternelle tonale d’Asie
que pour les candidats de langue maternelle agglutinante (item g31, à gauche) et la
figure 9 le cas d’un item qui apparaît plus difficile pour les hommes que pour les femmes
(item o09, en haut à droite).
- insérer figure 8 et figure 9 -
Cependant, si l’identification d’items présentant un biais est une démarche qui ne pose
pas de problèmes dans son application, la signification de ces biais est parfois assez
obscure, comme le souligne Flieller (1999). Pour illustration, si nous avons pu identifier
l’origine du biais de sexe, explicable par le thème traité dans l’item plus favorable aux
femmes, il n’a pas été possible d’en faire de même pour le biais de langue. Sur
l’ensemble des prétests réalisés, nous n’avons identifié que peu d’items présentant un
problème de biais (moins de 1%). Il est toutefois difficile de dire si cette faible proportion
est indicative du nombre moyen d’items biaisés, dans la mesure où la contrainte de taille
des sous-échantillons évoquée plus haut rend parfois impossible l’application de laprocédure de vérification. Notons également que les logiciels récents intègrent pour la
plupart cette procédure de vérification.
Invariance des estimations des compétences des candidats
De même que la réussite à l’item ne doit pas dépendre du sexe du candidat ou de sa
langue maternelle, il est nécessaire que l’estimation de la compétence du candidat soit
indépendante de l’échantillon d’items ayant servi à son obtention. L’invariance des
estimations des compétences des candidats est évaluée selon le même principe que
l’invariance des estimations des difficultés des items. On constitue plusieurs échantillons
d’items, en se basant par exemple sur la distinction classique pair-impair, ou sur la
distinction des trois échelles constituant le test. Quelle que soit la partition choisie, il est
important est que les échantillons d’items constitués soient en moyenne de difficulté
équivalente.
Analyse des valeurs résiduelles
L’application d’une analyse factorielle sur les valeurs résiduelles permet de détecter si les
données observées dévient de manière importante de l’hypothèse d’unidimensionnalité
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 23/33
23
(Wright, 1996). En effet, si les données correspondent bien à l’existence d’une seule
dimension, l’extraction de cette dimension de la matrice des données devrait laisser des
valeurs résiduelles dont la dispersion est aléatoire. Ces résidus sont donc soumis à une
ACP afin de vérifier qu’aucune tendance générale n’émerge. On peut observer
notamment si les valeurs propres sont peu dispersées (Durand, 1998). Sur l’ensemble
des prétests réalisés, le premier axe explique en moyenne 4,6 % de la variance totale,
un taux qui ne dépasse jamais 5,2 %. Le deuxième axe quant à lui explique en moyenne
3,8 % de la variance, et le troisième 3,5 %, les valeurs propres diminuant très
progressivement.
Toutes ces vérifications conduisent à rejeter en moyenne 4 items par prétest (soit 5 %),
un nombre qui varie de 1 à 8 items (1,3 à 10 %) selon le prétest considéré.
5.7 Processus d’ancrage
Le recours à l’ancrage est indispensable pour la construction puis pour l’alimentation
d’une banque d’items. Afin de construire une échelle commune à tous les items
provenant de prétests différents, on utilise des items ancres. Chaque prétest est relié à
un ou plusieurs autres par un certain nombre d’items communs permettant de maintenir
l’échelle. Les items ancres, dont on connaît les valeurs sur l’échelle commune, servent à
calculer le décalage nécessaire pour placer les nouveaux items d’un prétest sur cette
échelle, étant donné que le zéro de l’échelle obtenue lors d’un prétest est arbitraire.
L’ajout de nouveaux items
Deux méthodes peuvent être employées pour calibrer les items de différents prétests :
l’ajout des items au fur et à mesure des prétests (‘common item equating’) et le
calibrage simultané de tous les prétests (‘one step item banking’ ; Jones, 1992). Dans la
première méthode, chaque prétest est calibré individuellement, et les mesures des items
sont ajustées à celles des items de la banque grâce aux items communs (ancres). Dansla seconde méthode, tous les items (de la banque et des prétests) sont soumis
simultanément au modèle de Rasch. Il est alors nécessaire de recourir à un programme
capable de gérer une matrice avec des données manquantes, car tous les items ne sont
vus que par une partie des candidats. Cette deuxième méthode, plus simple que le
calibrage et l’ajustement des items des prétests au fur et à mesure, est plus adaptée
lorsqu’il s’agit de commencer la constitution de la banque d’items. En effet, en procédant
ainsi, chaque item est calibré sur un plus grand nombre de personnes, et chaque
personne est évaluée sur un plus grand nombre d’items. Dans le cas de la banque
d’items du TCF, qui contient à ce jour plus de 700 items, l’échelle de difficulté sous-
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 24/33
24
jacente peut être considérée comme suffisamment stable pour permettre l’addition de
nouveaux items au rythme des prétests. Il est toutefois nécessaire de surveiller la
stabilité de l’échelle, soit en procédant régulièrement à des calibrages simultanés (une
fois par an par exemple), soit en procédant au calibrage des items après d’importantes
sessions de test. Cette dernière procédure s’avère d’autant plus efficace que les tests
sont eux-mêmes liés par des items ancres, car la stabilité peut alors aussi être éprouvée
d’un test à un autre.
Choix des items ancres
Compte tenu de l’importance du maintien de l’échelle, le choix des items ancres est une
étape qui demande beaucoup d’attention. Un item ancre ne doit laisser aucun doute
quant à la validité de contenu, à la forme et à toutes les qualités psychométriques qui le
caractérisent. Il doit en quelque sorte symboliser l’invariance propre aux items de
l’échelle. L’idée est de sélectionner des items qui répondent à ces exigences, et de les
placer dans plusieurs prétests afin de vérifier leur propriété d’invariance. Alors seulement
ces items sélectionnés pourront prendre le statut d’ancre. La figure 6a illustre le cas d’un
item a priori compatible avec l’exigence du statut d’ancre (p = .57, rptbis = .41, infit =
0.97, outfit = 0.97).
Le plan d’ancrage
Afin de contrôler la qualité et la cohérence de l’ancrage on utilise un plan d’ancrage (voir
Wright et Stone (1979) pour une description détaillée). Dans ses formes les plus
abouties, le plan d’ancrage est un réseau qui tend à maximiser le nombre de liens entre
les prétests. On distingue deux types de liens, directs et indirects. Les liens directs entre
prétests sont obtenus par les items qu’ils ont en commun. Ils servent à calculer le
décalage, mais seulement après analyse de la qualité du lien, ceci afin d’exclure les
ancres de mauvaise qualité. Les liens indirects entre prétests sont obtenus en suivant le
réseau des liens directs. Ils servent à contrôler la cohérence des liens directs. On
détermine ensuite le nombre d’ancres par prétest et leur place dans le prétest.
Dans le cas du TCF, compte tenu des évolutions potentielles du test (abandon de certains
types d’items, réorganisation des échelles, …), le nombre d’ancres doit être important.
Pour illustration, nous plaçons en moyenne 15 ancres par prétest (18,8 % des items), en
moyenne 5 par échelle. Ce nombre limite ainsi le risque qu’aucune ancre ne fonctionne,
auquel cas le prétest entier serait inutilisable car il ne pourrait être localisé sur l’échelle
commune. Par la suite, lorsque l’invariance d’une partie des ancres aura pu être
observée, ce nombre pourra être réduit (3 par échelle par exemple). La figure 10 illustre
le type de plan d’ancrage que avons choisi d’utiliser : il implique 3 prétests, reliés entre
eux et à la banque d’items.
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 25/33
25
5.8 Assemblage d’un test
La construction d’un test est réalisée à partir des items contenus dans la banque des
items prétestés (cf. figure 2). Il s’agit de sélectionner 80 items, en respectant les
quantités respectives de chaque échelle et le niveau que le test est censé évaluer. Après
l’assemblage des items, on établit une table de conversion score brut-score calibré afin
de pouvoir attribuer un niveau au candidat en se basant sur le nombre d’items réussis.
Pratiquement, la construction d’un test pose essentiellement le problème du choix des
items. Si la banque d’items est bien conçue, elle doit permettre la sélection des items via
les différents champs disponibles. Par exemple, pour construire la partie compréhension
écrite du TCF, il faut pouvoir filtrer uniquement sur items de cette échelle dans la banque
des items prétestés. De plus, les informations relatives à la difficulté et au thème de
l’item doivent être accessibles afin de proposer au candidat des items variés dans du
point de vue du sujet traité et de difficulté croissante pour un niveau donné. Il est
également nécessaire de pouvoir connaître à tout moment le niveau évalué par
l’assemblage, pour le modifier, au besoin, en désélectionnant certains items pour en
choisir d’autres plus adaptés à l’objectif. Le choix des items pourra reposer sur leur
courbes d’information, en utilisant les items dont la courbe d’information est maximale
pour le niveau de difficulté que l’on cherche à évaluer. Il reste alors à calculer la courbe
d’information du test sur la base de celle des items afin de vérifier que le test mesure
bien le niveau souhaité.
L’assemblage peut bien sûr être automatisé lorsque le nombre d’items disponibles est
suffisant (Amstrong, Jones et Kunce, 1998 ; van der Linden, 1998), mais dans notre cas,
un ‘tâtonnement’ est encore nécessaire compte tenu de notre volonté de diversifier les
formes et sujets des items, et de la contrainte qu’impose l’établissement du plan
d’ancrage. Le support informatique sera en revanche très utile lors de la constitution du
livret de test.
6. DISCUSSION
Les avantages d’une banque d’items reposent essentiellement sur le calibrage des items
et la constitution d’une échelle commune, et dépendent de ce fait en beaucoup du MRI
sous-jacent. Le choix du MRI n’est donc pas anodin et, bien que le modèle de Rasch nous
paraissent, à l’heure actuelle, le plus adéquat, nous n’excluons pas le passage à un
modèle 2P. Des études comparatives sont en cours afin de déterminer si ce changement
constituerait un avantage. L’autre facteur indispensable pour bénéficier des avantagesd’une banque d’items est de disposer d’items de qualité. Si le processus de validation du
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 26/33
26
contenu d’un item n’est pas véritablement sujet à polémiques, les procédures statistiques
utilisées pour déterminer les qualités psychométriques d’un item peuvent varier
sensiblement d’une méthodologie à une autre. Dans le cadre de la TRI, la première
différence tient au MRI choisi. Par suite, même deux méthodologies basées sur le même
modèle, peuvent faire des choix différents dans les indices utilisés, dans les critères
appliqués, ou même dans les étapes de l’analyse. Cette hétérogénéité tient, nous
semble-t-il, à des divergences théoriques et au fait qu’aucune méthode n’est pleinement
satisfaisante. L’ouvrage de Embretson et Reise (2000) sur la TRI propose une discussion
très intéressante et récente sur cette question.
Une banque d’items, en tant qu’outil d’évaluation, peut convenir à n’importe quel
domaine. Ses qualités ne dépendront pas du nombre d’items qu’elle contient, pas plus
que du nombre de niveaux qu’elle distingue, mais bien de la méthodologie sous-jacente.
Toutefois, on peut rappeler l’intérêt de posséder beaucoup d’items dans sa banque si l’on
veut garantir un minimum de sécurité et accéder à une utilisation plus économique des
items en banque. Une faible quantité d’items pose également un problème de la validité
de contenu. Par ailleurs, bien que les banques d’items possèdent toutes une même
logique de base, chaque banque d’items est unique car la banque d’items est le noyau
d’un système de production de tests. Par exemple, la banque d’items du TCF comprend
une banque de formation (cf. figure 2), où sont stockés des items rejetés mais instructifs
pour les rédacteurs, une banque de promotion, contenant des items qui ne pourront plusapparaître dans un test, et une banque destinée à l’expérimentation de nouvelles formes
d’items. Une banque d’items est aussi susceptible de stocker des informations relatives à
la gestion des rédacteurs (commandes, paiements, respect des délais, …), aux étapes
liées à la fabrication du matériel de test (impression des livrets et des feuilles de
réponses, fabrication des supports audio, …). Il est également possible de relier la
banque d’items au système de gestion administrative des centres de passation afin de
savoir si tel test a déjà été proposé à tel centre. Bien que la banque d’items du TCF
constitue un système déjà fonctionnel, elle est encore au stade d’un noyau dont lesdifférentes couches supérieures sont en développement. Le système utilisé par l’ESOL de
Cambridge représente une forme plus aboutie de banque d’items. En effet, ce dernier
offre non seulement les possibilités de gestion évoquées précédemment, mais également
des procédures d’interface avec de nombreux éléments périphériques (logiciels de
statistiques, logiciel d’ancrage, logiciel de conversion des scores bruts, etc). Cette
banque illustre bien l’idée qu’une banque d’item est un outil ‘sur mesure’, dont la
dimension informatique est presque aussi importante que la procédure de calibrage. De
nombreuses recherches actuelles portent d’ailleurs sur l’optimisation de l’outil
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 27/33
27
informatique au service de la banque d’items (Amstrong, Jones et Kunce, 1998 ; van der
Linden, 1998).
Enfin, la banque d’items n’est pas la solution finale au problème que pose l’évaluation.
Aucune banque d’items n’est supérieure au matériel qu’elle contient, et de ce fait les
utilisateurs de banques d’items continueront à porter la responsabilité de la qualité des
tests produits : qu’ils soient toujours impartiaux, appropriés, fidèles et valides (Choppin,
1979).
BIBLIOGRAPHIE
Amstrong, R.D., Jones, D.H., et Kunce, C.S. (1998). IRT test assembly using a network-
flow programming. Applied Psychological Measurement, 22 (3), 237-247.
Bond, T.G. et Fox, C.M. (2001). Applying the Rasch model. Laurence Erlbaum Associates,
London.
Cadre européen commun de référence pour les langues (2000). Didier.
Chartier, P. et Vrignaud, P. (1999). Rapport sur l’analyse critique des banques d’outils de
la DPD. Paris : Service de Recherche de l’INETOP/CNAM.
Choppin B. (1979). Testing the questions - The Rasch model and item banking, in M.
St.J. Raggett, C. Tutt, P. Raggett (Eds). Assessment and Testing of Reading:
Problems and Practices. London: Ward Lock Educational. Chap. 5.Dickes, P., Tournois, J., Flieller, A. et Kop, J.-L. (1994). La psychométrie. Paris : PUF.
Durand, J.-L. (1998). Taux de dispersion des valeurs propres en ACP, AC et ACM.
Mathématiques Informatique et Sciences Humaines, 36(144), 15-28.
Embretson, S.E. et Reise, S.P. (2000). Item response theory for psychologists. Laurence
Erlbaum Associates, London.
Flieller, A. (1999). Etude d’un test lexical (définitions lacunaires) par des modèles de
Réponse à l’Item. Psychologie et Psychométrie, 20 (2/3), 65-84.
Hambleton, R.K. et Swaminathan, H. (1985). Item response theory. Boston etDordrecht : Kluwer.
Ingebo G.S. (1997). Probability in the measure of achievement. Rasch Measurement.
MESA Press.
ITEMAN (1996). Assessment Systems Corporation. http://www.assess.com/Software/iteman.htm
Jones, N.F. (1992). An item bank for testing English language proficiency: Using the
Rasch model to construct and objective measure. PhD thesis.
Linden van der W. J. (1986). The changing conception of measurement in education and
psychology. Applied Psychological Measurement, 10 (4), 325-332.
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 28/33
28
Linden van der W. J. (1998). Optimal assembly of psychological and educational tests.
Applied Psychological Measurement, 22 (3), 195-211.
Lord, F.M. et Novick, M.R. (1968). Statistical theories of mental test scores. New York :
Addison-Wesley.
Masters, G. N. et Evans, J. (1986). Banking non-dichotomously scored items. Applied
Psychological Measurement, 10 (4), 355-367.
Milanovitch, M. (1998). Studies in Language testing: Multilingual glossary of language
testing terms, Cambridge University Press.
Wright, B. D. (1977). Solving measurement problems with the Rasch model. Journal of
Educational Measurement, 14(2), 97-116.
Wright, B. D. (1996). Comparing Rasch measurement and factor analysis. Structural
Equation Modeling, 3(1), 3-24.
Wright, B. D. et Bell, S. R. (1984). Items banks: What, why, how. Journal of Educational
Measurement, 21(4), 331-354.
Wright, B. D. et Linacre, J. M. (1997). Bigsteps 2.71. Chicago: MESA Press. Logiciel
gratuit et téléchargeable sur le site http://www.winsteps.com/bigsteps.htm
Wright, B. D., Linacre, J. M., Gustafson, J-E. et Martin-Löf, P. (1994). Reasonable mean-
square fit values. Rasch Measurement Transactions, 8(3), 370.
Wright, B. D. et Stone, M. H. (1979). Best Test Design. Chicago: MESA Press.
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 29/33
29
-5 -4 -3 -2 -1 0 1 2 3 4 5
(Compétence de la personne) - (difficulté de l'item)
0
0.5
1
P r o b a b i l i t é
d ' u n e
r é p o
n s e
c o r r e c t e
Relation entre compétence-difficulté et probabilité d’une réponse correcte.
figure 1
Banque es Items Sa s s
Items prêts pourêtre prétestés
Items à modifier
Banque de construction du Test
Banque des items Prétestés
Banque des items de Promotion
Banque de Stockage des tests
Banque des items de Formation
Banque des items Rejetés
Banque des items en prétestCommission Interne d'Evaluation
Banque des items Ancres
Banque d'Expérimentation
Analyses psychométriques
Organigramme de la banque d’items du TCF®.
figure 2
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 30/33
30
Représentation schématique des cycles de mise ne banque des items et de production de
test au Centre International d’Etudes Pédagogiques.
figure 3
- Je ne me sens pas très rassurée dans ce grand appartement.
- Soyez tranquille, mes voisins sont des gens …A pour qui
B à qui
C sur qui
D en qui
… on peut compter.
Exemple d’item de la partie ‘structures de la langues’ utilisé dans le TCF.
figure 4
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 31/33
31
Nuage des indices INFIT et OUTFIT pour les items d’un prétest. Les flèches pointent les
items o03 (au centre) et g47 (en haut à droite).
figure 5
Probabilité de la réponse correcte en
fonction de la compétence (item o03).
figure 6a
Probabilité de la réponse observée en
fonction de la compétence (item o03).
figure 6b
figure 6
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 32/33
32
Probabilité de la réponse correcte en
fonction de la compétence (item g47).
figure 7a
Probabilité de la réponse observée en
fonction de la compétence (item g47).
figure 7b
figure 7
Nuage des estimations des difficultés des items d’un prétest pour les candidats de langue
maternelle agglutinante et les candidats de langue maternelle tonale d’Asie (r = 0,84).
La droite représente la ligne d’invariance. La flèche pointe l’item g31.
figure 8
5/11/2018 Items 2003 - slidepdf.com
http://slidepdf.com/reader/full/items-2003 33/33
33
Nuage des estimations des difficultés des items d’un prétest pour les hommes et pour les
femmes (r = 0,92). La droite représente la ligne d’invariance. La flèche pointe l’item o09.
figure 9
Banqued'items
15 15
lululu5
Prétest A 6 Prétest B15 items ancres 15 items ancres
6 5
Prétest C16 items ancres
Exemple de plan d’ancrage utilisé pour le TCF.
figure 10