Par Stéphanie Aubertin – Neuropsychologue.
Après avoir entrevu la diversité des approches diagnostiques des personnes à HP, ce billet a pour objectif de vous présenter la psychométrie (science des techniques de mesures en psychologie) des échelles de Wechsler, qui sont utilisées de manière unique dans l’identification du surdon.
1. Reflet d’une certaine conception de l’intelligence
Ainsi que je l’ai plusieurs fois mentionné, il ne faut pas oublier que les échelles de Wechsler, à partir desquelles on mesure l’intelligence, ne sont que le reflet d’une certaine conception de l’intelligence : le modèle de Carroll (qui a servi de base au modèle CHC).
En fait, les échelles de Wechsler ont évolué au fil des versions en fonction du modèle de l’intelligence dominant à chaque époque. Au départ, elles ne mesuraient que les indices verbal (intelligence cristallisée) et de performance (intelligence fluide), puis en déduisaient un QI Total en accord avec l’existence du facteur g. Puis, deux nouveaux indices sont apparus (mémoire de travail et vitesse de traitement) afin de s’approcher du modèle de Carroll.
On obtient donc actuellement, avec les versions IV du WISC et de la WAIS (Wechsler Intelligence Scale for Children et Wechsler Adult Intelligence Scale) un modèle à 4 facteurs.
Le QI Total (QIT) est un score composite qui se fonde sur des analyses statistiques reflétant un certain modèle de l’intelligence.
Le terme de QI, que Wechsler espérait transitoire à ces débuts, est conservé “par respect des habitudes” (Jumel et Savournin, 2009).
2. Composition psychométrique des échelles de Wechsler
De manière générale, un score à un test est composé de 3 parties :
Composantes de la variance des scores aux tests d’intelligence
(Source : Grégoire, 2009)
La variance partagée est la caractéristique mesurée par le test en question mais aussi par d’autres tests ; la variance spécifique est la caractéristique mesurée uniquement par ce test ; et la variance de l’erreur représente les nombreuses erreurs de mesure.
Dans le WISC IV, le score composite du QIT est constitué comme présenté ci-dessous :Composantes du QIT et des indices
(Source : Grégoire, 2009)
Chaque subtest est théoriquement composé du :
– facteur g
– facteur de groupe : Gc, Gv…
– facteurs spécifiques
– l’erreur de mesure.
Selon Grégoire (2009), “la part la plus importante du QI Total est constituée par le facteur g. Ce facteur intervient en effet, à des degrés divers, dans tous les subtests qui entrent dans le calcul du QI Total. Les facteurs de groupe, en l’occurrence les facteurs mesurés par les deux ou trois subtests d’un même Indice, jouent un rôle modéré dans le QI Total. Leur influence est, pour l’essentiel, limitée à l’Indice en question. Quant aux facteurs spécifiques, chacun n’intervient, par définition, que dans une épreuve particulière. Leur poids dans le QI Total est dès lors limité”.
Grégoire (2009) précise ici le poids de chaque variance pour les subtests du WISC IV:NB : Le Coefficient de fidélité sera abordé dans le prochain billet
Puis, voici le poids de chaque variance pour les subtests du WAIS III (Grégoire, 2004) :
Dès lors, nous voyons bien que certains subtests ne sont que très peu représentatifs du facteur g.
Voici, de manière schématique, à quoi peut ressembler l’imbrication de chaque subtest, chaque indice avec le QIT, et par extension avec le facteur g. Pour des raisons de place et de simplification, la place que prend chaque cercle ne correspond pas réellement au poids de celui-ci par rapport aux autres (pour cela, se reporter aux tableaux ci-dessus).
De même, les indices ne sont pas isolés entre eux et se chevauchent. Par exemple, nous avons besoin de la mémoire de travail pour répondre à chaque subtest, de même que nous avons besoin de la vitesse de traitement dès lors que le subtest est chronométré, ou que nous avons besoin des compétences verbales ailleurs (en fonction notamment des stratégies), ou encore des compétences spatiales (IRP) car elles peuvent être sollicitées dans d’autres subtests non spécifiques à cette compétence.
Légende :
QIT : QI Total
ICV : Indice de Compréhension Verbal
IRP : Indice de Raisonnement Perceptif
IVT : Indice de Vitesse de Traitement
COM : Compréhension
SIM : Similitudes
VOC : Vocabulaire
CIM : Complètement d’images
CUB : Cubes
MAT : Matrices
MCH : Mémoire des Chiffres
SLC : Séquence Lettres-Chiffres
COD : Code
SYM : Symboles
La « loi normale » donnant naissance à « la courbe normale » est aussi appelée « courbe de Gauss » ou « courbe en cloche ». C’est un modèle probabiliste utilisé pour décrire de nombreux phénomènes observés dans la pratique. Sa représentation graphique est une densité de probabilité. On est ici dans le domaine de la théorie mathématique. Ce qui signifie que cette théorie n’a jamais été validée.
Concrètement, cette loi dit que plus l’effectif augmente (plus on mesure un événement), plus on a de chance d’observer un certain événement. Dans notre cas, plus on mesure des performances à un test auprès de personnes différentes (plus l’effectif sur qui on mesure est important), plus on a de chances d’observer une performance donnée. Cette performance donnée, c’est le niveau d’intelligence qui est le plus répandu dans la population. C’est ce qu’on appelle la moyenne.
Comme cette courbe est sensée être symétrique, au-delà ou en-deça de cette performance archi-observée, on observe de moins en moins de personnes. La vitesse de cette diminution du nombre de personnes est ce qu’on appelle l’écart-type; on parle aussi de dispersion.
En psychométrie, cette loi dit que :
– 68% de la population se trouve entre -1 et +1 écart-type de la moyenne
– 95% de la population se trouve entre -2 et +2 écarts-type de la moyenne
– 99,7% de la population se trouve entre -3 et +3 écarts-type de la moyenne.
Cependant, il faut garder en tête que cette courbe est une distribution purement théorique car jamais réellement observée.
Donc, lorsque l’on mesure nos performances à un test, on nous place sous cette courbe en nous comparant à d’autres personnes. Mais pour nous comparer à d’autres personnes, il faut savoir quelle performance à ce test est la plus observée, combien de personnes ont une performance inférieure ou supérieure à ce même test et comment cette performance se répartit (se distribue). C’est ce que l’on appelle l’étalonnage.
4. L’étalonnage des échelles de Wechsler
“Les résultats d’un sujet ne prennent leur sens qu’en référence à ceux d’autres sujets. Sans les résultats d’un groupe de référence, un test est comme un thermomètre sans graduation.“ (Grégoire, 2007).
Ceci implique que les personnes avec lesquelles on va être comparé (l’échantillon de référence) doivent être représentatives de la population dans laquelle le test sera utilisé. En théorie, il y a autant d’étalonnages différents que de pays utilisant un test.
Faire en sorte que l’échantillon de référence soit représentatif de la population signifie qu’il doit être apparié sur l’âge, le sexe, la profession et catégorie sociale du chef de famille, la densité démographique et la répartition géographique (selon les indications de l’INSEE).
Pour le WISC IV, l’étalonnage a été construit comme suit :
– 1103 enfants, autant de filles que de garçons
– 8 catégories socio-professionnelles différentes
– 5 catégories de densité démographique
– 22 groupes d’âge de 6 ans à 16 ans, 11 mois et 30 jours
Cela a permis de créer 880 groupes différents.
A ce niveau, deux problèmes majeurs apparaissent :
1/ L’échantillon de référence est de taille réduite pour être vraiment représentatif.
2/ La taille de chaque groupe varie énormément : jusqu’à 25 fois plus d’enfants dans un groupe que dans un autre (ex : la catégorie socio-professionnelle 6 contient 379 enfants alors que la catégorie socio-professionnelle 7 n’en contient que 15 !). (Source : manuel d’interprétation du WISV IV)
On classe ensuite les enfants de chaque groupe d’âge selon leurs performances. On observe alors que ce classement correspond à peu près à une loi normale.
On transforme alors la performance qui est une note brute, en note standard afin de pouvoir comparer les enfants de différents âges entre eux. La moyenne à un subtest est fixée à 10 avec un écart-type (ET) fixé à 3. Les notes standard s’étalent de 1 (-3 ET) à 19 (+3 ET).
Une fois que l’on a les notes standard pour tous les subtests, on calcule une note composite qui est fixée à 100 avec un écart-type fixé à 15. Cette note composite correspond aux indices puis au QIT.
Ensuite, chaque enfant est classé selon un rang percentile qui “indique la position d’un sujet par rapport aux enfants du même âge… le rang percentile 50 correspond à la médiane et à la moyenne » (Grégoire, 2007).
Il a été défini que :
– la norme se situe + 1 et – 1 écart type
– et le seuil pathologique se situe à – 2 écarts types (Grégoire, 2009).
– Mais absolument rien dans le manuel d’interprétation des échelles de Wechsler n’a été défini pour les performances supérieures. Le fameux seuil de 130 correspondant à 2 ET au dessus de la moyenne a été choisi dans la pratique par symétrie au seuil pathologique (-2 ET) définissant les déficients intellectuels. Or, si l’on accepte la symétrie de la loi normale, cela ne signifie pas pour autant que le surdon soit l’exact opposé de la déficience.
Un dernier point que je souhaite évoquer ici est que lorsque le QI a été créé, il correspondait, comme son nom l’indique, à un quotient, celui de l’âge mental sur l’âge chronologique. Aujourd’hui le QI n’est plus un quotient au sens premier de sa définition, mais un classement, un niveau ordinal. Il ne correspond pas à une quantité d’intelligence donnée, mais à un rang où une personne se positionne par rapport aux autres.
Pour être accepté par la communauté des scientifiques mais aussi des praticiens, un test doit répondre à certaines qualités psychométriques telles que la validité, la sensibilité et la fidélité. Les échelles de Wechsler possèdent de bonnes qualités psychométriques pour les personnes “tout-venant”, mais qu’en est-il de ces qualités pour les personnes à HP ? C’est à cette question que va tenter de répondre le prochain billet.
Bibliographie
Grégoire J. (2009) L’examen clinique de l’intelligence de l’enfant ; fondements et pratique du WISC-IV. Belgique : Ed. Mardaga.
Grégoire J. (2004) L’examen clinique de l’intelligence de l’adulte. Belgique : Ed. Mardaga.
Jumel B. & Savournin F. (2009). L’aide-mémoire du WISC-IV. Dunid : Paris.
Ce qui me gène dans l’étalonnage c’est le présupposé d’une intelligence évoluant avec l’âge…tandis qu’un étalonnage par « milieu social » n’est pas privilégié…
Pourquoi pas ? On rajouterait simplement un axe de plus de segmentation « milieu social ». Cela poserait quand même 2 problèmes purement méthodologique : – comment définir correctement le « milieu social » ? Selon quels critères ? La CSP (catégorie socio-professionnelle) à la sauce INSEE ? Quid des enfants lorsque ses 2 parents ont des CSP différente ? Quid du niveau d’éducation des parents ?
– quand bien même on arriverait à définir proprement le « milieu social », on tombera sur le problème purement statistique : aura t on suffisamment d’échantillon dans chaque « case » ? Par nature, les échelles de QI sont distribuées selon des lois statistiques (en l’occurrence une gaussienne) et on a besoin de « volume » pour estimer non seulement la moyenne mais aussi l’écart-type (la volatilité si on veut) pour pouvoir dire « 130 est le score au-delà duquel vous n’aurez plus que x% de la population).
In fine, il vaut mieux une segmentation grossière (par tranche d’âge) qui est statistiquement robuste qu’une segmentation fine (qui intégrerait le « milieu social ») mais qui n’aurait que peu de sens sur le plan statistique.
Après tout, le score de QI n’est qu’une mesure relative d’un écart par rapport à la moyenne. Donc si la moyenne est mal estimée, « garbage in, garbage out » !
Bonjour,
Il est cité Grégoire (2007) lors de l’explication du rang percentile. Pourriez vous fournir votre source dans la bibliographie (seuls ses ouvrages de 2004 et 2009 y sont) ? Et merci pour cet article tout à fait pertinent et très bien expliqué !
Bonne soirée.
« 1103 enfants, autant de garçons que de filles » : comment cela est-il possible? Une moitié de fille et une autre de garçon ?
Plein de petits poissons hermaphrodites ?
Dans cet esprit, il suffit d’un hermaphrodite pour que l’énigme soit résolue.
Hello Bert,
A mon humble avis (IMHO), on peut traduire autant de filles que de garçons de façon un peu lâche/laxiste : les filles et les garçons sont répartis dans une proportion proche de 50/50.
De toutes façons, dans la vraie vie il y a en France 52 % de femmes pour 48 % d’hommes.
Les femmes sont donc largement majoritaires d’une part (et on a encore le culot de nous considérer comme une minorité !), d’autre part un échantillon représentatif de la population devrait donc comporter 52 % de femmes ; mais la sex-ratio diffère aussi selon les âges : chez les enfants il y a au contraire plus de garçons que de filles… Et chez les vieux bien plus que 52 % de vieilles… Rien n’est simple, tout se complique 😉
De mémoire c’est dans la proportion globale des naissances : 52% de filles, 48% de garçons, mais j’dis ça…
Statistiquement à la naissance c’est la proportion inverse : 52% de garçons et 48% de filles. Mais on constate une mortalité supérieure chez les garçons dans les premières années de la vie, qui conduit ensuite à un équilibre des sexes
Lequel équilibre se déséquilibre en faveur des femmes à mesure qu’on avance en âge (les vieux sont très majoritairement des vieilles, c’est peut-être pour ça que ça intéresse si peu les politiques ?)
Dans les pays recourant aux avortements sélectifs, la proportion à la naissance est de 120 garçons pour 100 filles, au lieu de 105 garçons pour 100 filles…
P.S. Et j’attends avec impatience le moment où il n’y aura plus que des hommes sur la planète, on va bien rire…
« Et j’attends avec impatience le moment où il n’y aura plus que des hommes sur la planète, »
Le court roman rédigé par Amin Maalouf et intitulé « Le premier siècle après Béatrice » est une réflexion sur ce sujet.
… cela dit, tous ces commentaires ne répondent pas à l’énigme posée…
Je réitère une critique similaire à celle effectuée dans le 1er billet de ce même sujet.
Je cite : « On est ici dans le domaine de la théorie mathématique. Ce qui signifie que cette théorie n’a jamais été validée. »
La loi normale n’est pas une théorie.
C’est notamment un moyen de modélisation particulièrement adaptée à des mesures du vivant.
Une théorie, si elle est scientifique, est réfutable, au contraire d’une mesure, d’une transformation de donnée, d’une représentation graphique.
Vous le dites par ailleurs très bien un peu plus bas :
« Cependant, il faut garder en tête que cette courbe est une distribution purement théorique car jamais réellement observée. »
Je parcours chaque article de ce thème, pardonnez moi, j’arrive un peu tard, mais c’est biens sûr une série d’articles essentiels pour comprendre cette question du QI.
Je voulais ici intervenir sur cette notion de courbe normale. C’est une répartition des résultats de manière consensuelle, supposant qu’il y a la norme, la loi dégagée par l’expérience, et une décroissance rapide, lorsqu’on s’éloigne de cette loi. De plus, c’est une moyenne, et très pondérée. Il y a donc de grands risques de tomber à côté, et que se placer même au delà de 130, n’est pas une valeur individuellement fiable.
Si de plus on a un fonctionnement atypique, si les catégories ne donnent pas des résultats cohérents, il est aisé de se dire qu’il faut définir autrement la douance.
Pourquoi, en France, est-on resté si arriéré?!… Je le vis sur d’autres thèmes médicaux, la France fait figure de QI50, c’est insupportable!
Déjà ces tests, ne peut-on pas passer à des nuages de points sur les résultats bruts pondérés par les cofacteurs, créer des échelles spécifiques pour les principaux risques d’erreur, comme le repli ou le stress, ou tout simplement se fier à une observation clinique en passation des épreuves?
Ne peut-on pas tout simplement considérer que la douance est un type de fonctionnement différent et oublier cette échelle unique d’intelligence?
Cette échelle est une pure construction systémique, elle satisfait les ego systémiques.
Moi elle me fait peine. Cette question de la douance est autrement plus complexe qu’une réponse unique.
C’est presque une insulte que nous ramener à un seul nombre, alors que des milliers de petites et grandes structures de notre cerveau fourmillent de cette douance multiforme?!
Les tests existent depuis le début du 20° siècle – Ils ont été élaborés au départ pour identifier les enfants qui avaient des difficultés à suivre à l’école, pas pour identifier les enfants qui avaient des capacités supérieures à leur classe d’âge – c’est incidemment qu’il a été découvert qu’il existait des enfants précoces.
Les tests ne sont pas une spécificité française – ils existent partoiut dans le monde, et partout il existe cette difficulté à faire rentrer les surdoués dans une « boîte » qui n’est pas prévue pour eux.
Bien sûr, il existe des examens autres (IRM, scintigraphie…)
Mais dans les faits…
Ne devrait on pas plutôt se poser la question du bien vivre ensemble, qui permet à tous de co exister et de s’enrichir mutuellement ? Ce que vous avez d’ailleurs intuitivement mis en place dans votre expérience d’institutrice, en développant un système de solidarité entre enfants en avance et enfants connaissant des difficultés ? Chacun y trouve son compte, chacun apprend (de) l’autre, comprend qu’il a une place dans la société. Dès lors, les tests et les classifications qu’ils induisent… on s’en fiche un peu, non ?
Bonjour
Merci à Mme Aubertin pour cet article.
Je me pose une question un peu particulière. L’intelligence est-elle répartie selon une courbe de Gauss ? Si oui, comment se fait-il ? Est-ce donc un « don » aléatoirement distribué ?
Par exemple, il y a moins de trains qui ont 5 minutes d’avance que 5 minutes de retard ? Pourquoi y aurait-il symétrie pour l’intelligence, etde plus une distribution normale ?
merci
Article très technique, j’accroche moins, merci néanmoins de cet éclairage précieux sur le fonctionnement de ces mystérieux tests qui effraient tant celleux qui ne les ont pas encore passés.
Je me pose une question : je lis beaucoup que la différence hp / np est plus qualitative que quantitative, les hp auraient surtout un fonctionnement cérébral différent.
Mais si on croit à la courbe de Gauss, y’a continuum et pas différence ?!
Alors… ??
Si qqun a une explication satisfaisante, je suis preneuse ! Merci.
(et, une fois de plus, quid de l’intelligence naturaliste ? est-elle mesurable ? comment ? je veux bien servir de cobaye !)
Bonsoir,
Tout d’abord, félicitations pour ce bel article documenté et précis ! J’attends la suite…
Je propose une réponse à Alouette : la courbe de Gauss ici est une représentation d’une fonction mathématique continue dans un plan (2D). C’est donc un objet géométrique qui permet de « théoriser » des faits par nature ponctuels et discontinus (la distribution des QI dans une population donnée). En aucun cas, comme le souligne très justement Stéphanie, il ne faut confondre cette distribution-là (dont la représentation serait sous forme de bâtonnets dans un plan) avec la courbe de Gauss. Le confondre, c’est oublier la différence entre faits et théories, et mélanger continuité et discontinuité. De cette possible confusion naît peut-être ensuite la difficulté à se saisir globalement des variations qualitatives entre individus, alors qu’en réalité, c’est tout de même le point de départ de toute étude sur les populations : des « données » discontinues et essentiellement qualitatives…
Enfin, n’oublions jamais que ces tests et cette échelle sont pertinents pour des écarts à la moyenne égal à ±1. D’une certaine manière, ils n’ont jamais été conçus pour étudier une population très particulière et peu nombreuse, mais bien plutôt pour la discriminer « rapidement » et in fine « l’isoler » du reste de la population…
J’imagine que nous en saurons plus dans le prochain billet sur ce sujet-là…
Bien à vous,
Laurent