Chapitre 2 Brève introduction à la conception de la recherche

Consulter le statisticien à la fin d’une expérience, c’est souvent simplement lui demander de faire un examen post mortem. Il peut peut-être dire de quoi l’expérience est morte

- Sir Ronald Fisher⁷

Dans ce chapitre, nous allons commencer à réfléchir aux idées de base qui entrent dans la conception d’une étude, la collecte de données, la vérification de l’efficacité de votre collecte de données, etc. Il ne vous donnera pas assez d’information pour vous permettre de concevoir vos propres études, mais il vous donnera un grand nombre des outils de base dont vous avez besoin pour évaluer les études faites par d’autres personnes. Cependant, comme ce livre est beaucoup plus axé sur l’analyse des données que sur la collecte de données, je ne donne qu’un bref aperçu. Notez que ce chapitre est « spécial » de deux façons. Premièrement, c’est beaucoup plus spécifique à la psychologie que les chapitres suivants. Deuxièmement, il se concentre beaucoup plus sur le problème scientifique de la méthodologie de la recherche, et beaucoup moins sur le problème statistique de l’analyse des données. Néanmoins, les deux problèmes sont liés l’un à l’autre, de sorte qu’il est de tradition que les manuels de statistiques discutent du problème de façon un peu plus détaillée. Ce chapitre s’appuie fortement sur (Campbell and Stanley 1967) pour l’analyse de la conception de l’étude, et sur Stevens (1946) pour l’analyse des échelles de mesure.

2.1 Introduction à la mesure psychologique

La première chose à comprendre est que la collecte de données peut être considérée comme une sorte de mesure. Ce que nous essayons de faire ici, c’est de mesurer quelque chose au sujet du comportement humain ou de l’esprit humain. Qu’est-ce que j’entends par « mesure » ?

2.1.1 Quelques réflexions sur la mesure psychologique

La mesure elle-même est un concept subtil, mais il s’agit essentiellement de trouver un moyen d’attribuer des numéros, ou des étiquettes, ou d’autres types de descriptions bien définies, aux « choses ». Donc, n’importe lequel des éléments suivants compterait comme une mesure psychologique :

J’ai 33 ans.
Je n’aime pas les anchois.
Mon sexe chromosomique est masculin.
Je m’identifie comme un homme.⁸

Dans la courte liste ci-dessus, la partie en gras est « la chose à mesurer », et la partie en italique est « la mesure elle-même ». En fait, nous pouvons nous étendre un peu sur ce point, en réfléchissant à l’ensemble des mesures possibles qui auraient pu survenir dans chaque cas :

Mon âge (en années) aurait pu être 0, 1, 2, 3…, etc. La limite supérieure de ce que mon âge pourrait être est un peu floue, mais dans la pratique, vous pouvez dire que l’âge le plus élevé possible est 150 ans, puisqu’aucun humain n’a jamais vécu aussi longtemps.
Quand on m’a demandé si j’aimais les anchois, j’ai peut-être répondu que oui, ou non, ou que je n’avais pas d’opinion, ou que c’était parfois le cas.
Mon sexe chromosomique sera presque certainement masculin (XY) ou féminin (XX), mais il y a d’autres possibilités. Je pourrais aussi avoir le syndrome de Klinfelter (XXY), qui est plus semblable à celui des hommes que des femmes. Et j’imagine qu’il y a aussi d’autres possibilités.
Il est également très probable que je m’identifie comme un homme ou une femme, mais il n’est pas nécessaire que cela corresponde à mon sexe chromosomique. Je peux aussi choisir de ne m’identifier à aucun des deux ou de m’appeler explicitement transgenre.

Comme vous pouvez le voir, pour certaines choses (comme l’âge), il semble assez évident ce que devrait être l’ensemble des mesures possibles, alors que pour d’autres choses cela devient un peu délicat. Mais je tiens à souligner que même dans le cas de l’âge de quelqu’un, c’est beaucoup plus subtil que cela. Dans l’exemple ci-dessus, j’ai supposé qu’il était acceptable de mesurer l’âge en années. Mais si vous êtes un psychologue du développement, c’est beaucoup trop grossier, et vous mesureriez plutôt l’âge en années et en mois (si un enfant a 2 ans et 11 mois, cela s’écrit habituellement « 2;11 »). Si vous vous intéressez aux nouveau-nés, vous voudrez peut-être mesurer l’âge en jours depuis la naissance, peut-être même en heures depuis la naissance. En d’autres termes, la manière dont vous spécifiez les valeurs de mesure autorisées est importante.

En y regardant d’un peu plus près, vous vous rendrez peut-être compte que le concept « d’âge » n’est pas si précis que ça. En général, lorsque nous disons « âge », nous entendons implicitement « le temps écoulé depuis la naissance ». Mais ce n’est pas toujours la meilleure façon de faire. Supposons que vous vous intéressez à la façon dont les nouveau-nés contrôlent les mouvements de leurs yeux. Si vous vous intéressez à des enfants aussi jeunes, vous pourriez aussi vous préoccuper du fait que la « naissance » n’est pas le seul moment significatif dont il faut se soucier. Si Alice naît 3 semaines avant terme et Bianca 1 semaine en retard, est-il vraiment logique de dire qu’elles ont le même âge si on les rencontre « 2 heures après la naissance » ? Dans un sens, oui. Par convention sociale, nous utilisons la naissance comme point de référence pour parler de l’âge dans la vie de tous les jours, car elle définit le temps pendant lequel la personne a évolué comme une entité indépendante dans le monde. Mais d’un point de vue scientifique, ce n’est pas la seule chose qui nous intéresse. Quand nous réfléchissons à la biologie des êtres humains, il est souvent utile de nous considérer comme des organismes qui ont grandi et mûri depuis la conception, et dans cette perspective, Alice et Bianca n’ont pas du tout le même âge. Vous pourriez donc vouloir définir le concept « d’âge » de deux façons différentes : la durée depuis la conception et la durée depuis la naissance. Lorsqu’il s’agit d’adultes, cela ne changera pas grand-chose, mais lorsqu’il s’agit de nouveau-nés, cela pourrait être le cas.

Au-delà de ces questions, il y a la question de la méthodologie. Quelle « méthode de mesure » spécifique allez-vous utiliser pour connaître l’âge de quelqu’un ? Comme auparavant, il y a beaucoup de possibilités différentes :

Vous pourriez juste demander aux gens « quel âge avez-vous ? » La méthode d’auto-déclaration est rapide, peu coûteuse et facile. Mais cela ne fonctionne qu’avec des personnes assez âgées pour comprendre la question, et certaines personnes mentent sur leur âge.
Vous pourriez demander à une autorité (par exemple, un parent) « Quel âge a votre enfant ? » Cette méthode est rapide, et quand il s’agit d’enfants, ce n’est pas si difficile que ça puisque le parent est presque toujours là. Cela ne fonctionne pas aussi bien si vous voulez savoir « l’âge depuis la conception », car beaucoup de parents ne peuvent pas dire avec certitude quand la conception a eu lieu. Pour cela, vous pourriez avoir besoin d’une autre autorité (p. ex. un obstétricien).
Vous pouvez rechercher des documents officiels, par exemple des certificats de naissance ou de décès. C’est une entreprise longue et parfois frustrante, mais elle a son utilité (p. ex. si la personne est maintenant morte).

2.1.2 Opérationnalisation : définir votre mesure

Toutes les idées discutées dans la section précédente ont trait au concept d’opérationnalisation. Pour être un peu plus précis sur l’idée, l’opérationnalisation est le processus par lequel nous prenons un concept significatif mais quelque peu vague et le transformons en une mesure précise. Le processus d’opérationnalisation peut impliquer plusieurs choses différentes :

Soyez précis sur ce que vous essayez de mesurer. Par exemple, « âge » signifie-t-il « temps depuis la naissance » ou « temps depuis la conception » dans le contexte de votre recherche ?
Déterminer la méthode que vous utiliserez pour la mesurer. Allez-vous utiliser la déclaration pour mesurer l’âge, demander à un parent ou consulter un dossier officiel ? Si vous utilisez la déclaration, comment allez-vous formuler la question ?
Définir l’ensemble des valeurs admissibles que la mesure peut prendre. Notez que ces valeurs n’ont pas toujours besoin d’être numériques, bien qu’elles le soient souvent. Lorsque l’on mesure l’âge, les valeurs sont numériques, mais nous devons quand même réfléchir soigneusement aux nombres autorisés. Voulons-nous avoir l’âge en années, en années et en mois, en jours ou en heures ? Pour d’autres types de mesures (ex. le sexe), les valeurs ne sont pas numériques. Mais, précédemment, nous devons réfléchir aux valeurs qui sont permises. Si nous demandons aux gens de déclarer eux-mêmes leur sexe, entre quelles options leur permettons-nous de choisir? Est-il suffisant de n’autoriser que les « hommes » ou les « femmes » ? Avez-vous besoin d’une « autre » option ? Ou ne devrions-nous pas donner aux gens des options précises et les laisser plutôt répondre avec leurs propres mots ? Et si vous ouvrez l’ensemble des valeurs possibles pour inclure toutes les réponses verbales, comment interpréterez-vous leurs réponses ?

L’opérationnalisation est une affaire délicate, et il n’y a pas de « manière unique et sérieuse » d’y parvenir. La manière dont vous choisissez d’opérationnaliser le concept informel « d’âge » ou de « sexe » en une mesure formelle dépend de la raison de votre objectif avec cette mesure. Souvent, vous constaterez que les scientifiques qui travaillent dans votre domaine ont des idées assez bien arrêtées sur la façon de procéder. En d’autres termes, l’opérationnalisation doit être envisagée au cas par cas. Néanmoins, bien qu’il y ait beaucoup de questions propres à chaque projet de recherche, il y a certains aspects qui sont assez généraux.

Avant de poursuivre, j’aimerais prendre un moment pour clarifier notre terminologie et, ce faisant, introduire un autre terme. Voici quatre choses différentes qui sont étroitement liées les unes aux autres :

Une élaboration théorique. C’est ce que vous essayez de mesurer, comme « l’âge », « le sexe » ou une « opinion ». Une élaboration théorique ne peut pas être observée directement, et elles sont souvent un peu vagues.
Une mesure. La mesure fait référence à la méthode ou à l’outil que vous utilisez pour faire vos observations. Une question dans une enquête, une observation comportementale ou un scanner du cerveau pourraient toutes vu comme une mesure.
Une opérationnalisation. Le terme « opérationnalisation » fait référence à la connexion logique entre la mesure et l’élaboration théorique, ou au processus par lequel nous essayons de dériver une mesure d’une élaboration théorique.
Une variable. Enfin, un nouveau terme. Une variable est ce que nous obtenons lorsque nous appliquons notre mesure à quelque chose dans le monde. Autrement dit, les variables sont les « données » réelles que nous obtenons dans nos ensembles de données.

En pratique, même les scientifiques ont tendance à ne pas bien faire la distinction entre ces choses, mais il est utile d’essayer d’en comprendre les différences.

2.2 Échelles de mesure

Comme l’indique la section précédente, le résultat d’une mesure psychologique s’appelle une variable. Mais toutes les variables ne sont pas du même type qualitatif et il est donc utile de comprendre de quels types il s’agit. Un concept très utile pour distinguer les différents types de variables est ce qu’on appelle les échelles de mesure.

2.2.1 Échelle nominale

Une variable d’échelle nominale (également appelée variable catégorielle) est une variable dans laquelle il n’y a pas de relation particulière entre les différentes possibilités. Pour ce genre de variables, il n’est pas logique de dire que l’une d’entre elles est « plus grande » ou « meilleure » que n’importe quelle autre, et il n’est absolument pas logique de faire la moyenne. L’exemple classique en est la « couleur des yeux ». Les yeux peuvent être bleus, verts ou bruns, entre autres possibilités, mais aucun d’entre eux n’est plus « grand » qu’un autre. Par conséquent, il serait vraiment bizarre de parler d’une « couleur moyenne des yeux ». De même, le sexe est aussi nominal : l’homme n’est ni meilleur ni pire que la femme. Il n’est pas non plus logique d’essayer de parler d’un « genre moyen ». En bref, les variables de l’échelle nominale sont celles pour lesquelles la seule chose que vous pouvez dire sur les différentes possibilités est qu’elles sont différentes./p>

Regardons ça de plus près. Supposons que je fasse des recherches sur la façon dont les gens se rendent au travail et en reviennent. Je pourrais mesurer le type de transport que les gens utilisent pour se rendre au travail. Cette variable « type de transport » pourrait avoir un certain nombre de valeurs possibles, notamment : « train », « bus », « voiture », « vélo ». Pour l’instant, supposons que ces quatre possibilités soient les seules possibles. Alors imaginez que je demande à 100 personnes comment elles sont arrivées à travailler aujourd’hui, avec ce résultat :>/p>

Transport	Nombre de personnes
Train	12
Bus	30
Voiture	48
Bicyclette	10

Alors, quel est le moyen de transport moyen ? Évidemment, la réponse ici est qu’il n’y en a pas. C’est une question idiote. Vous pouvez dire que les voyages en voiture sont la méthode la plus populaire, et les voyages en train sont la méthode la moins populaire, mais c’est à peu près tout. De même, remarquez que l’ordre dans lequel j’énumère les options n’est pas très intéressant. J’aurais pu choisir d’afficher les données comme ci-dessous sans que cela ne change rien.

Transport	Nombre de personnes
Voiture	48
Train	12
Bicyclette	10
Bus	30

2.2.2 Échelle ordinale

Les variables de l’échelle ordinale ont un peu plus de structure que les variables de l’échelle nominale. Une variable d’échelle ordinale est une variable dans laquelle il existe un moyen naturel et significatif d’ordonner les différentes possibilités, mais vous ne pouvez rien faire d’autre. L’exemple habituel d’une variable ordinale est « classement dans une course ». Vous pouvez dire que la personne qui a terminé première a été plus rapide que celle qui a terminé deuxième, mais vous ne savez pas de combien de temps la première devance la seconde. En conséquence, nous savons que 1er> 2ème, et nous savons que 2ème> 3ème, mais la différence entre 1er et 2ème pourrait être beaucoup plus grande que la différence entre 2ème et 3ème.

Voici un exemple plus intéressant sur le plan psychologique. Supposons que je m’intéresse à l’attitude des gens face au changement climatique. Je demander pour cela à des personnes de choisir la proposition (parmi quatre propositions listées) qui correspond le mieux à leurs croyances :

Les températures augmentent en raison de l’activité humaine
Les températures augmentent, mais nous ne savons pas pourquoi.
Les températures augmentent, mais pas à cause des humains.
Les températures n’augmentent pas

Remarquez que ces quatre énoncés ont en fait un ordre naturel, du point de vue de leur accord avec l’état actuel de la science «. L’énoncé 1 y correspond exactement, l’énoncé 2 y correspond raisonnablement, l’énoncé 3 n’y correspond pas très bien et l’énoncé 4 est en forte opposition avec l’état actuel de la science. Donc, pour ce qui m’intéresse (la mesure de l’accord des gens avec la science), je peux ordonner les réponses ainsi 1>2>3>4. Puisque cet ordre existe, il serait très bizarre d’énumérer les options comme ceci…

Les températures augmentent, mais pas à cause des humains.
Les températures augmentent en raison de l’activité humaine
Les températures n’augmentent pas
Les températures augmentent mais nous ne savons pas pourquoi.

…parce qu’il semble contrevenir à la « structure » naturelle de la question. Supposons que j’ai posé ces questions à 100 personnes et que j’ai obtenu les réponses suivantes :

	Nombre de réponse
Les températures augmentent en raison de l’activité humaine	51
(2) Les températures augmentent, mais nous ne savons pas pourquoi	20
(3) Les températures augmentent, mais pas à cause des humains	10
Les températures n’augmentent pas	19

En analysant ces données, il semble tout à fait raisonnable d’essayer de regrouper (1), (2) et (3) et de dire que 81 personnes sur 100 étaient disposées à être d’accord au moins partiellement avec la science. Et il est également tout à fait raisonnable de regrouper (2), (3) et (4) ensemble et de dire que 49 personnes sur 100 ont exprimé au moins un certain désaccord avec l’opinion scientifique dominante. Cependant, il serait tout à fait bizarre d’essayer de regrouper (1), (2) et (4) ensemble et de dire que 90 personnes sur 100 ont dit… quoi ? Il n’y a rien de sensé qui vous permette de regrouper ces réponses.

Cela dit, notez que même si nous pouvons utiliser l’ordre naturel de ces éléments pour construire des regroupements raisonnables, ce que nous ne pouvons pas faire, c’est faire la moyenne. Par exemple, dans mon exemple simple, la réponse « moyenne » à la question est de 1,97. Si vous pouvez me dire ce que cela veut dire, j’aimerais le savoir, parce que ça me semble être du charabia !

2.2.3 Échelle d’intervalle

Contrairement aux variables d’échelle nominale et ordinale, les variables d’échelle d’intervalle et de rapport sont des variables pour lesquelles la valeur numérique est réellement significative. Dans le cas des variables d’échelle d’intervalle, les différences entre les nombres sont interprétables, mais la variable n’a pas de valeur zéro « naturelle ». La mesure de la température en degrés Celsius est un bon exemple d’une variable d’échelle d’intervalle. Par exemple, s’il faisait 15°C hier et 18°C aujourd’hui, alors la différence de 3°C entre les deux est vraiment significative. De plus, la différence 3˝ est exactement la même que la différence 3°C entre7°C et 10°C. En bref, l’addition et la soustraction sont significatives pour les variables de l’échelle d’intervalle.⁹

Notez cependant que le 0°C ne signifie pas « pas de température du tout ». C’est en fait « la température à laquelle l’eau gèle », ce qui est plutôt arbitraire. Par conséquent, il devient inutile d’essayer de multiplier et de diviser les températures. Il est faux de dire que 20°C est deux fois plus chaud que 10°C, tout comme il est bizarre et dénué de sens de prétendre que 20°C est doublement aussi chaud que 10°C.

Prenons encore une fois un exemple plus psychologique. Supposons que je m’intéresse à la façon dont les attitudes des étudiants universitaires de première année ont changé au fil du temps. Évidemment, je vais vouloir enregistrer l’année où chaque élève a commencé. Il s’agit d’une variable d’échelle d’intervalle. Un étudiant qui a commencé en 2003 est arrivé 5 ans avant un étudiant qui a commencé en 2008. Cependant, il serait complètement idiot pour moi de diviser 2008 par 2003 et de dire que le deuxième élève a commencé « 1,0024 fois plus tard » que le premier. Cela n’a aucun sens.

2.2.4 Échelle des rapports

Le quatrième et dernier type de variable à prendre en considération est une variable de l’échelle des ratios, dans laquelle zéro signifie vraiment zéro, et il est acceptable de multiplier et de diviser. Le temps de réponse (TR) est un bon exemple psychologique d’une variable de l’échelle de rapport. Dans beaucoup de tâches, il est très courant d’enregistrer le temps que quelqu’un prend pour résoudre un problème ou répondre à une question, car c’est un indicateur de la difficulté de la tâche. Supposons qu’Alan prenne 2,3 secondes pour répondre à une question, alors que Ben en prend 3,1 secondes. Comme pour une variable d’échelle d’intervalle, l’addition et la soustraction sont toutes deux significatives ici. Ben a vraiment pris 3,1 – 2,3 = 0,8 secondes de plus qu’Alan. Cependant, notez que la multiplication et la division ont aussi du sens ici aussi : Ben a pris 3,1/2,3 = 1,35 fois plus de temps qu’Alan pour répondre à la question. Et la raison pour laquelle vous pouvez le faire, c’est que pour une variable d’échelle de rapport telle que TR « zéro seconde » signifie vraiment « aucun temps du tout ».

2.2.5 Variables continues et variables discrètes

Il y a un deuxième type de distinction que vous devez connaître, concernant les types de variables que vous pouvez rencontrer. C’est la distinction entre les variables continues et les variables discrètes. La différence entre les deux est la suivante :

Tableau 2-1: La relation entre les échelles de mesure et la distinction discrète/continue. Les cellules marquées d’une croix correspondent à ce qui est possible.

	continue	discrète
nominale		X
ordinale		X
intervalle	X	X
ratio	X	X

Une variable continue est une variable dans laquelle, pour deux valeurs auxquelles vous pouvez penser, il est toujours logiquement possible d’avoir une autre valeur entre les deux.
Une variable discrète est, en effet, une variable qui n’est pas continue. Pour une variable discrète, il arrive parfois qu’il n’y ait rien entre deux valeurs.

Ces définitions semblent probablement un peu abstraites, mais elles sont assez simples une fois que vous aurez vu quelques exemples. Par exemple, le temps de réponse est continu. Si Alan prend 3,1 secondes et Ben, 2,3 secondes pour répondre à une question, alors le temps de réponse de Cameron se situera entre les deux s’il a pris 3,0 secondes. Et bien sûr, il serait également possible pour David de prendre 3,031 secondes pour répondre, ce qui signifie que son TR se situerait entre celui de Cameron et celui d’Alan. Et bien qu’en pratique, il est presque impossible de mesurer le TR avec cette précision, c’est certainement possible en principe. Parce que nous pouvons toujours trouver une nouvelle valeur du TR entre deux autres, nous considérons la TR comme une mesure continue.

Les variables discrètes apparaissent lorsque cette règle est violée. Par exemple, les variables de l’échelle nominale sont toujours discrètes. Il n’y a pas un type de transport qui se situe « entre » les trains et les bicyclettes, pas d’un point de vue mathématique strict que comme lorsqu’on dit que 2,3 se situe entre 2 et 3. Le type de transport est donc discret. De même, les valeur d’une échelle ordinale sont toujours discrètes. Bien que la « 2e place » se situe entre la « 1ère place » et la « 3e place », il n’y a rien qui puisse logiquement se situer entre « 1ère place » et « 2e place ». Les variables d’échelle d’intervalle et de ratio ont ces deux caractéristiques. Comme nous l’avons vu plus haut, le temps de réponse (une variable sur une échelle de rapport) est continu. La température en degrés Celsius (une variable sur une échelle d’intervalle) est également continue. Cependant, l’année où vous êtes allé à l’école (une variable sur une échelle d’intervalle) est discrète. Il n’y a pas d’année entre 2002 et 2003. Le nombre de questions que vous obtenez correctement sur un test vrai ou faux (une variable sur une échelle de ratio) est également discret. Puisqu’une question vrai ou faux ne vous permet pas d’être « partiellement correcte », il n’y a rien entre 5/10 et 6/10. Le Tableau 2‑1 résume la relation entre les échelles de mesure et la distinction discrète/continuité. Les cellules marquées d’une croix correspondent à ce qui est possible. J’insiste sur ce point, parce que (a) certains manuels se trompent, et (b) les gens disent très souvent des choses comme « variable discrète » quand ils veulent dire « variable nominale ». C’est très regrettable.

2.2.6 Quelques complexités

Bon, je sais que vous allez être choqué d’entendre cela, mais le monde réel est beaucoup plus confus que ne le suggère ce petit schéma de classification. Très peu de variables dans la vie réelle tombent réellement dans ces belles catégories soignées, donc vous devez faire attention à ne pas traiter les échelles de mesure comme s’il s’agissait de règles strictes et rapides. Ça ne marche pas comme ça. Il s’agit de lignes directrices visant à vous aider à réfléchir aux situations dans lesquelles vous devriez traiter différentes variables différemment. Rien de plus.

Prenons donc un exemple classique, peut-être l’exemple classique, d’un outil de mesure psychologique : l’échelle de Likert. L’humble échelle de Likert est l’outil de base de toute enquête. Vous en avez vous-même rempli des centaines, voire des milliers, et il y a fort à parier que vous en avez même utilisé un vous-même. Supposons que nous ayons une question d’enquête qui ressemble à ceci :

Lequel des énoncés suivants décrit le mieux votre opinion sur l’affirmation selon laquelle « tous les pirates sont incroyables « ? et les options présentées au participant sont les suivantes :

Fortement en désaccord
En désaccord
Ni d’accord ni en désaccord
D’accord
Tout à fait d’accord

Cet ensemble d’items est un exemple d’une échelle de Likert à 5 points, dans laquelle on demande aux participants de choisir parmi plusieurs possibilités clairement ordonnées (dans ce cas-ci 5), généralement avec un descripteur verbal donné dans chaque cas. Cependant, il n’est pas nécessaire que tous les éléments soient explicitement décrits. C’est aussi un excellent exemple d’une échelle de Likert à 5 points :

Fortement en désaccord
Tout à fait d’accord

Les échelles de Likert sont des outils très pratiques, quoique quelque peu limités. La question est de savoir de quel type de variable il s’agit. Ils sont évidemment discrets, puisque vous ne pouvez pas donner une réponse de 2,5. Ce n’est évidemment pas l’échelle nominale, puisque les articles sont commandés ; et ce n’est pas non plus l’échelle des rapports, puisqu’il n’y a pas de zéro naturel.

Mais s’agit-il d’une échelle ordinale ou d’une échelle d’intervalle ? Un argument dit que nous ne pouvons pas vraiment prouver que la différence entre « tout à fait d’accord » et « d’accord » est de la même taille que la différence entre « d’accord » et « ni d’accord ni en désaccord ». En fait, dans la vie de tous les jours, il est assez évident qu’ils ne sont pas du tout les mêmes. Cela suggère donc que nous devrions traiter les échelles de Likert comme des variables ordinales. D’autre part, dans la pratique, la plupart des participants semblent prendre l’ensemble « sur une échelle de 1 à 5 » assez au sérieux, et ils ont tendance à agir comme si les différences entre les cinq options de réponse étaient assez semblables entre elles. Par conséquent, de nombreux chercheurs traitent les données de l’échelle de Likert comme des échelles d’intervalles.¹⁰ Ce n’est pas une échelle d’intervalles, mais dans la pratique, elle est suffisamment proche pour que nous la considérions habituellement comme une échelle quasi-intervalle.

2.3 Évaluer la fiabilité d’une mesure

A ce stade, nous avons réfléchi un peu à la manière d’opérationnaliser une construction théorique et de créer ainsi une mesure psychologique. Et nous avons vu qu’en appliquant des mesures psychologiques, nous nous retrouvons avec des variables, qui peuvent se présenter sous différentes formes. A ce stade, nous devrions commencer à discuter de la question évidente : la mesure est-elle bonne ? Nous le ferons en fonction de deux idées connexes : la fiabilité et la validité. En termes simples, la fiabilité d’une mesure vous indique avec quelle précision vous mesurez quelque chose, alors que la validité d’une mesure vous indique à quel point la mesure est précise. Dans cette section, je parlerai de fiabilité ; nous parlerons de validité dans la section 2.6.

La fiabilité est en fait un concept très simple. Il s’agit de la répétabilité ou de la cohérence de votre mesure. La mesure de mon poids à l’aide d’un « pèse-personne » est très fiable. Si je monte et descends de la balance encore et encore, ça me donnera toujours la même réponse. Mesurer mon intelligence à l’aide de « demander à ma mère » n’est pas très fiable. Certains jours, elle me dit que je suis un peu épais, et d’autres jours, elle me dit que je suis un idiot complet. Notez que ce concept de fiabilité est différent de la question de savoir si les mesures sont correctes (l’exactitude d’une mesure est liée à sa validité). Si je tiens un sac de pommes de terre lorsque je monte et descends de la balance de la salle de bain, la mesure sera toujours fiable : elle me donnera toujours la même réponse. Cependant, cette réponse très fiable ne correspond pas du tout à mon poids réel, donc c’est faux. En termes techniques, il s’agit d’une mesure fiable mais non valable. De même, bien que l’estimation de mon intelligence faite par ma mère ne soit pas très fiable, elle a peut-être raison. Peut-être que je ne suis tout simplement pas très intelligent, et alors que son estimation de mon intelligence fluctue énormément d’un jour à l’autre, c’est fondamentalement juste. Ce serait une mesure peu fiable mais valable. Bien sûr, si les estimations de ma mère ne sont pas assez fiables, il sera très difficile de déterminer laquelle de ses nombreuses affirmations sur mon intelligence est en fait la bonne. Dans une certaine mesure, donc, une mesure très peu fiable tend à finir par être invalide pour des raisons pratiques, à tel point que beaucoup de gens diraient que la fiabilité est nécessaire (mais pas suffisante) pour assurer la validité.

Ok, maintenant que nous sommes clairs sur la distinction entre fiabilité et validité, réfléchissons aux différentes façons dont nous pourrions mesurer la fiabilité :

Fiabilité test-retest. Il s’agit de l’uniformité dans le temps. Si nous répétons la mesure à une date ultérieure, obtenons-nous la même réponse ?
Fiabilité entre évaluateurs. Cela concerne l’uniformité entre les personnes. Si quelqu’un d’autre répète la mesure (p. ex. quelqu’un d’autre évalue mon intelligence), est-ce qu’il produira la même réponse ?
Fiabilité des formes parallèles. Il s’agit de la cohérence entre les mesures théoriquement équivalentes. Si j’utilise un autre ensemble de pèse-personnes pour mesurer mon poids, est-ce que cela donne la même réponse ?
Fiabilité de la cohérence interne. Si une mesure est construite à partir d’un grand nombre de parties différentes qui remplissent des fonctions similaires (p. ex. un résultat de questionnaire de personnalité est additionné à travers plusieurs questions), les parties individuelles ont tendance à donner des réponses similaires. Nous examinerons cette forme particulière de fiabilité plus loin dans le livre, à la section 15.5.

Il n’est pas nécessaire que toutes les mesures possèdent toutes les formes de fiabilité. Par exemple, l’évaluation de l’éducation peut être considérée comme une forme de mesure. L’une des matières que j’enseigne, la science cognitive computationnelle, a une structure d’évaluation qui comporte un volet recherche et un volet examen (plus d’autres choses). La composante de l’examen est destinée à mesurer quelque chose de différent de la composante de recherche, de sorte que l’évaluation dans son ensemble a une faible cohérence interne. Cependant, l’examen comporte plusieurs questions qui visent à mesurer (approximativement) les mêmes choses, et celles-ci ont tendance à produire des résultats similaires. L’examen en lui-même a donc une consistance interne assez élevée. Ce qui est comme il se doit. Vous ne devriez exiger la fiabilité que dans les situations où vous voulez mesurer la même chose !

2.4 Le « rôle » des variables : prédicteurs et résultats

J’ai un dernier élément de terminologie que je dois vous expliquer avant de m’éloigner des variables. Normalement, lorsque nous faisons de la recherche, nous nous retrouvons avec un grand nombre de variables différentes. Ensuite, lorsque nous analysons nos données, nous essayons habituellement d’expliquer certaines des variables en fonction d’autres variables. Il est important de distinguer les deux rôles « chose qui explique » et « chose qui est expliquée ». Soyons clairs sur ce point maintenant. Tout d’abord, autant s’habituer à l’idée d’utiliser des symboles mathématiques pour décrire des variables, puisque cela va se reproduire à l’infini. Désignons la variable « à expliquer » Y, et les variables « explicative » comme X₁, X₂, etc.

Lorsque nous faisons une analyse, nous avons des noms différents pour X et Y, car ils jouent des rôles différents dans l’analyse. Les noms classiques de ces rôles sont variable indépendante (VI) et variable dépendante (VD). La VI est la variable que vous utilisez pour expliquer (c.-à-d. X) et la DV est la variable expliquée (c.-à-d. Y). La logique derrière ces noms est la suivante : s’il y a vraiment une relation entre X et Y, alors nous pouvons dire que Y dépend de X, et si nous avons conçu notre étude « correctement », alors X ne dépend de rien d’autre. Cependant, je trouve personnellement ces noms horribles. Elles sont difficiles à retenir et elles sont très trompeuses parce que (a) la VI n’est jamais « indépendante de tout le reste », et (b) s’il n’y a pas de relation, alors la DV ne dépend pas réellement de la VI. Et en fait, parce que je ne suis pas la seule personne qui pense que IV et DV ne sont que des noms affreux, il y a un certain nombre d’alternatives que je trouve plus attirantes. Les termes que j’utiliserai dans ce livre sont des prédicteurs et des résultats. L’idée ici est que ce que vous essayez de faire est d’utiliser X (les prédicteurs) pour faire des suppositions sur Y (les résultats).¹¹ Ce point est résumé dans le Tableau 2‑2.

Tableau 2‑2 : La terminologie utilisée pour distinguer les différents rôles qu’une variable peut jouer dans l’analyse d’un ensemble de données. Notez que ce livre aura tendance à éviter la terminologie classique en faveur des noms plus récents.

rôle de la variable	nom classique	nom moderne
«A expliquer»	Variable dépendante (DV)	Résultat
«Explicative»	Variable indépendante (IV)	Prédicteur

2.5 Recherche expérimentale et non expérimentale

L’une des grandes distinctions que vous devez connaître est la distinction entre « recherche expérimentale » et « recherche non expérimentale ». Lorsque nous faisons cette distinction, nous parlons en fait du degré de contrôle que le chercheur exerce sur les personnes et les événements de l’étude.

2.5.1 Recherche expérimentale

La principale caractéristique de la recherche expérimentale est que le chercheur contrôle tous les aspects de l’étude, en particulier ce que les participants vivent pendant l’étude. En particulier, le chercheur manipule ou fait varier les variables prédicteurs (VI), mais laisse la variable résultat (VD) varier naturellement. L’idée ici est de faire varier délibérément les prédicteurs (IV) pour voir s’ils ont des effets causaux sur les résultats. De plus, afin de s’assurer qu’il n’y a aucune possibilité que quelque chose d’autre que les variables prédictrices cause les résultats, tout le reste est maintenu constant ou « équilibré » d’une autre façon, pour s’assurer qu’ils n’ont aucun effet sur les résultats. En pratique, il est presque impossible de penser à tout ce qui pourrait avoir une influence sur le résultat d’une expérience, et encore moins de la maintenir constante. La solution standard est l’aléatorisation. C’est-à-dire que nous assignons au hasard des personnes à des groupes différents, puis donnons à chaque groupe un traitement différent (c.-à-d., leur assignons des valeurs différentes des variables prédictrices). Nous parlerons plus en détail de l’aléatorisation plus tard, mais pour l’instant, il suffit de dire que ce que fait l’aléatorisation est de minimiser (mais pas d’éliminer) la possibilité qu’il y ait une différence systématique entre les groupes.

Prenons un exemple très simple, complètement irréaliste et tout à fait contraire à l’éthique. Supposons que vous vouliez savoir si le tabagisme cause le cancer du poumon. Une façon d’y parvenir serait de trouver des fumeurs et des non-fumeurs et de vérifier si les fumeurs ont un taux plus élevé de cancer du poumon. Ce n’est pas une expérience correcte, puisque le chercheur n’a pas suffisamment de contrôle sur qui est et qui n’est pas un fumeur. Et c’est vraiment important. Par exemple, il se peut que les gens qui choisissent de fumer des cigarettes aient aussi tendance à avoir une mauvaise alimentation, ou peut-être qu’ils ont tendance à travailler dans les mines d’amiante, ou bien d’autres choses. Le fait est que les groupes (fumeurs et non-fumeurs) diffèrent en fait sur beaucoup de choses, et pas seulement sur le tabagisme. Il se peut donc que l’incidence plus élevée de cancer du poumon chez les fumeurs soit causée par autre chose, et non par le tabagisme lui-même. En termes techniques, ces autres choses (par exemple, l’alimentation) sont appelées « facteurs de confusion «, et nous en parlerons dans un instant.

En attendant, considérons à quoi pourrait ressembler une expérience correcte. Rappelez-vous que nous craignions que les fumeurs et les non-fumeurs puissent différer à bien des égards. La solution, tant que vous n’avez pas d’éthique, est de contrôler qui fume et qui ne fume pas. Plus précisément, si nous divisons au hasard les jeunes non-fumeurs en deux groupes et forçons la moitié d’entre eux à devenir fumeurs, il est très peu probable que les groupes diffèrent sur un autre point que le fait que la moitié d’entre eux fument. De cette façon, si notre groupe de fumeurs a un taux de cancer plus élevé que le groupe de non-fumeurs, nous pouvons être assez confiants que (a) le tabagisme cause le cancer et (b) nous sommes des meurtriers.

2.5.2 Recherche non expérimentale

La recherche non expérimentale est un terme large qui couvre « toute étude dans laquelle le chercheur n’a pas autant de contrôle que dans une expérience ». Évidemment, le contrôle est quelque chose que les scientifiques aiment avoir, mais comme l’exemple précédent l’illustre, il y a beaucoup de situations dans lesquelles vous ne pouvez ou ne devriez pas essayer d’obtenir ce contrôle. Puisqu’il est tout à fait contraire à l’éthique (et presque certainement criminel) de forcer les gens à fumer pour savoir s’ils ont le cancer, c’est un bon exemple d’une situation dans laquelle vous ne devriez vraiment pas essayer d’obtenir un contrôle expérimental. Mais il y a aussi d’autres raisons. Même en laissant de côté les questions éthiques, notre « expérience du tabagisme » soulève d’autres problèmes. Par exemple, lorsque j’ai suggéré de « forcer » la moitié des gens à devenir fumeurs, je parlais de commencer avec un échantillon de non-fumeurs, puis de les forcer à devenir fumeurs. Bien que cela ressemble au genre de plan expérimental solide et maléfique qu’un savant fou adorerait, ce n’est peut-être pas une façon très saine d’étudier l’effet dans le monde réel. Supposons, par exemple, que le tabagisme ne cause le cancer du poumon que lorsque les gens ont une mauvaise alimentation et que les gens qui fument normalement ont tendance à avoir une mauvaise alimentation. Cependant, comme les « fumeurs » de notre expérience ne sont pas des fumeurs « naturels » (c.-à-d. que nous avons forcé les non-fumeurs à devenir des fumeurs, mais qu’ils n’ont pas adopté toutes les autres caractéristiques normales et réelles que les fumeurs pourraient avoir tendance à avoir), ils ont probablement une meilleure alimentation. Ainsi, dans cet exemple stupide, ils n’auraient pas de cancer du poumon et notre expérience échouera, parce qu’elle viole la structure du monde « naturel » (le nom technique pour ceci est un résultat « artefact »).

Une distinction qu’il convient de faire entre deux types de recherche non expérimentale est la différence entre la recherche quasi-expérimentale et les études de cas. L’exemple dont j’ai parlé plus tôt, dans lequel nous voulions examiner l’incidence du cancer du poumon chez les fumeurs et les non-fumeurs sans essayer de contrôler qui fume et qui ne fume pas, est un modèle quasi expérimental. C’est-à-dire qu’il est similaire à une expérience, mais nous ne contrôlons pas les prédicteurs (VI). Nous pouvons encore utiliser les statistiques pour analyser les résultats, mais nous devons être beaucoup plus prudents et circonspects.

L’approche alternative, les études de cas, vise à fournir une description très détaillée d’un ou de quelques cas. En général, on ne peut pas utiliser les statistiques pour analyser les résultats des études de cas et il est généralement très difficile de tirer des conclusions générales sur « les gens en général » à partir de quelques exemples isolés. Toutefois, les études de cas sont très utiles dans certaines situations. Tout d’abord, il y a des situations où vous n’avez pas d’alternative. C’est le cas de la neuropsychologie en particulier. Parfois, vous ne pouvez tout simplement pas trouver beaucoup de personnes atteintes de lésions cérébrales dans une région précise du cerveau, alors la seule chose que vous pouvez faire est de décrire les cas que vous avez avec autant de détails et avec autant de soin que possible. Cependant, les études de cas présentent aussi de véritables avantages. Comme vous n’avez pas autant de personnes à étudier, vous avez la possibilité d’investir beaucoup de temps et d’efforts pour essayer de comprendre les facteurs spécifiques en jeu dans chaque cas. C’est très important de le faire. Par conséquent, les études de cas peuvent compléter les approches plus axées sur les statistiques que l’on trouve dans les plans expérimentaux et quasi expérimentaux. Nous ne parlerons pas beaucoup des études de cas dans ce livre, mais elles sont néanmoins des outils très précieux !

2.6 Évaluer la validité d’une étude

Plus que toute autre chose, un scientifique veut que sa recherche soit « valide ». L’idée conceptuelle derrière la validité est très simple. Pouvez-vous faire confiance aux résultats de votre étude ? Si ce n’est pas le cas, l’étude n’est pas valide. Cependant, bien qu’il soit facile à énoncer, dans la pratique, il est beaucoup plus difficile de vérifier la validité qu’il ne l’est de vérifier la fiabilité. Et en toute honnêteté, il n’y a pas de notion précise et clairement acceptée de ce qu’est réellement la validité. En fait, il existe de nombreux types de validité différents, qui soulèvent chacun des questions qui lui sont propres. Et toutes les formes de validité ne sont pas pertinentes pour toutes les études. Je vais présenter cinq types de validité :

Validité interne
Validité externe
Validité de construction
Validité apparente
Validité écologique

Tout d’abord, un guide rapide sur ce qui compte ici. (1) La validité interne et externe est la plus importante, car elle est directement liée à la question fondamentale de savoir si votre étude fonctionne réellement. (2) La validité de construction demande si vous mesurez ce que vous pensez mesurer. (3) La validité apparente n’est pas très importante sauf dans la mesure où vous vous souciez des « apparences ». (4) La validité écologique est un cas particulier de validité apparente qui correspond à un type d’apparence qui peut vous intéresser beaucoup.

2.6.1 Validité interne

La validité interne se réfère à la mesure dans laquelle vous êtes capable de tirer les conclusions correctes sur les relations causales entre les variables. On l’appelle « interne » parce qu’il fait référence aux relations entre les choses « à l’intérieur » de l’étude. Illustrons le concept par un exemple simple. Supposons que vous souhaitiez savoir si une formation universitaire vous permet d’écrire mieux. Pour ce faire, vous formez un groupe d’étudiants de première année, leur demandez d’écrire un essai de 1000 mots et comptez le nombre de fautes d’orthographe et de grammaire qu’ils font. Ensuite, vous trouvez des étudiants de troisième année, qui ont de toute évidence fait plus d’études universitaires que les étudiants de première année, et vous répétez l’exercice. Et supposons qu’il s’avère que les étudiants de troisième année produisent moins d’erreurs. Vous pensez pouvoir conclure qu’une formation universitaire améliore les compétences en rédaction ?

Sauf que le gros problème de cette expérience est que les étudiants de troisième année sont plus âgés et qu’ils ont plus d’expérience dans l’écriture. Il est donc difficile de savoir avec certitude quelle est la relation de cause à effet. Les personnes âgées écrivent-elles mieux ? Ou est-ce parce qu’ils ont plus d’expérience en écriture ? Ou parce qu’ils ont fait plus d’études ? Laquelle de ces raisons est la véritable cause de la performance supérieure de la troisième année ? L’âge ? Expérience ? L’éducation ? Vous ne pouvez ne peux pas le dire. C’est un exemple d’échec de validité interne, parce que votre étude ne distingue pas correctement les relations causales entre les différentes variables.

2.6.2 Validité externe

La validité externe se rapporte à la généralisabilité ou à l’applicabilité de vos conclusions. C’est-à-dire, dans quelle mesure vous attendez-vous à voir le même schéma de résultats dans la « vie réelle » que celui que vous avez vu dans votre étude. Pour être un peu plus précis, toute étude que vous ferez en psychologie comportera un ensemble assez précis de questions ou de tâches, se déroulera dans un environnement particulier et impliquera des participants provenant d’un sous-groupe particulier (malheureusement, ce sont souvent des étudiants d’université !). Donc, s’il s’avère que les résultats ne peuvent pas être généralisés ou ne s’appliquent pas aux personnes et aux situations au-delà de celles que vous avez étudiées, alors vous avez un manque de validité externe.

L’exemple classique de cette question est le fait qu’une très grande proportion des études en psychologie font appel à des étudiants de premier cycle en psychologie comme participants. Évidemment, cependant, les chercheurs ne se soucient pas seulement des étudiants en psychologie. Ils se soucient des gens en général. Par conséquent, une étude qui utilise uniquement des étudiants en psychologie comme participants comporte toujours le risque de manquer de validité externe. Autrement dit, s’il y a quelque chose de « spécial » chez les étudiants en psychologie qui les rend différents du reste de la population à certains égards, alors nous pourrions commencer à nous inquiéter d’un manque de validité externe.

Cela dit, il est absolument essentiel de réaliser qu’une étude qui n’utilise que des étudiants en psychologie n’a pas nécessairement un problème de validité externe. J’en reparlerai plus tard, mais c’est une erreur tellement courante que je vais en parler ici. La validité externe d’une étude est menacée par le choix de la population si (a) la population à partir de laquelle vous échantillonnez vos participants est très restreinte (p. ex. les étudiants en psychologie) et (b) la population restreinte que vous avez échantillonnée est systématiquement différente de la population générale à certains égards qui est pertinente au phénomène psychologique que vous voulez étudier. La partie en italique est la partie que beaucoup de gens oublient. Il est vrai que les étudiants de premier cycle en psychologie diffèrent de la population générale à bien des égards, de sorte qu’une étude qui utilise uniquement des étudiants en psychologie peut avoir des problèmes de validité externe. Cependant, si ces différences ne sont pas très pertinentes par rapport au phénomène que vous étudiez, il n’y a pas de quoi s’inquiéter. Pour rendre cela un peu plus concret, voici deux exemples extrêmes :

Vous voulez mesurer « les attitudes du grand public envers la psychothérapie », mais tous vos participants sont des étudiants en psychologie. Cette étude aurait presque certainement un problème de validité externe.
Vous voulez mesurer l’efficacité d’une illusion visuelle et vos participants sont tous des étudiants en psychologie. Il est peu probable que cette étude ait un problème de validité externe.

Après avoir passé les deux derniers paragraphes à se concentrer sur le choix des participants, puisque c’est une question importante qui préoccupe le plus tout le monde, il est bon de se rappeler que la validité externe est un concept plus large. Voici également des exemples de choses qui pourraient menacer la validité externe, selon le type d’étude que vous effectuez :

Les gens pourraient répondre à un « questionnaire psychologique » d’une manière qui ne reflète pas ce qu’ils feraient dans la vie réelle.
Votre expérience de laboratoire sur (par exemple) « l’apprentissage humain » a une structure différente de celle des problèmes d’apprentissage auxquels les gens font face dans la vie réelle.

2.6.3 Construire la validité

La validité de construction consiste essentiellement à se demander si vous mesurez ce que vous voulez mesurer. Une mesure a une bonne validité de construction si elle mesure réellement le bonne construit théorique, et une mauvaise validité de construction si ce n’est pas le cas. Pour donner un exemple très simple (quoique ridicule), supposons que j’essaie de mesurer les taux avec lesquels les étudiants universitaires trichent à leurs examens. Une façon d’essayer de le mesurer est de demander aux élèves tricheurs de se lever dans l’amphithéâtre pour que je puisse les compter. Quand je fais cela avec une classe de 300 élèves, 0 personnes prétendent être des tricheurs. J’en conclus donc que la proportion de tricheurs dans ma classe est de 0%. Il est clair que c’est un peu ridicule. Mais il ne s’agit pas ici d’un exemple méthodologique très profond, mais plutôt d’expliquer ce qu’est la validité conceptuelle. Le problème avec ma mesure, c’est que pendant que j’essaie de mesurer « la proportion de personnes qui trichent », ce que je mesure en fait est « la proportion de personnes assez stupides pour avouer qu’elles trichent, ou assez dérangé pour prétendre le faire ». Évidemment, ce n’est pas la même chose ! Mon étude a donc mal tourné, parce que ma mesure a une très mauvaise validité conceptuelle.

2.6.4 Validité apparente

La validité apparente fait simplement référence au fait qu’une mesure « ressemble » ou non à ce qu’elle est censée faire. Si je conçois un test d’intelligence, et que quelqu’un le regarde et dit « non, ce test ne mesure pas l’intelligence », alors la mesure manque de validité apparente. C’est aussi simple que ça. Évidemment, la validité apparente n’est pas très importante d’un point de vue purement scientifique. Après tout, ce qui nous importe, c’est de savoir si la mesure fait ce qu’elle est censée faire ou non, et non si elle semble faire ce qu’elle est censée faire. Par conséquent, nous ne nous soucions généralement pas beaucoup de la validité apparente. Cela dit, le concept de validité apparente sert trois objectifs pragmatiques utiles :

Parfois, un scientifique expérimenté aura l’intuition qu’une mesure particulière ne fonctionnera pas. Bien que ce genre d’intuition n’ai pas de valeur probante, elle vaut souvent la peine d’y prêter attention. Parce que souvent, les gens ont des connaissances qu’ils ne peuvent pas verbaliser, cela vaut la peine de s’en préoccuper, même si vous ne pouvez pas dire tout à fait pourquoi. En d’autres termes, lorsque quelqu’un en qui vous avez confiance critique la validité apparente de votre étude, il vaut la peine de prendre le temps de réfléchir plus attentivement à votre étude pour voir si vous avez pensé aux raisons pour lesquelles elle pourrait ne pas être valide. Mais rappelez-vous, si vous ne trouvez aucune raison de vous inquiéter, alors vous ne devriez probablement pas vous inquiéter. Après tout, la validité apparente n’a pas vraiment d’importance.
Souvent (très souvent), des personnes complètement mal informées auront aussi l’intuition que votre recherche ne vaut rien. Ils la critiqueront sur Internet ou ailleurs. En y regardant de plus près, vous remarquerez peut-être que ces critiques se concentrent en fait entièrement sur ce à quoi l’étude « ressemble », mais pas sur ces fondements. Le concept de validité apparente est utile pour expliquer doucement aux gens qu’ils ont besoin d’étayer davantage leurs arguments.
Pour en revenir à ce dernier point, si les croyances de personnes non formées sont critiques (par exemple, c’est souvent le cas pour la recherche appliquée où l’on veut convaincre les décideurs d’une chose ou d’une autre), alors il faut se soucier de la validité apparente. Tout simplement parce que, que vous le vouliez ou non, beaucoup de gens utiliseront la validité apparente comme un substitut de la validité réelle. Si vous voulez que le gouvernement modifie une loi pour des raisons psychologiques scientifiques, peu importe la qualité de vos études. S’ils manquent de validité apparente, vous constaterez que les politiciens vous ignoreront. Bien sûr, c’est un peu injuste que la politique dépende souvent davantage de l’apparence que des faits, mais c’est ainsi.

2.6.5 Validité écologique

La validité écologique est une notion différente de la validité, qui est semblable à la validité externe, mais moins importante. L’idée est que, pour être valable du point de vue écologique, l’ensemble de l’étude doit se rapprocher le plus possible du scénario du monde réel qui est à l’étude. Dans un sens, la validité écologique est une sorte de validité apparente. Il s’agit surtout de savoir si l’étude « semble » correcte, mais avec un peu plus de rigueur. Pour être valable du point de vue écologique, l’étude doit avoir un aspect assez précis. L’idée sous-jacente est l’intuition qu’une étude qui est écologiquement valide est plus susceptible d’avoir une validité externe. Ce n’est pas une garantie, bien sûr. Mais ce qu’il y a de bien avec la validité écologique, c’est qu’il est beaucoup plus facile de vérifier si une étude est valide sur le plan écologique que de vérifier si une étude est valide sur le plan externe. Un exemple simple serait les études d’identification par témoin oculaire. La plupart de ces études ont tendance à se faire dans un cadre universitaire, souvent avec un tableau assez simple de visages à regarder, plutôt qu’en ligne. Il s’écoule généralement moins de temps entre le moment où l’on voit le « criminel » et celui où l’on lui demande d’identifier le suspect dans la « file d’attente ». Le « crime » n’est pas réel, donc il n’y a aucune chance que le témoin ait peur, et il n’y a aucun policier présent, donc il n’y a pas autant de chances de se sentir sous pression. Toutes ces choses montrent que l’étude manque définitivement de validité écologique. Elles peuvent (mais pas nécessairement) signifier qu’elle manque également de validité externe.

2.7 Confusion, artefacts et autres menaces à la validité

Si nous examinons la question de la validité de la manière la plus générale, les deux plus grandes préoccupations que nous avons sont les facteurs de confusion et les artefacts. Ces deux termes sont définis de la manière suivante :

Confusion : Un facteur de confusion est une variable supplémentaire, souvent non mesurée,¹² qui s’avère être liée à la fois aux prédicteurs et au résultat. L’existence de variables de confusion menace la validité interne de l’étude parce qu’on ne peut pas dire si c’est le prédicteur qui cause le résultat ou si la variable confusionnelle en est la cause.
Artefact : Un résultat est dit « artefactuel » s’il ne tient que dans la situation spéciale que vous avez testée dans votre étude. La possibilité que votre résultat soit un artefact est une menace à votre validité externe, parce qu’elle soulève la possibilité que vous ne puissiez pas généraliser ou appliquer vos résultats à la population réelle à laquelle vous tenez.

En règle générale, les facteurs de confusion sont plus préoccupants pour les études non expérimentales, précisément parce qu’il ne s’agit pas d’expériences à proprement parler. Par définition, vous laissez beaucoup de choses non contrôlées, alors il y a beaucoup de place pour les facteurs de confusion dans votre étude. La recherche expérimentale tend à être beaucoup moins vulnérable aux facteurs de confusion. Plus vous avez de contrôle sur ce qui se passe pendant l’étude, plus vous pouvez empêcher les facteurs de confusion d’affecter les résultats. Dans le cas de la répartition aléatoire, par exemple, les variables de confusion sont réparties de façon aléatoire et uniforme entre différents groupes.

Cependant, il y a toujours des fluctuations et des revirements et lorsque nous commençons à penser aux artefacts plutôt qu’aux facteurs de confusion, la situation est souvent inversée. Dans la plupart des cas, les résultats artefactuels ont tendance à être une préoccupation pour les études expérimentales plutôt que pour les études non expérimentales. Pour s’en rendre compte, il est utile de considérer que la raison pour laquelle beaucoup d’études ne sont pas expérimentales est précisément parce que le chercheur essaie d’examiner le comportement humain dans un contexte plus écologique. En travaillant dans un contexte plus réel, vous perdez le contrôle expérimental (ce qui vous rend vulnérable aux facteurs de confusion), mais parce que vous avez tendance à étudier la psychologie humaine « dans la vie réelle », vous réduisez les chances d’obtenir un résultat artefactuel. En d’autres termes, lorsque vous sortez la psychologie de la vie réelle et l’amenez au laboratoire (ce que nous devons habituellement faire pour obtenir notre contrôle expérimental), vous courez toujours le risque d’étudier accidentellement quelque chose de différent de ce que vous voulez étudier.

Attention cependant, ce qui précède n’est donné qu’à titre indicatif. Il est absolument possible d’avoir des facteurs de confusion dans une expérience, et d’obtenir des résultats artefactuels avec des études non expérimentales. Cela peut se produire pour toutes sortes de raisons, dont la moindre n’est pas l’erreur de l’expérimentateur ou du chercheur. Dans la pratique, il est très difficile de tout prévoir à l’avance et même les très bons chercheurs font des erreurs.

Bien que d’un certain point de vue, presque toute menace à la validité peut être qualifiée de facteur de confusion ou d’artefact, ce sont des concepts assez vagues. Regardons donc de plus près certains des exemples les plus courants.

2.7.1 Effets de l’histoire

Les effets historiques renvoient à la possibilité que des événements particuliers susceptibles d’influer sur la mesure des résultats se produisent au cours de l’étude. Par exemple, il peut se passer quelque chose entre un prétest et un post-test ou entre le participant 23 et le participant 24. Il se peut aussi que vous considériez les résultats d’une étude plus ancienne qui était parfaitement valable à l’époque, mais que le monde a suffisamment changé depuis lors pour que les conclusions ne soient plus dignes de foi. Voici des exemples qui pourraient être considérées comme des effets de l’histoire :

Vous vous intéressez à la façon dont les gens perçoivent le risque et l’incertitude. Vous avez commencé votre collecte de données en décembre

Mais il faut du temps pour trouver des participants et recueillir des données, alors vous trouverez encore de nouveaux sujets en février 2011. Malheureusement pour vous (et encore plus malheureusement pour les autres), les inondations du Queensland se sont produites en janvier 2011, causant des milliards de dollars de dégâts et tuant de nombreuses personnes. Comme on pouvait s’y attendre, les personnes testées en février 2011 expriment des croyances très différentes de celles des personnes testées en décembre 2010 en matière de gestion du risque. Lequel d’entre eux (le cas échéant) reflète les « vraies » croyances des participants ? Je pense que la réponse est probablement les deux. Les inondations du Queensland ont véritablement changé les croyances du public australien, mais peut-être seulement temporairement. L’essentiel ici, c’est que « l’histoire » des personnes testées en février est très différente de celle des personnes testées en décembre.
Vous testez les effets psychologiques d’un nouveau médicament contre l’anxiété. Il faut donc mesurer l’anxiété avant d’administrer le médicament (p. ex. par auto déclaration et en prenant des mesures physiologiques). Ensuite, vous administrez le médicament, puis vous prenez les mêmes mesures. Pendant ce temps, parce que votre laboratoire est à Los Angeles, il y a un tremblement de terre qui augmente l’anxiété des participants.

2.7.2 Effets de maturation

Comme dans le cas des effets historiques, les effets de maturation sont fondamentalement liés au changement au fil du temps. Cependant, les effets de maturation ne sont pas une réponse à des événements spécifiques. Elles sont plutôt liées à la façon dont les gens changent d’eux-mêmes au fil du temps. On vieillit, on se fatigue, on s’ennuie, etc. Voici quelques exemples d’effets de maturation :

Lorsque vous faites de la recherche en psychologie du développement, vous devez être conscient que les enfants grandissent assez rapidement. Supposons donc que vous souhaitiez savoir si une approche éducative aide à améliorer la taille du vocabulaire chez les enfants de 3 ans. Il faut avoir à l’esprit que la taille du vocabulaire des enfants de cet âge augmente spontanément à un rythme incroyablement rapide (plusieurs mots par jour). Si vous concevez votre étude sans tenir compte de cet effet de maturation, vous ne serez pas en mesure de dire si votre approche éducative fonctionne.
Lorsqu’on fait une très longue expérience en laboratoire (disons 3 heures), il est très probable que les gens commenceront à s’ennuyer et à se fatiguer, et que cet effet de maturation entraînera une baisse de performance indépendamment du contenu l’expérience.

2.7.3 Effets de tests répétés

Un type important d’effet historique est l’effet des essais répétés. Supposons que je veuille prendre deux mesures d’une dimension psychologique (p. ex., l’anxiété). Je pourrai chercher à savoir si la première mesure a un effet sur la seconde. En d’autres termes, s’il s’agit d’un effet historique dans lequel « l’événement » qui influence la deuxième mesure est la première mesure elle-même ! Ce n’est pas du tout rare. En voici quelques exemples :

Apprentissage et pratique : par exemple, La mesure de « l’intelligence » au temps 2 peut sembler augmenter par rapport au temps 1 parce que les participants ont appris les règles générales sur la résolution les questions de type « test d’intelligence » au cours de la première séance de test.
Familiarité avec la situation du test : par exemple, si les gens sont nerveux au moment 1, cela peut faire baisser la performance. Mais après avoir participer à la première situation de test, ils pourraient être plus confiant parce qu’ils ont vu à quoi ressemble le test.
Changements auxiliaires causés par les tests : par exemple, si un questionnaire d’évaluation de l’humeur est ennuyeux, l’évaluation de l’humeur au moment de la mesure 2 est plus susceptible de s’ennuyer précisément en raison de la mesure ennuyeuse effectuée au moment 1.

2.7.4 Biais de sélection

Le biais de sélection est un terme assez large. Supposons que vous menez une expérience avec deux groupes de participants où chaque groupe reçoit un « traitement « différent, et que vous voulez voir si les différents traitements donnent des résultats différents. Supposons toutefois que, malgré tous vos efforts, vous vous retrouvez avec un déséquilibre entre les sexes dans tous les groupes (disons, le groupe A compte 80 % de femmes et le groupe B 50 % de femmes). On pourrait croire que ça n’arrivera jamais, mais croyez-moi, c’est possible. Il s’agit d’un exemple de biais de sélection, dans lequel les personnes « sélectionnées » dans les deux groupes ont des caractéristiques différentes. Si l’une ou l’autre de ces caractéristiques s’avère pertinente (par exemple, votre traitement est plus efficace sur les femmes que sur les hommes), vous êtes dans une situation très difficile.

2.7.5 Attrition différentielle

Lorsqu’on pense aux effets de l’attrition, il est parfois utile de faire la distinction entre deux types différents. La première est l’attrition homogène, dans laquelle l’effet d’attrition est le même pour tous les groupes, traitements ou conditions. Dans l’exemple que j’ai donné ci-dessus, l’attrition serait homogène si (et seulement si) les participants facilement ennuyés abandonnent toutes les conditions de mon expérience à peu près au même rythme. En général, le principal effet de l’attrition homogène est de rendre votre échantillon non représentatif. Ainsi, la plus grande inquiétude que vous aurez est que la généralisabilité des résultats diminue. En d’autres termes, vous perdez la validité externe.

Le deuxième type d’attrition est l’attrition hétérogène, dans laquelle l’effet d’attrition est différent pour différents groupes. Plus souvent appelé attrition différentielle, il s’agit d’une sorte de biais de sélection causé par l’étude elle-même. Supposons que, pour la première fois dans l’histoire de la psychologie, j’arrive à trouver l’échantillon de personnes parfaitement équilibré et représentatif. Je commence à faire « l’expérience incroyablement longue et fastidieuse de Dani » sur mon échantillon parfait mais ensuite, parce que mon étude est incroyablement longue et fastidieuse, beaucoup de gens commencent à abandonner. Je ne peux pas l’empêcher. Les participants ont absolument le droit de cesser toute expérience, à tout moment, pour quelque raison que ce soit, et en tant que chercheurs, nous sommes moralement (et professionnellement) obligés de rappeler aux gens qu’ils ont ce droit. Supposons donc que « l’expérience incroyablement longue et fastidieuse de Dani » ait un taux de décrochage très élevé. Quelles sont les chances que ce décrochage soit aléatoire ? Réponse : zéro. Il est presque certain que les personnes qui restent sont plus consciencieuses, plus tolérantes à l’ennui, etc. que celles qui partent. Dans la mesure où (disons) la conscience professionnelle est pertinente au phénomène psychologique qui m’intéresse, cette attrition peut diminuer la validité de mes résultats.

Voici un autre exemple. Supposons que je conçoive mon expérience avec deux conditions. En condition « traitement », l’expérimentateur insulte le participant et lui remet ensuite un questionnaire destiné à mesurer son obéissance. Dans la condition « contrôle », l’expérimentateur s’engage dans un petit bavardage inutile et leur donne ensuite le questionnaire. Laissons de côté les mérites scientifiques douteux et l’éthique douteuse d’une telle étude, réfléchissons à ce qui pourrait mal tourner ici. En règle générale, quand quelqu’un m’insulte en face, j’ai tendance à devenir beaucoup moins coopératif. Il y a donc de fortes chances qu’il y ait beaucoup plus de personnes qui abandonnent le traitement que de personnes qui en sont témoins. Et cet abandon ne sera pas aléatoire. Les personnes les plus susceptibles de se désister seraient probablement celles qui accordent peu d’importance à la participation docile à l’expérience. Étant donné que les personnes les plus désobéissantes et les plus irritées ont toutes quitté le groupe de traitement mais pas le groupe témoin, nous avons introduit une confusion : les personnes qui ont répondu au questionnaire dans le groupe de traitement étaient déjà plus susceptibles d’être consciencieuses et obéissantes que les personnes du groupe témoin. Bref, dans cette étude, insulter les gens ne les rend pas plus obéissants. Plus les gens désobéissent, plus ils quittent l’expérience ! La validité interne de cette expérience est complètement foutue.

2.7.6 Biais de non-réponse

Le biais de non-réponse est étroitement lié au biais de sélection et à l’attrition différentielle. La version la plus simple du problème est la suivante. Vous envoyez un sondage par la poste à 1000 personnes, mais seulement 300 d’entre elles y répondent. Les 300 personnes qui ont répondu ne constituent certainement pas un sous-échantillon aléatoire. Les personnes qui répondent aux enquêtes sont systématiquement différentes de celles qui n’y répondent pas. Cela pose un problème lorsque l’on tente de généraliser à partir des 300 personnes qui ont répondu à l’ensemble de la population, puisque l’on dispose maintenant d’un échantillon manifestement non aléatoire. La question du biais de non-réponse est toutefois plus générale. Parmi (disons) les 300 personnes qui ont répondu au sondage, vous constaterez peut-être que tout le monde ne répond pas à toutes les questions. Si (disons) 80 personnes ont choisi de ne pas répondre à l’une de vos questions, est-ce que cela pose problème ? Comme toujours, la réponse est peut-être. Si la question à laquelle on n’a pas répondu se trouvait à la dernière page du questionnaire, et que ces 80 questionnaires ont été retournés avec la dernière page manquante, il y a de fortes chances que les données manquantes ne soient pas un problème ; probablement que les pages sont simplement tombées. Cependant, si la question à laquelle 80 personnes n’ont pas répondu était la question personnelle la plus conflictuelle ou la plus invasive du questionnaire, alors vous avez presque certainement un problème. Il s’agit ici essentiellement de ce qu’on appelle le problème des données manquantes. Si les données manquantes ont été « perdues » au hasard, ce n’est pas un gros problème. Si elles manquent systématiquement, il peut s’agir d’un gros problème.

2.7.7 Régression à la moyenne

La régression à la moyenne fait référence à toute situation où vous sélectionnez des données en fonction d’une valeur extrême sur une mesure donnée. Comme la variable a une variation naturelle, cela signifie presque certainement que lorsque vous prenez une mesure ultérieure, la mesure ultérieure sera moins extrême que la première, purement par hasard.

En voici un exemple. Supposons que je m’intéresse à la question de savoir si une formation en psychologie a un effet négatif sur les enfants très intelligents. Pour ce faire, je trouve les 20 étudiants en psychologie I qui ont les meilleures notes au secondaire et je regarde comment ils réussissent à l’université. Il s’avère qu’ils réussissent beaucoup mieux que la moyenne, mais ils ne sont pas en tête de la classe à l’université, même s’ils ont terminé premiers de leurs cours au secondaire. Qu’est-ce qu’il se passe ? La première pensée naturelle est que cela doit signifier que les cours de psychologie doivent avoir un effet négatif sur ces étudiants. Cependant, bien que cela puisse très bien être l’explication, il est plus probable que ce que vous voyez est un exemple de « régression vers la moyenne ». Pour voir comment cela fonctionne, prenons un moment pour réfléchir à ce qui est nécessaire pour obtenir la meilleure note dans une classe, que ce soit à l’école secondaire ou à l’université. Quand vous avez une grande classe, il y aura beaucoup de gens très intelligents inscrits. Pour obtenir la meilleure note, il faut être très intelligent, travailler très dur et avoir un peu de chance. L’examen doit poser les bonnes questions en fonction de vos compétences idiosyncrasiques, et vous devez éviter de faire des erreurs stupides (nous le faisons tous parfois) en y répondant. Et c’est ça, alors que l’intelligence et le travail acharné sont transférables d’une classe à l’autre, la chance ne l’est pas. Les gens qui ont eu de la chance à l’école secondaire ne seront pas les mêmes que ceux qui ont eu de la chance à l’université. C’est la définition même de la « chance ». La conséquence en est que lorsque vous sélectionnez des personnes aux valeurs extrêmes d’une mesure (les 20 meilleurs élèves), vous choisissez pour le travail acharné, la compétence et la chance. Mais comme la chance ne se transfère pas à la deuxième mesure (seulement la compétence et le travail), on s’attend à ce que toutes ces personnes diminuent un peu quand on les mesure une deuxième fois (à l’université). Leurs scores reviennent donc un peu en arrière, vers tout le monde. C’est une régression vers la moyenne.

La régression vers la moyenne est étonnamment courante. Par exemple, si deux personnes très grandes ont des enfants, leurs enfants auront tendance à être plus grands que la moyenne, mais pas aussi grands que les parents. C’est l’inverse qui se produit chez les parents très petits. Deux parents très petits auront tendance à avoir des enfants petits, mais néanmoins ces enfants auront tendance à être plus grands que les parents. Elle peut aussi être extrêmement subtile. Par exemple, des études ont montré que les gens apprennent mieux de la rétroaction négative que de la rétroaction positive. Cependant, la façon dont les gens ont essayé de montrer cela était de donner aux gens un renforcement positif chaque fois qu’ils faisaient bien, et un renforcement négatif chaque fois qu’ils faisaient mal. On peut observer qu’après le renforcement positif, les gens avaient tendance à faire moins bien, alors qu’après le renforcement négatif, ils avaient tendance à faire mieux. Nous avons ici un biais de sélection! Quand les gens réussissent très bien, on observe des valeurs « élevées », et il faut donc s’attendre, en raison de la régression vers la moyenne, à ce que la performance lors du prochain essai soit moins bonne, peu importe si le renforcement est donné ou non. De même, après un mauvais essai, les gens auront tendance à s’améliorer tous seuls. La supériorité apparente de la rétroaction négative est un artefact causé par la régression vers la moyenne (voir Kahneman et Tversky, 1973, pour une discussion).

2.7.8 Biais de l’expérimentateur

Les biais de l’expérimentateur** peuvent prendre de multiples formes. L’idée de base est que l’expérimentateur, malgré les meilleures intentions, peut finir par influencer accidentellement les résultats de l’expérience en communiquant subtilement la « bonne réponse » ou le « comportement souhaité » aux participants. Généralement, cela se produit parce que l’expérimentateur a des connaissances particulières que le participant ne possède pas, par exemple la bonne réponse aux questions posées ou la connaissance du modèle de performance attendu pour l’état dans lequel se trouve le participant. L’exemple classique est l’étude de cas de « Clever Hans », qui remonte à 1907 (Pfungst 1911; Hothersall 2004). Clever Hans était un cheval qui était apparemment capable de lire, de compter et de réaliser d’autres exploits caractéristiques des humains ressemblant à de l’intelligence. Après que Clever Hans soit devenu célèbre, les psychologues ont commencé à examiner son comportement de plus près. Il s’est avéré que, comme on pouvait s’y attendre, Hans ne savait pas faire de maths. Au contraire, Hans répondait aux observateurs humains qui l’entouraient, parce que les humains savaient compter et que le cheval avait appris à changer de comportement quand les gens changeaient le leur.

La solution générale au problème du biais de l’expérimentateur est de s’engager dans des études en double aveugle, où ni l’expérimentateur ni le participant ne savent dans quel état se trouve le participant ou quel est le comportement souhaité. C’est une très bonne solution au problème, mais il est important de reconnaître que ce n’est pas tout à fait idéal et difficile à réaliser parfaitement. Par exemple, la façon évidente dont je pourrais essayer de construire une étude en double aveugle, c’est qu’un de mes étudiants au doctorat (un qui ne connaît rien à l’expérience) mène l’étude. J’ai l’impression que ça devrait suffire. La seule personne (moi) qui connaît tous les détails (ex. les bonnes réponses aux questions, les affectations des participants aux conditions) n’a aucune interaction avec les participants, et la personne qui parle aux gens (l’étudiant en doctorat) ne sait rien. Sauf qu’en réalité que la dernière partie est très peu susceptible d’être vraie. Pour que l’étudiant au doctorat puisse mener l’étude efficacement, il doit avoir été informé par moi, le chercheur. Et il se trouve que l’étudiant au doctorat me connaît aussi et connaît un peu mes croyances générales sur les gens et la psychologie (par exemple, j’ai tendance à penser que les humains sont beaucoup plus intelligents que les psychologues ne le croient). Par conséquent, il est presque impossible pour l’expérimentateur d’éviter d’en savoir un peu plus sur les attentes que j’ai. Et même un peu de connaissance peut avoir un effet. Supposons que l’expérimentateur communique accidentellement le fait que l’on s’attend à ce que les participants réussissent bien dans cette tâche. En vertu de ce qu’on appelle « l’effet Pygmalion », si vous attendez de grandes choses des gens, ils auront tendance à être à la hauteur de vos attentes. Mais si vous vous attendez à ce qu’ils échouent, ils le feront aussi. En d’autres termes, les attentes deviennent une prophétie qui se réalise d’elle-même.

2.7.9 Effets de la demande et réactivité

Lorsqu’on parle de biais de l’expérimentateur, on craint que les connaissances ou les désirs de l’expérimentateur soient communiqués aux participants et qu’ils puissent changer le comportement des gens (Rosenthal, 1966). Cependant, même si vous parvenez à empêcher cela, il est presque impossible d’empêcher les gens de savoir qu’ils font partie d’une étude psychologique. Et le simple fait de savoir que quelqu’un vous regarde ou étudie peut avoir un effet assez important sur votre comportement. C’est ce qu’on appelle généralement les effets de réactivité ou de demande. L’idée de base est illustré par l’effet Hawthorne : les gens modifient leur performance en raison de l’attention que l’étude leur porte. L’effet tire son nom d’une étude qui a eu lieu dans l’usine « Hawthorne Works » près de Chicago (voir Adair 1984). Cette étude, datant des années 1920, portait sur les effets de l’éclairage des usines sur la productivité des travailleurs. Ce qui est important, c’est que les travailleurs ont changé de comportement parce qu’ils savaient qu’ils faisaient l’objet d’une étude, plutôt que d’un quelconque effet de l’éclairage de l’usine.

Pour mieux comprendre la façon dont le simple fait de participer à une étude peut changer le comportement des gens, il est utile de penser comme un psychologue social et d’examiner les rôles que les gens pourraient adopter pendant une expérience, mais qu’ils pourraient ne pas adopter si les événements correspondants survenaient dans le monde réel :

Le bon participant essaie d’être trop utile au chercheur. Il cherche à comprendre les hypothèses de l’expérimentateur et à les confirmer.
Le participant négatif fait exactement le contraire du bon participant. Il ou elle cherche à briser ou à invalider l’étude ou l’hypothèse d’une manière ou d’une autre.
Le participant fidèle est anormalement obéissant. Il ou elle cherche à suivre parfaitement les instructions, quoi qu’il se soit passé dans un contexte plus réaliste.
L’appréhension du participant. Il devient nerveux à l’idée d’être testé ou étudié, à tel point que son comportement devient très anormal ou trop désirable sur le plan social.

2.7.10 Effets placebo

L’effet placebo est un type spécifique d’effet de demande qui nous inquiète beaucoup. Il s’agit de la situation où le simple fait d’être traité entraîne une amélioration des résultats. L’exemple classique vient des essais cliniques. Si vous donnez aux gens un médicament chimiquement inerte et que vous leur dites que c’est un remède contre une maladie, ils auront tendance à aller mieux plus vite que les gens qui ne sont pas traités du tout. En d’autres termes, c’est la croyance des gens qu’ils sont traités qui cause l’amélioration des résultats, et non le médicament.

2.7.11 Situation, mesure et effets sur la sous-population

A certains égards, ces termes sont des fourre-tout pour désigner « toutes les autres menaces à la validité externe ». Ils font référence au fait que le choix de la sous-population à partir de laquelle vous recrutez vos participants, le lieu, le moment et la manière dont vous menez votre étude (y compris qui collecte les données) et les outils que vous utilisez pour effectuer vos mesures pourraient tous influencer les résultats. Plus précisément, on craint que ces facteurs n’influencent les résultats d’une manière telle qu’ils ne se généralisent pas à un plus grand nombre de personnes, de lieux et de mesures.

2.7.12 Fraude, tromperie et auto-illusion

Il est difficile d’amener un homme à comprendre quelque chose, quand son salaire dépend de son incompréhension. - Upton Sinclair

Il y a une dernière chose que je pense devoir mentionner. En lisant ce que les manuels ont souvent à dire sur l’évaluation de la validité d’une étude, je n’ai pas pu m’empêcher de remarquer qu’ils semblent supposer que le chercheur est honnête. Je trouve ça hilarant. Bien que la grande majorité des scientifiques soient honnêtes, du moins d’après mon expérience, certains ne le sont pas.¹³ De plus, comme je l’ai mentionné plus tôt, les scientifiques ne sont pas à l’abri des préjugés. Il est facile pour un chercheur de se tromper en fin de compte et d’avoir des croyances erronées, ce qui peut l’amener à mener des recherches subtilement imparfaites, puis à cacher ces défauts lorsqu’il les écrit. Il faut donc tenir compte non seulement de la possibilité (probablement peu probable) de fraude pure et simple, mais aussi de la possibilité (probablement assez courante) que la recherche soit involontairement « orientée ». J’ai ouvert quelques manuels standard et je n’ai pas trouvé beaucoup de discussion sur ce problème, alors voici ma propre tentative pour énumérer quelques façons dont ces questions peuvent se poser :

Fabrication de données. Parfois, les gens se contentent d’inventer les données. Cela se fait parfois avec de « bonnes » intentions. Par exemple, le chercheur croit que les données fabriquées reflètent la vérité et qu’elles peuvent en fait refléter des versions « légèrement nettoyées » de données réelles. Dans d’autres cas, la fraude est délibérée et malveillante. Cyril Burt (un psychologue qui aurait fabriqué certaines de ses données), Andrew Wakefield (accusé d’avoir fabriqué ses données reliant le vaccin ROR à l’autisme) et Hwang Woo-suk (qui a falsifié beaucoup de ses données sur les cellules souches) sont des exemples très médiatisés où la fabrication de données a été alléguée ou présentée.
Des canulars. Les canulars ont beaucoup de similitudes avec la fabrication de données, mais ils diffèrent quant à l’usage auquel ils sont destinés. Un canular est souvent une blague, et beaucoup d’entre eux sont destinés à être (éventuellement) découverts. Souvent, le but d’un canular est de discréditer quelqu’un ou un domaine. Il y a eu pas mal de canulars scientifiques bien connus au fil des ans (p. ex., l’homme de Piltdown) et certains étaient des tentatives délibérées de discréditer certains domaines de recherche (p. ex., l’affaire Sokal).
Représentation erronée des données. Bien que la fraude fasse les manchettes, il est beaucoup plus courant, d’après mon expérience, de voir des données déformées. Quand je dis cela, je ne parle pas des journaux qui se trompent (ce qu’ils font, presque toujours). Je fais allusion au fait que, souvent, les données ne disent pas ce que les chercheurs pensent qu’ils disent. Je pense que, presque toujours, ce n’est pas le résultat d’une malhonnêteté délibérée, mais plutôt d’un manque de sophistication dans l’analyse des données. Repensez, par exemple, au paradoxe de Simpson dont j’ai parlé au début de ce livre. Il est très courant de voir des gens présenter des données « agrégées » d’une sorte ou d’une autre et parfois, lorsque vous creusez plus profondément et que vous trouvez les données brutes, vous constatez que les données agrégées racontent une histoire différente des données désagrégées. Par ailleurs, il se peut que vous découvriez qu’un aspect des données est caché parce qu’il raconte une histoire gênante (p. ex. le chercheur peut choisir de ne pas faire référence à une variable particulière). Il y a beaucoup de variantes à ce sujet, dont beaucoup sont très difficiles à détecter.
Erreur de conception. D’accord, celle-ci est subtile. Le problème ici, c’est essentiellement qu’un chercheur conçoit une étude qui comporte des lacunes et que ces lacunes ne sont jamais signalées dans la revue. Les données qui sont rapportées sont tout à fait réelles et correctement analysées, mais elles sont produites par une étude qui est en fait très mal faite. Le chercheur veut vraiment trouver un effet particulier et c’est pourquoi l’étude est conçue de manière à ce qu’il soit « facile » d’observer (artefactuellement) cet effet. Une façon sournoise de le faire, au cas où vous auriez envie de vous lancer dans un peu de fraude, est de concevoir une expérience dans laquelle il est évident pour les participants de faire ce qu’ils sont « censés » faire, puis de laisser la réactivité faire son effet magique pour vous. Si vous le souhaitez, vous pouvez ajouter tous les pièges de l’expérimentation en double aveugle, mais cela ne changera rien puisque le matériel d’étude lui-même dit subtilement aux gens ce que vous voulez qu’ils fassent. Lorsque vous rédigez les résultats, la fraude n’est pas évidente pour le lecteur. Ce qui est évident pour le participant lorsqu’il est dans le contexte expérimental ne l’est pas toujours pour la personne qui lit l’article. Bien sûr, la façon dont je l’ai décrit donne l’impression que c’est toujours de la fraude. Il y a probablement des cas où cela est fait délibérément, mais d’après mon expérience, il est plus probable que cela relève d’une mauvaise conception non intentionnelle. Le chercheur y croit et il se trouve que l’étude finit par présenter un défaut qui s’efface comme par magie lorsque l’étude est rédigée en vue de sa publication.
Exploration de données et hypothèses post hoc. Une autre façon dont les auteurs d’une étude peuvent plus ou moins déformer les données est de s’engager dans ce qu’on appelle le « data mining » (voir Gelman and Loken 2014) pour une discussion plus large à ce sujet dans le cadre du « jardin aux sentiers qui bifurquent » en analyse statistique]. Comme nous le verrons plus loin, si vous continuez à essayer d’analyser vos données de différentes manières, vous finirez par trouver quelque chose qui « ressemble » à un effet réel mais ne l’est pas. C’est ce qu’on appelle le « data mining ». Auparavant, c’était assez rare parce que l’analyse des données prenait des semaines, mais maintenant que tout le monde a un logiciel statistique très puissant sur son ordinateur, c’est devenu très courant. L’exploration de données en soi n’est pas « fausse », mais plus vous en faites, plus le risque que vous prenez est grand. Ce qui ne va pas, et je soupçonne que c’est très courant, c’est l’exploration de données non reconnue. C’est-à-dire que le chercheur effectue toutes les analyses possibles connues de l’humanité, trouve celle qui fonctionne et prétend ensuite que c’est la seule analyse qu’il ait jamais faite. Pire encore, ils « inventent » souvent une hypothèse après avoir examiné les données pour masquer le data mining. Pour être clair. Il n’y a pas de mal à changer de croyance après avoir regardé les données et à réanalyser vos données à l’aide de vos nouvelles hypothèses « post hoc ». Ce qui ne va pas (et je soupçonne que c’est courant), c’est de ne pas reconnaître que vous l’avez fait. Si vous reconnaissez que vous l’avez fait, d’autres chercheurs pourront tenir compte de votre comportement. Si vous ne le faites pas, ils ne peuvent pas. Cela rend votre comportement trompeur.
Biais de publication et autocensure. Enfin, un biais omniprésent est le fait de « ne pas rapporter « les résultats négatifs. C’est presque impossible à prévenir. Les revues ne publient pas tous les articles qui leur sont soumis. Ils préfèrent publier des articles qui trouvent « quelque chose ». Donc, si 20 personnes font une expérience pour savoir si la lecture de Finnegans Wake cause de la folie chez les humains, et que 19 d’entre elles découvrent que ce n’est pas le cas, laquelle d’entre elles sera publiée selon vous ? Évidemment, c’est la seule étude qui a trouvé que Finnegans Wake cause la folie. Il s’agit d’un¹⁴ exemple de biais de publication. Comme personne n’a jamais publié les 19 études qui n’ont pas trouvé d’effet, un lecteur naïf ne saurait jamais qu’elles existent. Pire encore, la plupart des chercheurs « internalisent » ce biais et finissent par autocensurer leurs recherches. Sachant que les résultats négatifs ne seront pas acceptés pour publication, ils n’essaient même pas de les rapporter. Comme le dit un de mes amis « pour chaque expérience publiée, vous avez aussi 10 échecs ». Et elle a raison. Le piège, c’est que si certaines (peut-être la plupart) de ces études sont des échecs pour des raisons sans intérêt (par exemple, vous avez fait une erreur), d’autres peuvent être de véritables résultats « nuls » que vous devriez reconnaître lorsque vous rédigez la « bonne » expérience. Et dire quoi est ce qui est souvent difficile à faire. Un bon point de départ est un article de Ioannidis (2005) intitulé « Why most published research findings are false ». Je suggère également de jeter un coup d’œil aux travaux de Kühberger, Fritz et Scherndl (2014) qui ont montré statistiquement que cela se produit effectivement en psychologie.

Il y a probablement beaucoup d’autres questions de ce genre auxquelles il faut penser, mais cela fera l’affaire pour commencer. Ce que je veux vraiment souligner, c’est la vérité aveuglante et évidente que la science du monde réel est menée par de vrais humains, et que seuls les plus crédules d’entre nous supposent automatiquement que tout le monde est honnête et impartial. Les scientifiques actuels ne sont généralement pas si naïfs que ça, mais pour une raison quelconque, le monde aime faire semblant de l’être, et les manuels scolaires que nous écrivons habituellement semblent renforcer ce stéréotype.

2.8 Résumé

Ce chapitre n’a pas vraiment pour but de fournir une discussion exhaustive des méthodes de recherche en psychologie. Il faudrait un autre volume aussi long que celui-ci pour rendre justice au sujet. Cependant, dans la vie réelle, les statistiques et la conception des études sont si étroitement liées qu’il est très important de discuter de certains des sujets clés. Dans ce chapitre, j’ai abordé brièvement les sujets suivants :

Introduction à la mesure psychologique (Section 2.1). Que signifie opérationnaliser une construction théorique ? Que signifie avoir des variables et faire des mesures ?
Échelles de mesure et types de variables (section 2.2). Rappelez-vous qu’il y a ici deux distinctions différentes. Il y a la différence entre les données discrètes et continues, et il y a la différence entre les quatre différents types d’échelle (nominale, ordinale, intervalle et ratio).
Fiabilité d’une mesure (section 2.3). Si je mesure deux fois la même chose, dois-je m’attendre à voir le même résultat ? Seulement si ma mesure est fiable. Mais qu’est-ce que cela signifie de parler de faire la « même chose » ? C’est pourquoi nous avons différents types de fiabilité. Ne l’oubliez pas.
Terminologie : prédicteurs et résultats (Section 2.4). Quels rôles les variables jouent-elles dans une analyse ? Pouvez-vous vous rappeler la différence entre les prédicteurs et les résultats ? Variables dépendantes et indépendantes ? Etc.
Plans de recherche expérimentaux et non expérimentaux (section 2.5). Qu’est-ce qui fait qu’une expérience est une expérience ? S’agit-il d’une belle blouse blanche ou est-ce que cela a quelque chose à voir avec le contrôle des variables par les chercheurs ?
Validité et menaces (section 2.6). Votre étude mesure-t-elle ce que vous voulez qu’elle fasse ? Comment les choses peuvent-elles mal tourner ? Et est-ce mon imagination, ou était-ce une très longue liste de façons possibles dont les choses peuvent mal tourner ?

Tout cela devrait vous indiquer clairement que la conception de l’étude est un élément essentiel de la méthodologie de recherche. J’ai construit ce chapitre à partir du petit livre classique de Campbell et al (1963), mais il y a bien sûr un grand nombre de manuels sur la conception de la recherche. Passez quelques minutes avec votre moteur de recherche préféré et vous en trouverez des dizaines.

References

Adair, John G. 1984. “The Hawthorne Effect: A Reconsideration of the Methodological Artifact.” Journal of Applied Psychology 69 (2): 334–45. https://doi.org/10.1037/0021-9010.69.2.334.

Campbell, Donald Thomas, and Julian Cecil Stanley. 1967. Experimental and Quasi-Experimental Designs for Research. 2. print; Reprinted from "Handbook of research on teaching". Boston: Houghton Mifflin Comp.

Gelman, Andrew, and Eric Loken. 2014. “The Statistical Crisis in Science.” American Scientist 102 (November): 460. https://doi.org/10.1511/2014.111.460.

Hothersall, David. 2004. History of Psychology. New York: McGraw-Hill.

Ioannidis, John P A. 2005. “Why Most Published Research Findings Are False.” PLoS Medicine 2 (8): 6.

Kühberger, Anton, Astrid Fritz, and Thomas Scherndl. 2014. “Publication Bias in Psychology: A Diagnosis Based on the Correlation Between Effect Size and Sample Size.” PLOS ONE 9 (9): e105825. https://doi.org/10.1371/journal.pone.0105825.

Pfungst, Oskar. 1911. Clever Hans (the Horse of Mr. Von Osten) a Contribution to Experimental Animal and Human Psychology, New York, H. Holt and company.

Allocution présidentielle au premier Congrès indien de la statistique, 1938. Source : https://en.wikiquote.org/wiki/Ronald_Fisher ↩︎
C’est ennuyeux. Cette section est l’une des parties les plus anciennes du livre, et elle est dépassée et plutôt embarrassante. Je l’ai écrit en 2010, date à laquelle tous ces faits étaient véridiques. En 2018, je n’ai plus 33 ans, mais ce n’est pas surprenant. Je ne peux pas imaginer que mes chromosomes ont changé, alors je vais supposer que mon caryotype était alors et est maintenant XY. Le genre auto-identifié, d’un autre côté… ah. Je suppose que le fait que la page de garde me désigne maintenant comme Danielle plutôt que Daniel pourrait être un indice, mais je ne m’identifie généralement pas comme un " homme " dans un questionnaire sur le genre aujourd’hui, et je préfère les pronoms *" elle/il “* par défaut (c’est une longue histoire) ! En fait, j’ai réfléchi un peu à la façon dont j’allais gérer ça dans le livre. Le livre a une voix d’auteur quelque peu distincte, et j’ai l’impression que ce serait un travail assez différent si j’écrivais tout comme Danielle et mettais à jour tous les pronoms de l’ouvrage. Mais ce serait beaucoup de travail, donc j’ai laissé”Dan" commen étant nom tout au long du livre, d’autant que “Dan” est un excellent surnom pour “Danielle”. Ce n’est pas très important. Je voulais seulement le mentionner pour faciliter la vie des lecteurs qui ne savent pas trop comment se référer à moi. Je n’aime toujours pas les anchois quand même:-)↩︎
En fait, des lecteurs ayant plus de connaissances en physique que moi m’ont dit que la température n’est pas strictement une échelle d’intervalle, dans le sens où la quantité d’énergie nécessaire pour chauffer quelque chose de 3°C dépend de sa température actuelle. Donc, dans la mesure où les physiciens y attachent de l’importance, la température n’est pas vraiment une échelle d’intervalle. Mais ça constitue quand même un bel exemple, je vais donc ignorer cette petite vérité gênante.↩︎
Ah, la psychologie…jamais une réponse facile à quoi que ce soit !↩︎
L’ennui, c’est qu’il y a beaucoup de noms différents qui sont utilisés. Je ne les énumérerai pas tous - cela ne servirait à rien de le faire - si ce n’est de noter que “variable réponse” est parfois utilisée là où j’ai utilisé “résultat”. Ce genre de confusion terminologique est très courant, je le crains.↩︎
La raison pour laquelle je dis que ce n’est pas mesuré, c’est que si vous l’avez mesuré, vous pouvez utiliser des astuces statistiques fantaisistes pour faire face au facteur de confusion. En raison de l’existence de ces solutions statistiques au problème des variables de confusion, nous faisons souvent référence à un facteur de confusion que nous avons mesuré et traité comme une covariable. Traiter des covariables est un sujet plus avancé, mais j’ai pensé le mentionner en passant, car c’est plutôt réconfortant de savoir au moins que ce genre de chose existe.↩︎
Certains diront que si vous n’êtes pas honnête, vous n’êtes pas un vrai scientifique. Ce qui est vrai en partie, je suppose, mais c’est malhonnête (regardez l’erreur “No true Scotsman”). Le fait est qu’il y a beaucoup de gens qui sont ostensiblement employés en tant que scientifiques, et dont le travail a tous les attributs de la science, mais qui sont carrément frauduleux. Prétendre qu’ils n’existent pas en disant qu’ils ne sont pas des scientifiques, c’est un raisonnement confus.↩︎
De toute évidence, l’effet réel est que seuls les fous essaieraient même de lire Finnegans Wake.↩︎