Chapitre 17 Épilogue
« Commencez par le commencement », dit le roi, très sérieusement, et continuez jusqu’à la fin, puis arrêtez ». - Lewis Carroll
C’est un peu étrange d’écrire ce chapitre, et plus qu’un peu inapproprié. Un épilogue, c’est ce que vous écrivez quand un livre est terminé, et ce livre n’est vraiment pas fini. Il manque encore beaucoup de choses dans ce livre. Il n’a pas encore d’index. Il manque beaucoup de références. Il n’y a pas d’exercices « faites-le vous-même ». Et en général, je pense qu’il y a beaucoup de choses qui ne vont pas dans la présentation, l’organisation et le contenu de ce livre. Compte tenu de tout cela, je ne veux pas essayer d’écrire un « bon » épilogue. Je n’ai pas encore terminé la rédaction du contenu de fond, donc il n’est pas logique d’essayer de tout rassembler. Mais cette version du livre sera mise en ligne pour que les élèves puissent l’utiliser, et vous pourrez peut-être en acheter une copie papier aussi, alors je veux au moins lui donner un vernis de fermeture. Alors, allons-y, d’accord ?
17.1 Les statistiques non découvertes
Tout d’abord, je vais parler un peu du contenu que j’aurais aimé avoir la chance de creuser dans cette version du livre, juste pour que vous puissiez vous faire une idée des autres notions qui existent dans le monde des statistiques. Je pense que ce serait important même si ce livre se rapproche d’un produit final. Les étudiants ne réalisent souvent pas que leurs cours d’introduction à la statistique ne sont qu’une introduction. Si vous voulez aller faire de l’analyse de données réelles, vous devez apprendre un tas de nouveaux outils qui étendent le contenu de vos cours de premier cycle de multiples façons différentes. Ne présumez pas qu’on ne peut pas faire quelque chose simplement parce qu’il n’a pas été couvert par le programme de premier cycle. Ne présumez pas qu’une chose est bonne à faire juste parce qu’elle a été traitée dans un cours de premier cycle. Pour vous éviter d’être victime de ce piège, je pense qu’il est utile de donner un aperçu de certaines des autres idées existantes.
17.1.1 Omissions à l’intérieur des sujets couverts
Même parmi les sujets que j’ai couverts dans le livre, il y a beaucoup d’omissions que j’aimerais corriger dans la future version du livre. Je m’en tiendrai à ce qui est purement statistique (plutôt qu’à ce qui est associé à Jamovi), voici une liste représentative, mais non exhaustive, de sujets sur lesquels j’aimerais m’étendre à un moment donné :
Autres types de corrélations. Au chapitre 4, j’ai parlé de deux types de corrélation : Pearson et Spearman. Ces deux méthodes d’évaluation de la corrélation s’appliquent au cas où vous avez deux variables continues et voulez évaluer la relation entre elles. Qu’en est-il du cas où vos variables sont toutes les deux sur une échelle nominale ? Ou lorsque l’une est nominale et l’autre est continue ? Il existe en fait des méthodes de calcul des corrélations dans de tels cas (par exemple, la corrélation polychorique), et il serait bon de les voir incluses.
Plus de détails sur les tailles d’effet. En général, je pense que le traitement de la taille de l’effet tout au long du livre est un peu plus superficiel qu’il ne devrait l’être. Dans presque tous les cas, j’ai eu tendance à ne choisir qu’une seule mesure de la taille de l’effet (habituellement la plus populaire) et à décrire cela. Cependant, pour presque tous les tests et modèles, il existe de multiples façons de penser la taille de l’effet, et j’aimerais les présenter plus en détail dans l’avenir.
Faire face à des suppositions violées. A plusieurs endroits dans le livre, j’ai parlé de ce que vous pouvez faire lorsque vous constatez que les hypothèses de votre test (ou modèle) sont violées, mais je pense que je devrais en dire plus à ce sujet. En particulier, je pense qu’il aurait été sympa de parler beaucoup plus en détail de la façon dont vous pouvez transformer des variables pour résoudre des problèmes. J’en ai parlé un peu aux sections 6.3 et 6.4, mais la discussion n’est pas assez détaillée, je pense.
Termes d’interaction pour la régression. Au chapitre 14, j’ai parlé du fait que l’on peut avoir des termes d’interaction dans une analyse de variance, et j’ai également souligné que l’analyse de variance peut être interprétée comme une sorte de modèle de régression linéaire. Pourtant, lorsque j’ai parlé de régression au chapitre 12, je n’ai pas du tout parlé des interactions. Cependant, rien ne vous empêche d’inclure des termes d’interaction dans un modèle de régression. C’est juste un peu plus compliqué de comprendre ce qu’une « interaction » signifie réellement quand on parle de l’interaction entre deux prédicteurs continus, et cela peut être fait de plus d’une façon. Malgré tout, j’aurais aimé en parler un peu.
Méthode de comparaison planifiée. Comme je l’ai mentionné au chapitre 14, il n’est pas toujours approprié d’utiliser une correction post hoc comme le HSD de Tukey lors d’une analyse de variance, surtout lorsque vous aviez une série de comparaisons très claire (et limitée) à laquelle vous teniez avant le début. J’aimerais en parler davantage à l’avenir.
Méthodes de comparaison multiples. Même dans le contexte des tests post hoc et des comparaisons multiples, j’aurais aimé parler plus en détail des méthodes et parler des autres méthodes qui existent à part les quelques options que j’ai mentionnées.
17.1.2 Modèles statistiques manquants dans le livre
La statistique est un domaine énorme. Les outils de base que j’ai décrits dans ce livre (tests du chi carré, tests t, régression et ANOVA) sont des outils de base qui sont largement utilisés dans l’analyse quotidienne des données, et ils forment le noyau de la plupart des livres de statistiques d’introduction. Cependant, il existe bien d’autres outils. Il y a tellement de situations d’analyse de données que ces outils ne couvrent pas, et ce serait formidable de vous donner une idée de ce qu’il en reste, par exemple :
Régression non linéaire. Lorsque nous avons discuté de la régression au chapitre 12, nous avons vu que la régression suppose que la relation entre les prédicteurs et les résultats est linéaire. D’autre part, lorsque nous avons parlé du problème plus simple de la corrélation au chapitre 4, nous avons vu qu’il existe des outils (p. ex., les corrélations de Spearman) qui permettent d’évaluer les relations non linéaires entre les variables. Il existe un certain nombre d’outils statistiques qui peuvent être utilisés pour effectuer une régression non linéaire. Par exemple, certains modèles de régression non linéaire supposent que la relation entre les prédicteurs et les résultats est monotone (p. ex., régression isotonique), tandis que d’autres supposent qu’elle est lisse mais pas nécessairement monotone (p. ex., régression Lowess), tandis que d’autres supposent que la relation a une forme connue qui est non linéaire (p. ex. régression polynomiale).
Régression logistique. Une autre variation de la régression se produit lorsque la variable de résultat est binaire, mais que les prédicteurs sont continus. Supposons, par exemple, que vous enquêtiez sur les médias sociaux et que vous vouliez savoir s’il est possible de prédire si quelqu’un est sur Twitter en fonction de son revenu, de son âge et d’une série d’autres variables. Il s’agit essentiellement d’un modèle de régression, mais vous ne pouvez pas utiliser la régression linéaire standard parce que la variable résultat est binaire (vous êtes sur Twitter ou vous ne l’êtes pas). Comme la variable résultat est binaire, il n’est pas possible que les résidus puissent être distribués normalement. Les statisticiens peuvent appliquer un certain nombre d’outils à cette situation, dont le plus important est la régression logistique.
Le modèle linéaire général (GLM). Le GLM est en fait une famille de modèles qui inclut la régression logistique, la régression linéaire, (certaines) régressions non linéaires, ANOVA et beaucoup d’autres. L’idée de base du GLM est essentiellement la même que celle qui sous-tend les modèles linéaires, mais elle tient compte de l’idée que vos données pourraient ne pas être normalement distribuées et permet des relations non linéaires entre les prédicteurs et les résultats. Il y a beaucoup d’analyses très pratiques que vous pouvez effectuer dans le cadre du GLM, c’est donc une chose très utile à savoir.
Analyse de survie. Au chapitre 2, j’ai parlé de « l’attrition différentielle », la tendance des gens à quitter l’étude de façon non aléatoire. À l’époque, j’en parlais comme d’un problème méthodologique potentiel, mais il y a beaucoup de situations où l’attrition différentielle est en fait ce qui vous intéresse. Supposons, par exemple, que vous souhaitiez savoir combien de temps les gens jouent à différents types de jeux informatiques au cours d’une même session. Les gens ont-ils tendance à jouer à des jeux RTS (stratégie en temps réel) pour des durées plus longues que les jeux FPS (tir à la première personne) ? Vous pourriez concevoir votre étude comme ceci. Les gens viennent au laboratoire et peuvent jouer aussi longtemps ou aussi peu qu’ils le souhaitent. Une fois qu’ils ont terminé, vous enregistrez le temps qu’ils ont passé à jouer. Cependant, en raison de restrictions éthiques, supposons que vous ne puissiez pas les laisser jouer plus de deux heures. Beaucoup de gens arrêteront de jouer avant la limite de deux heures, donc vous savez exactement combien de temps ils ont joué. Mais certaines personnes se heurteront à la limite de deux heures, et vous ne savez donc pas combien de temps elles auraient continué à jouer si vous aviez été en mesure de continuer l’étude. En conséquence, vos données sont systématiquement censurées : vous manquez toutes les très longues périodes. Comment analysez-vous judicieusement ces données ? C’est le problème que résout l’analyse de survie. Il est spécialement conçu pour faire face à cette situation, où il vous manque systématiquement un « côté » des données parce que l’étude a pris fin. Il est très largement utilisé dans la recherche en santé et, dans ce contexte, il est souvent utilisé littéralement pour analyser la survie. Par exemple, vous pouvez suivre des personnes atteintes d’un type particulier de cancer, certaines qui ont reçu le traitement A et d’autres qui ont reçu le traitement B, mais vous n’avez de financement que pour les suivre pendant 5 ans. À la fin de la période d’étude, certaines personnes sont vivantes, d’autres non. Dans ce contexte, l’analyse de survie est utile pour déterminer quel traitement est le plus efficace et vous informer du risque de décès auquel les gens font face au fil du temps.
Modèles mixtes. Les ANOVA pour mesures répétées sont souvent utilisées dans des situations où vous avez des observations regroupées au sein d’unités expérimentales. Un bon exemple de ceci est lorsque vous suivez des individus à plusieurs reprises dans le temps. Disons que vous suivez le bonheur dans le temps, pour deux personnes. Le bonheur d’Aaron commence à 10 ans, puis descend à 8 ans, puis à 6 ans. Le bonheur de Belinda commence à 6 ans, puis monte à 8 et ensuite à 10 ans. Ces deux personnes ont le même niveau « global » de bonheur (la moyenne sur les trois points dans le temps est de 8), une analyse ANOVA pour mesures répétées traiterait Aaron et Belinda de la même manière. Mais c’est clairement faux. Le bonheur d’Aaron diminue, tandis que celui de Belinda augmente. Si vous voulez analyser de façon optimale les données d’une expérience où les gens peuvent changer au fil du temps, vous avez besoin d’un outil plus puissant que les ANOVA pour mesures répétées. Les outils que les gens utilisent pour résoudre ce problème sont appelés modèles « mixtes », parce qu’ils sont conçus pour apprendre à connaître les unités expérimentales individuelles (par exemple, le bonheur des individus dans le temps) ainsi que les effets globaux (par exemple, l’effet de l’argent sur le bonheur dans le temps). Les ANOVA pour mesures répétées est peut-être l’exemple le plus simple d’un modèle mixte, mais il y a beaucoup de choses que vous pouvez faire avec des modèles mixtes que vous ne pouvez pas faire avec des mesures répétées ANOVA.
Mise à l’échelle multidimensionnelle. L’analyse factorielle est un exemple de modèle « d’apprentissage non supervisé ». Cela signifie que, contrairement à la plupart des outils « d’apprentissage supervisé » que j’ai mentionnés, vous ne pouvez pas diviser vos variables en prédicteurs et en résultats. La régression est un apprentissage supervisé alors que l’analyse factorielle est un apprentissage non supervisé. Ce n’est cependant pas le seul type de modèle d’apprentissage non supervisé. Par exemple, dans l’analyse factorielle, on s’intéresse à l’analyse des corrélations entre les variables. Cependant, il existe de nombreuses situations où vous êtes réellement intéressé à analyser les similitudes ou les dissemblances entre des objets, des objets ou des personnes. Il existe un certain nombre d’outils que vous pouvez utiliser dans cette situation, dont le plus connu est la mise à l’échelle multidimensionnelle (MDS). Dans MDS, l’idée est de trouver une représentation « géométrique » de vos objets. Chaque élément est « tracé » comme un point dans un certain espace, et la distance entre deux points est une mesure de la dissemblance de ces éléments.
Regroupement. Un autre exemple de modèle d’apprentissage non supervisé est le regroupement (également appelé classification), dans lequel vous voulez organiser tous vos éléments en groupes significatifs, de sorte que des éléments similaires soient affectés aux mêmes groupes. Beaucoup de regroupements ne sont pas supervisés, ce qui signifie que vous ne savez rien de ce que sont les groupes, vous n’avez qu’à deviner. Il y a d’autres situations de « regroupement supervisé » où il faut prédire l’appartenance à un groupe à partir d’autres variables, et ces appartenances à un groupe sont en fait observables. La régression logistique est un bon exemple d’un outil qui fonctionne de cette façon. Cependant, lorsque vous ne connaissez pas vraiment les appartenances des groupes, vous devez utiliser différents outils (par exemple, k-means clustering). Il y a même des situations où vous voulez faire quelque chose que l’on appelle « regroupement semi-supervisé », dans lesquelles vous connaissez l’appartenance à un groupe pour certains éléments mais pas pour d’autres. Comme vous pouvez probablement le deviner, le clustering est un sujet assez important, et assez utile à connaitre.
Modèles causaux. Une chose dont je n’ai pas beaucoup parlé dans ce livre est la façon dont vous pouvez utiliser la modélisation statistique pour en apprendre davantage sur les relations causales entre les variables. Par exemple, considérez les trois variables suivantes qui peuvent être intéressantes lorsque vous pensez à la façon dont quelqu’un est mort dans un peloton d’exécution. Nous pourrions vouloir mesurer si un ordre d’exécution a été donné (variable A), si un tireur d’élite a tiré ou non avec son arme (variable B), et si la personne a été touchée ou non par une balle (variable C). Ces trois variables sont toutes corrélées les unes aux autres (c.-à-d. il existe une corrélation entre les armes à feu utilisées et les personnes qui sont frappées par des balles), mais nous voulons en parler de façon plus précise que simplement parler de corrélations. Nous voulons parler de causalité. Nous voulons pouvoir dire que l’ordre d’exécution (A) fait tirer le tireur d’élite (B), ce qui fait que quelqu’un se fait tirer dessus (C). Nous pouvons l’exprimer par une notation de flèche dirigée : nous l’écrivons comme \(A \rightarrow B \rightarrow C\). Cette « chaîne causale » est une explication fondamentalement différente des événements que celle dans laquelle le tireur tire d’abord, ce qui provoque le tir \(B \rightarrow C\), et ensuite amène le bourreau à émettre « rétroactivement » l’ordre d’exécution, \(B \rightarrow A\) . Ce modèle « effet commun » dit que A et C sont tous deux causés par B. Vous pouvez voir pourquoi ceux-ci sont différents. Dans le premier modèle causal, si nous avions réussi à empêcher le bourreau d’émettre l’ordre (en intervenant pour changer A), il n’y aurait pas eu de fusillade. Dans le deuxième modèle, le tir se serait produit de toute façon parce que le tireur ne suivait pas l’ordre d’exécution. Il existe une abondante documentation statistique sur la façon de comprendre les relations causales entre les variables, et un certain nombre d’outils différents existent pour vous aider à tester différentes hypothèses causales sur vos données. Le plus largement utilisé de ces outils (du moins en psychologie) est la modélisation des équations structurelles (SEM), et à un moment donné, j’aimerais étendre le livre pour en parler.
Bien sûr, même cette liste est incomplète. Je n’ai pas mentionné l’analyse des séries chronologiques, la théorie de la réponse aux questions, l’analyse du panier de consommation, les arbres de classification et de régression, ni aucun autre sujet parmi une vaste gamme d’autres. Cependant, la liste que j’ai donnée ci-dessus est essentiellement ma liste de souhaits pour ce livre. Bien sûr, cela doublerait la longueur du livre, mais cela signifierait que la portée est devenue assez large pour couvrir la plupart des choses que les chercheurs appliqués en psychologie devraient utiliser.
17.1.3 Autres façons de faire des inférences
Une autre raison pour laquelle ce livre est incomplet est qu’il se concentre assez fortement sur une vision très étroite et démodée de la façon dont les statistiques inférentielles devraient être faites. Au chapitre 8, j’ai parlé un peu de l’idée d’estimateurs non biaisés, de distributions d’échantillonnage, etc. Au chapitre 9, j’ai parlé de la théorie des tests de signification des hypothèses nulles et des valeurs p. Ces idées existent depuis le début du XXe siècle, et les outils dont j’ai parlé dans le livre s’appuient beaucoup sur les idées théoriques de l’époque. Je me suis senti obligé de m’en tenir à ces sujets parce que la grande majorité de l’analyse des données scientifiques repose également sur ces idées. Cependant, la théorie des statistiques ne se limite pas à ces sujets et, bien que tout le monde devrait les connaître en raison de leur importance pratique, à bien des égards, ces idées ne représentent pas les meilleures pratiques pour l’analyse contemporaine des données. L’une des choses dont je suis particulièrement heureux, c’est que j’ai été capable d’aller un peu plus loin. Le chapitre 15 présente maintenant la perspective bayésienne avec un volume raisonnable de détails, mais le livre dans son ensemble est encore assez fortement orienté vers l’orthodoxie fréquentiste. En outre, il existe un certain nombre d’autres méthodes d’inférence qui méritent d’être mentionnées :
Bootstrapping. Tout au long du livre, chaque fois que j’ai introduit un test d’hypothèse, j’ai eu une forte tendance à faire des affirmations comme « la distribution d’échantillonnage pour BLAH est une distribution t» ou quelque chose comme ça. Dans certains cas, j’ai même tenté de justifier cette affirmation. Par exemple, lorsque j’ai parlé des tests \(\chi^{2}\) au chapitre 10, j’ai fait référence à la relation connue entre les distributions normales et les distributions \(\chi^{2}\) (voir chapitre 7) pour expliquer comment nous en arrivons à supposer que la distribution d’échantillonnage de la statistique d’ajustement est \(\chi^{2}\). Cependant, il est également vrai qu’un grand nombre de ces distributions d’échantillonnage sont, eh bien, erronées. Le test \(\chi^{2}\) en est un bon exemple. Elle est basée sur une hypothèse concernant la distribution de vos données, une hypothèse que l’on sait fausse pour des échantillons de petite taille ! Au début du XXe siècle, on ne pouvait pas faire grand-chose contre cette situation. Les statisticiens avaient développé des modèles mathématiques qui disaient que « selon les hypothèses BLAH au sujet des données, la distribution d’échantillonnage est approximativement BLAH », et c’était à peu près le mieux que vous pouviez faire. Souvent, ils n’avaient même pas ça. Il existe de nombreuses situations d’analyse de données pour lesquelles personne n’a trouvé de solution mathématique pour les distributions d’échantillonnage dont vous avez besoin. Ainsi, jusqu’à la fin du XXe siècle, les tests correspondants n’existaient pas ou ne fonctionnaient pas. Cependant, les ordinateurs ont changé tout cela maintenant. Il y a beaucoup de d’astuces sophistiquées, et certaines moins sophistiqués, que vous pouvez utiliser pour les contourner. Le plus simple d’entre eux est le bootstrapping, et dans sa forme la plus simple c’est incroyablement simple. Ce que vous faites, c’est simuler les résultats de vos expériences à maintes et maintes reprises, en supposant que l’hypothèse nulle est vraie et (b) la distribution inconnue de la population ressemble en fait à celle de vos données brutes. En d’autres termes, au lieu de supposer que les données sont (par exemple) distribuées normalement, supposez simplement que la population ressemble à votre échantillon, puis utilisez des ordinateurs pour simuler la distribution d’échantillonnage pour votre statistique de test si cette hypothèse tient. Bien qu’il repose sur une hypothèse quelque peu douteuse (c.-à-d. que la distribution de la population est la même que celle de l’échantillon !), le bootstrapping est une méthode rapide et facile qui fonctionne remarquablement bien dans la pratique pour de nombreux problèmes d’analyse de données.
Validation croisée. Une question qui surgit de temps en temps dans mes cours de statistiques, habituellement par un étudiant qui essaie d’être provocateur, est « Pourquoi nous soucions-nous des statistiques inférentielles ? Pourquoi ne pas simplement décrire votre échantillon ? » La réponse à la question est généralement la suivante : « Parce que notre véritable intérêt en tant que scientifiques n’est pas l’échantillon spécifique que nous avons observé dans le passé, nous voulons faire des prédictions sur les données que nous pourrions observer » à l’avenir ». Un grand nombre des problèmes liés à l’inférence statistique découlent du fait que nous nous attendons toujours à ce que l’avenir soit semblable au passé, mais un peu différent. Ou, plus généralement, les nouvelles données ne seront pas tout à fait les mêmes que les anciennes. Ce que nous faisons, dans bien des situations, c’est d’essayer de dériver des règles mathématiques qui nous aident à tirer les inférences qui sont les plus susceptibles d’être correctes pour de nouvelles données, plutôt que de choisir les énoncés qui décrivent le mieux les anciennes données. Par exemple, compte tenu de deux modèles A et B et d’un ensemble de données X que vous avez recueilli aujourd’hui, essayez de choisir le modèle qui décrira le mieux un nouvel ensemble de données Y que vous allez recueillir demain. Parfois, il est pratique de simuler le processus, et c’est ce que fait la validation croisée. Ce que vous faites est de diviser votre ensemble de données en deux sous-ensembles, X1 et X2. Utiliser le sous-ensemble X1 pour former le modèle (par exemple, estimer les coefficients de régression), mais évaluer ensuite la performance du modèle sur X2. Cela vous donne une mesure de la qualité de la généralisation du modèle d’un ancien ensemble de données à un nouvel ensemble, et c’est souvent une meilleure mesure de la qualité de votre modèle que si vous l’ajustez simplement à l’ensemble complet de données X.
Statistiques robustes. La vie est désordonnée, et rien ne fonctionne vraiment comme prévu. C’est tout aussi vrai pour les statistiques que pour n’importe quoi d’autre, et lorsque nous essayons d’analyser des données, nous sommes souvent confrontés à toutes sortes de problèmes dans lesquels les données sont tout simplement plus confuses qu’elles ne sont censées l’être. Les variables qui sont censées être distribuées normalement ne sont pas distribuées normalement, les relations qui sont censées être linéaires ne le sont pas et certaines des observations de votre ensemble de données sont presque certainement de la camelote (c.-à-d. qu’elles ne mesurent pas ce à quoi elles sont censées servir). Tout ce désordre est ignoré dans la plupart des théories statistiques que j’ai développées dans ce livre. Cependant, ignorer un problème ne le résout pas toujours. Parfois, il n’y a pas de mal à ignorer la pagaille, car certains types d’outils statistiques sont « robustes », c’est-à-dire que si les données ne satisfont pas vos hypothèses théoriques, elles fonctionnent tout de même assez bien. D’autres types d’outils statistiques ne sont pas robustes, et même des écarts mineurs par rapport aux hypothèses théoriques entraînent leur rupture. Les statistiques robustes sont une branche des statistiques concernées par cette question, et elles abordent des choses comme le « point de rupture » d’une statistique. En d’autres termes, dans quelle mesure vos données doivent-elles être imparfaites avant que l’on ne puisse faire confiance aux statistiques ? J’en ai parlé à certains endroits. La moyenne n’est pas un estimateur robuste de la tendance centrale d’une variable, mais la médiane l’est. Par exemple, supposons que je vous dise que mes cinq meilleurs amis ont 34, 39, 31, 43 et 4003 ans. Quel âge pensez-vous qu’ils ont en moyenne ? Autrement dit, qu’est-ce que la vraie population signifie ici ? Si vous utilisez la moyenne de l’échantillon comme estimateur de la moyenne de la population, vous obtenez une réponse de 830 ans. Si vous utilisez la médiane de l’échantillon comme estimateur de la moyenne de la population, vous obtenez une réponse de 39 ans. Remarquez que, même si vous faites « techniquement » la mauvaise chose dans le second cas (en utilisant la médiane pour estimer la moyenne !), vous obtenez en fait une meilleure réponse. Le problème ici, c’est que l’une des observations est clairement, évidemment, erronée. Je n’ai pas d’ami âgé de 4003 ans. C’est probablement une faute de frappe, je voulais probablement taper 43. Mais si j’avais tapé 53 au lieu de 43, ou 34 au lieu de 43 ? Pourriez-vous savoir si c’était une faute de frappe ou non ? Parfois, les erreurs dans les données sont subtiles, donc vous ne pouvez pas les détecter simplement en observant l’échantillon, mais ce sont quand même des erreurs qui contaminent vos données, et elles affectent toujours vos conclusions. De statistiques robustes s’intéressent à la façon dont vous pouvez faire des déductions sûres, même lorsque vous êtes confronté à une contamination que vous ne connaissez pas. C’est plutôt cool.
17.1.4 Sujets divers
Données manquantes. Supposons que vous faites un sondage et que vous vous intéressez à l’exercice et au poids. Vous envoyez des données à quatre personnes. Adam dit qu’il fait beaucoup d’exercice et qu’il n’est pas en surpoids. Briony dit qu’elle fait beaucoup d’exercice et qu’elle n’est pas en surpoids. Carol dit qu’elle ne fait pas d’exercice et qu’elle a de l’embonpoint. Dan dit qu’il ne fait pas d’exercice et refuse de répondre à la question sur son poids. Elaine ne retourne pas le questionnaire. Vous avez maintenant un problème de données manquantes. Il manque une enquête entière, et une question d’une autre, Que faites-vous pour cela ? Ignorer les données manquantes n’est pas, en général, une solution sûre. Réfléchissons à l’enquête de Dan. Tout d’abord, remarquez que, d’après mes autres réponses, je ressemble plus à Carol (aucun de nous ne fait d’exercice) qu’à Adam ou Briony. Si vous deviez deviner mon poids, vous diriez que je suis plus proche d’elle que d’eux. Vous pourriez peut-être corriger le fait qu’Adam et moi sommes des hommes et que Briony et Carol sont des femmes. Le nom statistique de ce type de supposition est « imputation ». Il est difficile de procéder à l’imputation en toute sécurité, mais c’est important, surtout lorsque les données manquantes font défaut de façon systématique. Étant donné que les personnes en surpoids sont souvent poussées à se sentir mal par rapport à leur poids (souvent grâce à des campagnes de santé publique), nous avons en fait des raisons de soupçonner que les personnes qui ne répondent pas sont plus susceptibles d’être en surpoids que les personnes qui répondent. Imputer un poids à Dan signifie que le nombre de personnes en surpoids dans l’échantillon passera probablement de 1 sur 3 (si on ignore Dan) à 2 sur 4 (si on impute le poids de Dan). Il est clair que c’est important. Mais le faire raisonnablement est plus compliqué qu’il n’y paraît. Tout à l’heure, je vous ai suggéré de me traiter comme Carol, puisque nous avons donné la même réponse à la question de l’exercice. Mais ce n’est pas tout à fait juste. Il y a une différence systématique entre nous. Elle a répondu à la question, et je ne l’ai pas fait. Étant donné les pressions sociales auxquelles font face les personnes en surpoids, n’est-il pas probable que je sois plus obèse que Carol ? Et bien sûr, c’est toujours ignorer le fait qu’il n’est pas raisonnable de m’imputer un poids unique, comme si vous connaissiez réellement mon poids. Au lieu de cela, vous devez imputer une série de suppositions plausibles (appelées imputation multiple), afin de saisir le fait que vous êtes plus incertain au sujet de mon poids que vous ne l’êtes de celui de Carol. Et ne parlons pas du problème posé par le fait qu’Elaine n’a pas envoyé le sondage. Comme vous pouvez probablement le deviner, le traitement des données manquantes est un sujet de plus en plus important. En fait, on m’a dit qu’un grand nombre de revues dans certains domaines n’acceptent pas les études pour lesquelles il manque des données, à moins qu’un système d’imputation multiple raisonnable soit suivi.
Analyse de puissance. Au chapitre 9, j’ai discuté du concept de puissance (c.-à-d., dans quelle mesure êtes-vous pouvez de détecter un effet s’il existe réellement) et j’ai fait référence à l’analyse de la puissance, un ensemble d’outils qui sont utiles pour évaluer la puissance dont dispose votre étude. L’analyse de puissance peut être utile pour planifier une étude (p. ex. pour déterminer la taille de l’échantillon dont vous aurez probablement besoin), mais elle joue également un rôle utile dans l’analyse des données que vous avez déjà recueillies. Supposons, par exemple, que vous obteniez un résultat significatif et que vous ayez une estimation de la taille de votre effet. Vous pouvez utiliser cette information pour estimer la puissance réelle de votre étude. C’est un peu utile, surtout si votre taille d’effet n’est pas grande. Supposons, par exemple, que vous rejetiez l’hypothèse nulle à p< .05, mais vous utilisez l’analyse de puissance pour déterminer que votre puissance estimée n’était que de .08. Le résultat significatif signifie que, si l’hypothèse nulle était en fait vraie, il y avait 5 % de chances d’obtenir des données comme celle-ci. Mais la faible puissance signifie que, même si l’hypothèse nulle est fausse et que la taille de l’effet était aussi petite qu’elle en a l’air, il n’y avait que 8% de chances d’obtenir des données comme les vôtres. Cela suggère que vous devez être assez prudent, parce que le hasard semble avoir joué un grand rôle dans vos résultats, d’une façon ou d’une autre !
Analyse des données à l’aide de modèles inspirés de la théorie. À plusieurs endroits dans ce livre, j’ai mentionné les données sur le temps de réponse (RT), où l’on enregistre le temps qu’il faut à quelqu’un pour faire quelque chose (p. ex., prendre une décision simple). J’ai mentionné que les données de la TR sont presque invariablement non-normales et faussées de façon positive. De plus, il y a un compromis connu sous le nom de compromis sur la précision de la vitesse : si vous essayez de prendre des décisions trop rapidement (RT faible), vous risquez de prendre de moins bonnes décisions (précision plus faible). Donc, si vous mesurez à la fois l’exactitude des décisions d’un participant et sa RT, vous constaterez probablement que vitesse et précision sont liées. Il y a plus que cela, bien sûr, parce que certaines personnes prennent de meilleures décisions que d’autres, quelle que soit la vitesse à laquelle elles vont. De plus, la vitesse dépend à la fois des processus cognitifs (c.-à-d. le temps passé à penser) et des processus physiologiques (p. ex. à quelle vitesse pouvez-vous bouger vos muscles). Il semble que l’analyse de ces données sera un processus compliqué. Et c’est effectivement le cas, mais l’une des choses que l’on trouve en fouillant dans la littérature psychologique, c’est qu’il existe déjà des modèles mathématiques (appelés « modèles d’échantillonnage séquentiel ») qui décrivent comment les gens prennent des décisions simples, et ces modèles prennent en compte un grand nombre des facteurs que j’ai mentionnés ci-dessus. Vous ne trouverez aucun de ces modèles inspirés de la théorie dans un manuel de statistiques standard. Les manuels de statistiques standard décrivent des outils standard, des outils qui pourraient être appliqués de manière significative dans un grand nombre de disciplines différentes, et pas seulement en psychologie. L’ANOVA est un exemple d’outil standard qui s’applique aussi bien à la psychologie qu’à la pharmacologie. Les modèles d’échantillonnage séquentiel ne le sont pas, ils sont plus ou moins spécifiques à la psychologie. Cela ne les rend pas moins puissants. En fait, si vous analysez des données où les gens doivent faire des choix rapidement, vous devriez vraiment utiliser des modèles d’échantillonnage séquentiels pour analyser les données. L’utilisation de l’analyse de variance, de la régression ou de tout autre méthode ne fonctionnera pas aussi bien, car les hypothèses théoriques qui les sous-tendent ne correspondent pas bien à vos données. En revanche, les modèles d’échantillonnage séquentiel ont été explicitement conçus pour analyser ce type spécifique de données, et leurs hypothèses théoriques sont extrêmement bien adaptées aux données.
17.2 Apprendre les bases, et les apprendre avec Jamovi
Bien, c’était une longue liste. Et même cette liste est largement incomplète. Il y a vraiment beaucoup de grandes idées statistiques que je n’ai pas couvertes dans ce livre. Il peut sembler assez déprimant de terminer un manuel de près de 500 pages pour se faire dire que ce n’est que le début, surtout quand on commence à soupçonner que la moitié des choses qu’on vous a enseignées sont erronées. Par exemple, il y a beaucoup de gens sur le terrain qui s’opposeraient fortement à l’utilisation du modèle classique ANOVA, mais j’y ai consacré deux chapitres entiers ! L’analyse de variance standard peut être attaquée d’un point de vue bayésien, ou du point de vue des statistiques robustes, ou même parce que « c’est tout simplement faux » (les gens utilisent très souvent ANOVA alors qu’ils devraient utiliser des modèles mixtes). Alors pourquoi l’apprendre ?
Selon moi, il y a deux arguments clés. Premièrement, il y a l’argument du pur pragmatisme. ANOVA est largement utilisé, à tort ou à raison. Si vous voulez comprendre la littérature scientifique, vous devez comprendre l’ANOVA. Et deuxièmement, il y a l’argument de la « connaissance incrémentale ». De la même façon qu’il était pratique d’avoir vu l’ANOVA à un facteur avant d’essayer d’apprendre l’ANOVA factorielle, comprendre l’ANOVA est utile pour comprendre des outils plus avancés, car beaucoup de ces outils prolongent ou modifient d’une certaine façon l’installation ANOVA fondamentale. Par exemple, bien que les modèles mixtes soient beaucoup plus utiles que l’analyse de variance et la régression, je n’ai jamais entendu parler de quelqu’un qui apprend comment fonctionnent les modèles mixtes sans avoir d’abord travaillé sur l’analyse de variance et la régression. Il faut apprendre à ramper avant de pouvoir gravir une montagne.
En fait, j’aimerais pousser ce point un peu plus loin. Une chose que j’ai souvent faite dans ce livre, c’est de parler des principes fondamentaux. J’ai passé beaucoup de temps sur la théorie des probabilités. J’ai parlé de la théorie de l’estimation et des tests d’hypothèse plus en détail que nécessaire. Pourquoi ai-je fait tout ça ? En y repensant, vous pourriez me demander si j’avais vraiment besoin de passer tout ce temps à parler de ce qu’est une distribution de probabilités, ou pourquoi il y avait même une section sur la densité de probabilité. Si le but du livre était de vous apprendre à faire un test t ou une ANOVA, est-ce que tout cela était vraiment nécessaire ? Tout ça n’était qu’une énorme perte de temps pour tout le monde ?
La réponse, j’espère que vous serez d’accord, est non. Le but d’une introduction en statistique n’est pas d’enseigner l’ANOVA. Ce n’est pas non plus enseigner les tests t, les régressions, les histogrammes ou les valeurs p. L’objectif est de vous mettre sur la voie qui vous mènera à devenir un analyste de données compétent. Et pour devenir un analyste de données compétent, vous devez être capable de faire plus que l’ANOVA, plus que des tests t, des régressions et des histogrammes. Vous devez être capable de penser correctement aux données. Vous devez être en mesure d’apprendre les modèles statistiques plus avancés dont j’ai parlé dans la dernière section et de comprendre la théorie sur laquelle ils sont fondés. Et vous devez avoir accès à un logiciel qui vous permettra d’utiliser ces outils avancés. Et c’est là que, à mon avis du moins, tout le temps supplémentaire que j’ai passé sur les fondamentaux est payant. Si vous comprenez la théorie des probabilités, il vous sera beaucoup plus facile de passer des analyses fréquentistes aux analyses bayésiennes.
Bref, je pense que l’extensibilité est le gros avantage d’apprendre les statistiques de cette façon. Pour un livre qui ne couvre que les bases mêmes de l’analyse des données, ce livre a une énorme surcharge en termes d’apprentissage de la théorie des probabilités et ainsi de suite. Il y a beaucoup d’autres choses qu’il vous pousse à apprendre en plus des analyses spécifiques que le livre couvre. Donc, si votre but avait été d’apprendre à exécuter une ANOVA en un minimum de temps, eh bien, ce livre n’était pas un bon choix. Mais comme je l’ai dit, je ne pense pas que ce soit votre but. Je pense que vous voulez apprendre à analyser les données. Et si c’est vraiment votre objectif, vous voulez vous assurer que les compétences que vous apprenez dans votre cours d’introduction aux statistiques sont naturellement et proprement transférables aux modèles plus complexes dont vous avez besoin dans l’analyse de données du monde réel. Vous voulez vous assurer d’apprendre à utiliser les mêmes outils que les vrais analystes de données, de sorte que vous puissiez apprendre à faire ce qu’ils font. Et bien, d’accord, vous êtes un débutant pour le moment (ou vous l’étiez quand vous avez commencé ce livre), mais cela ne veut pas dire qu’on devrait vous donner une version édulcorée, une version où je ne vous raconte rien de la densité de probabilité ou une version où je vous parle de ce qui constitue le cauchemar d’une ANOVA factorielle aux plans non équilibrés. Et cela ne signifie pas qu’il faille vous donner des jouets pour bébés au lieu d’outils d’analyse de données appropriés. Les débutants ne sont pas muets, ils manquent simplement de connaissances. Ce dont vous avez besoin, c’est de ne pas avoir à vous cacher les complexités de l’analyse des données réèlles. Ce dont vous avez besoin, ce sont les compétences et les outils qui vous permettront de gérer ces complexités lorsqu’elles vous tendront inévitablement une embuscade dans le monde réel.
Et ce que j’espère, c’est que ce livre, ou le livre fini que cela deviendra un jour, pourra vous aider à le faire.
Note de l’auteur - Je l’ai déjà mentionné auparavant, mais je vais rapidement le mentionner à nouveau. Cette liste de références est épouvantablement incomplète. Ne présumez pas que ce sont les seules sources sur lesquelles j’ai compté. La version finale de ce livre aura beaucoup plus de références. Et si vous voyez quelque chose d’intelligent dans ce livre qui ne semble pas avoir une référence, je peux vous promettre que l’idée était celle de quelqu’un d’autre. Il s’agit d’un manuel d’introduction : aucune des idées n’est originale. J’assumerai la responsabilité de toutes les erreurs, mais je ne peux m’attribuer le mérite d’aucune des bonnes choses. Tout ce qu’il y a d’intelligent dans ce livre vient de quelqu’un d’autre, et ils méritent tous d’être reconnus pour leur excellent travail. Je n’ai pas encore eu l’occasion de le leur rendre.