Chapitre 6 Problèmes pratiques

Le jardin de la vie ne semble jamais se limiter aux intrigues que les philosophes ont tracées pour son confort. Peut-être que quelques tracteurs de plus feraient l’affaire. - Roger Zelazny32

C’est un chapitre un peu étrange, même selon mes critères. Mon objectif dans ce chapitre est de parler un peu plus honnêtement des réalités du travail avec les données que vous ne le verrez ailleurs dans le livre. Le problème avec les ensembles de données du monde réel, c’est qu’ils sont désordonnés. Très souvent, le fichier de données avec lequel vous commencez n’a pas les variables stockées dans le bon format pour l’analyse que vous voulez faire. Parfois, il peut y avoir beaucoup de valeurs manquantes dans votre ensemble de données. Parfois, vous ne voulez analyser qu’un sous-ensemble des données. Et cetera. En d’autres termes, il y a beaucoup de manipulation de données que vous devez faire juste pour obtenir les variables dans votre ensemble de données dans le format dont vous avez besoin. Le but de ce chapitre est de fournir une introduction de base à ces sujets pragmatiques. Bien que le chapitre soit motivé par le genre de problèmes pratiques qui surgissent lors de la manipulation de données réelles, je m’en tiendrai à la pratique que j’ai adoptée dans la majeure partie du livre et je m’appuierai sur de très petits ensembles de données qui illustrent le problème sous-jacent. Comme ce chapitre est essentiellement un recueil de techniques et qu’il ne raconte pas une seule histoire cohérente, il peut être utile de commencer par une liste de sujets :

Comme vous pouvez le constater, la liste des sujets abordés dans le chapitre est assez vaste, et il y a beaucoup de contenu. Même s’il s’agit d’un des chapitres les plus longs et les plus difficiles du livre, je ne fais qu’effleurer plusieurs sujets assez différents et importants. Mon conseil, comme d’habitude, est de lire le chapitre une fois et d’essayer de le suivre autant que possible. Ne vous inquiétez pas trop si vous ne pouvez pas tout saisir d’un coup, surtout dans les sections suivantes. Le reste du livre ne s’appuie que légèrement sur ce chapitre pour que vous puissiez vous en sortir avec une simple compréhension des bases. Cependant, ce que vous découvrirez probablement plus tard, c’est que vous devrez revenir à ce chapitre pour comprendre certains des concepts auxquels je fais référence ici.

6.1 Mise en tableaux et recoupement des données

Une tâche très courante lors de l’analyse des données est la construction de tableaux de fréquence, ou de tableaux croisés d’une variable par rapport à une autre. Ces tâches peuvent être réalisées avec Jamovi et je vais vous montrer comment dans cette section.

6.1.1 Création de tables pour des variables individuelles

Commençons par un exemple simple. En tant que père d’un petit enfant, je passe naturellement beaucoup de temps à regarder des émissions de télévision comme In the Night Garden. Dans le fichier nightgarden.csv, j’ai transcrit une courte section du dialogue. Le fichier contient deux variables d’intérêt, le locuteur (speaker) et l’énoncé (Utterance). Ouvrez cet ensemble de données dans Jamovi et jetez un coup d’œil aux données dans la vue « feuille de calcul ». Vous verrez que les données ressemblent à ceci :

Variable « Speaker » :

upsy-daisy upsy-daisy upsy-daisy upsy-daisy upsy-daisy tombliboo tombliboo makka-pakka makka-pakka makka-pakka makka-pakka makka-pakka makka-pakka

variable « Utterance » :

pip pip pip onk onk onk ee oo pip pip onk onk onk

En regardant cela apparait clairement ce qui est arrivé à ma santé mentale ! Avec des données comme celle-ci, une tâche à laquelle je pourrais me trouver confronter est de construire un compte de fréquence du nombre de mots que chaque personnage parle pendant l’émission. Le menu Jamovi « Descriptives » comporte une case à cocher appelée « Frequencies Tables» qui fait cela, voir Figure 6‑1.

Frequencies of speaker

Levels

Counts

% of total

Cumulative %

makka-pakka

4

40%

40%

tomliboo

2

20%

60%

upsy-daisy

4

40%

100%

Figure 6‑1 : Tableau des fréquences pour la variable speaker

La sortie ici nous indique sur la première ligne que ce que nous regardons est une distribution de la variable du speaker. Dans la colonne « Levels », elle liste tous les locuteurs qui existent dans les données, et dans la colonne « Counts », il vous indique combien de fois ce locuteur apparaît dans les données. En d’autres termes, ceci est une table de fréquences.

Dans Jamovi, la case à cocher « Frequencies Tables » ne produira qu’un tableau pour une seule variable.

Pour un tableau à deux variables, par exemple en combinant le speaker et Utterance de sorte que nous puissions voir combien de fois chaque locuteur a prononcé un énoncé particulier, nous avons besoin d’un tableau croisé ou tableau de contingence. Dans Jamovi vous pouvez le faire en sélectionnant les « Frequencies » - « Contingence Tables » - « Independants Samples », et en déplaçant la variable speaker dans la case « Rows », et la variable Utterance dans la case « Columns ». Vous devriez alors avoir un tableau de contingence comme celui illustré à la Figure 6‑2.

Figure 6‑2 : Tableau de contingence pour le locuteur et les variables des énoncés

Ne vous inquiétez pas pour le tableau « \(\chi^{2}\) Tests » qui est produit. Nous reviendrons sur ce point plus loin au chapitre 10. Lors de l’interprétation du tableau de contingence, n’oubliez pas qu’il s’agit de comptages, de sorte que le fait que la première ligne et la deuxième colonne de chiffres correspondent à une valeur de 2 indique que Makka-Pakka (ligne 1) a dit « onk » (colonne 2) deux fois dans cet ensemble de données.

6.1.2 Ajout de pourcentages à un tableau de contingence

Le tableau de contingence illustré à la Figure 6‑2 présente un tableau des fréquences brutes. C’est-à-dire, un compte du nombre total de cas pour différentes combinaisons de niveaux des variables spécifiées. Cependant, vous voulez souvent que vos données soient organisées en termes de pourcentages aussi bien que de comptages. Vous pouvez trouver les cases à cocher pour différents pourcentages sous l’option « Cellules » dans la fenêtre « Tableaux de contingence ». Tout d’abord, cliquez sur la case à cocher « Ligne » et le tableau de contingence dans la fenêtre de sortie deviendra celui de la Figure 6‑3.

Figure 6‑3 : Tableau de contingence pour le Speaker et la variable Utterrance, avec les pourcentages des lignes

Ce que nous examinons ici est le pourcentage d’énoncés faits par chaque personnage. En d’autres termes, 50% des énoncés de Makka-Pakka sont des « pip », et les 50% restants sont des « onk ». Comparons ceci avec le tableau que nous obtenons lorsque nous calculons les pourcentages des colonnes (décochez « Ligne »et cochez « Colonne » dans la fenêtre des options des cellules), voir Figure 6‑4.

Figure 6‑4 : Tableau de contingence pour le speaker et le variable Utterrance, avec les pourcentages en colonnes

Dans cette version, ce que nous voyons est le pourcentage de caractères associés à chaque énoncé. Par exemple, chaque fois que l’énoncé « ee » est prononcé (dans cet ensemble de données), 100% du temps c’est un Tombliboo qui le dit.