Comment comparer 2 variables?

Le 13/08/2018 à 21:36

Jexcelpastrop a écrit :
pour le genre, je sépare hommes et femmes

oui comme à l'Eglise

Jexcelpastrop a écrit :
pour les 5 tranches d'âge par ex) je fais quoi

si tu peux numériser en donnant la valeur moyenne de la tranche, alors tu fais une regression

Steelson a écrit :
En gros, sur les principes généraux :
X continu, Y continu => on fait une régression
X discret, Y discret => on fait un test du Khi2
X discret, Y continu => test T (Student) ou Anova (1 ou plusieurs facteurs)

Steelson a écrit :
Une bonne pratique dans ton cas est de pouvoir passer de variable discrète à variable continue car tu peux noter le degré de satisfaction de 1 à 5 (puisqu'il n'y a qu'une seule dimension) et idem avec les âges en prenant la moyenne des tranches. Et calculer ainsi le coef de corrélation.

Le 13/08/2018 à 21:49

Merci encore ... bon alors je réessaie tout ça demain j'ai le cerveau (ou du moins ce qui me sert de cerveau) grillé là mais au moins j'ai essayé

Le 14/08/2018 à 04:58

Pour te remettre les neurones en place, ici un poly intéressant

http://w2.uco.fr/~amouches/Excel%20et%20tests%20statistiques.doc

sinon je suppose que tu as un cours sur le sujet !

et attention à la formulation des conclusions, les statisticiens ont un langage très poétique : "avec un degré de confiance de 95% nous pouvons conclure qu'il n'y a pas d'écart significatif et que les moyennes et dispersions sont similaires" , pour autant jamais de "il semble que ..."

Le 14/08/2018 à 09:18

Jexcelpastrop a écrit :
"partiellement" c'est déjà ça.. donc si j'ai bien compris, pour le genre, je sépare hommes et femmes et ça me fait une anova à 2 facteurs? Mais si ensuite j'ai plus que 2 facteurs (pour les 5 tranches d'âge par ex) je fais quoi :/? (là dans mon exemple je montrais les familles, couples, groupes etc. si jamais) bref désolée pour toutes ces questions...

Bonjour,

Sauf erreur de ma part, il ne faut pas confondre un facteur avec les niveaux d'un facteur.

Le genre = 1 facteur à 2 niveaux

L'âge = 1 facteur à 5 niveaux

Une ANOVA à plusieurs facteurs, c'est dans le cas où tu regardes au sein d'un même test, l'effet de l'âge et du genre, et leur possible interaction.

Le 14/08/2018 à 12:13

Steelson a écrit :
Pour te remettre les neurones en place, ici un poly intéressant
http://w2.uco.fr/~amouches/Excel%20et%20tests%20statistiques.doc
sinon je suppose que tu as un cours sur le sujet !
et attention à la formulation des conclusions, les statisticiens ont un langage très poétique : "avec un degré de confiance de 95% nous pouvons conclure qu'il n'y a pas d'écart significatif et que les moyennes et dispersions sont similaires" , pour autant jamais de "il semble que ..."

Merci pour le lien, je vais aller voir! On a juste eu un cours théorique sur la recherche avec quelques heures sur excel mais sans jamais mettre en pratique en gros le prof nous a présenté excel vite fait, mentionné quelques tests en disant "vous cliquez là et là et vous avez les résultats" et basta...

Ah ben merci pour la formulation, j'y aurais pas pensé en plus je suis assez du genre à mettre "il semble que"

Le 16/08/2018 à 20:55

Rebonsoir...

Je suis vraiment nulle ... j'ai lu pas mal de théorie sur les divers tests de statistiques (j'ai vraiment une meilleure idée de quoi faire, promis ) mais avant tout je voulais voir si mes données étaient distribuées normalement.. j'ai essayé de tester la normalité mais avec ce que j'ai regardé sur youtube je crois que je me suis embrouillée :

Dans la vidéo, il est dit de faire un tableau: première rangée = le nombre de "gens" (1,2,3.....) donc chaque cellule = 1,2,3 bref basique. Ensuite, j'ai fait une formule où tu divises le nombre de la cellule par le nombre total de gens + 1 par ex: (=A2/(90+1)) ça donne l'aire sous la courbe ... troisième rangée = quantités normalisées, que j'ai aussi calculées. Par contre, pour la dernière rangée il a mis une durée.. du coup je pense que pour lui c'est une sorte de variable et moi je ne sais pas quoi mettre dans cette dernière rangée...

Bref, donc je me suis un peu perdue, j'ai commencé à générer des histogrammes, des nuages de points et tout pour voir la normalité mais je ne suis plus du tout sûre de quelles données sélectionner pour analyser la normalité (pour obtenir boîte à moustache, histogramme ou nuage de point)?! Quelqu'un pourrait-il m'éclairer? J'ai même inclus le temps de réponse au questionnaire vu qu'il a mis une durée mais si ça se trouve, y a vraiment rien à voir....... enfin bref je pensais que pour calculer la distribution il fallait prendre les données de bases mais peut-être que cette distribution est différente pour chaque variable? Je suis perdue là

PS: dans ce cas, je pensais pouvoir laisser homme et femme ensemble vu que j'analyse la distribution de toute la "population", c'est correct?

Je joins un fichier... mais j'ai supprimé les graphiques:

3normal-distribution.xlsx (19.00 Ko)

Le 17/08/2018 à 11:21

Bonjour,

Il existe des tests pour analyser la normalité (Shapiro par exemple). Néanmoins, un histogramme de tes données devrait déjà te donner une idée.

Attention, la normalité ne se regarde pas à l'échelle de la population mais plutôt par niveau de facteur. Exemple, si tu as un effet du genre, la distribution de tes réponses peut être normale pour les hommes et pour les femmes, mais ne pas apparaître comme tel si tu regardes les données à l'échelle de l'ensemble de la population?

En revanche, je vois pas très bien où tu veux tester la normalité sur des variables discontinues ou binaires... C'est pour ça qu'un bon vieux test de Khi2 me semble le plus simple pour ton cas.

Le 17/08/2018 à 12:16

Pedro22 a écrit :
Bonjour,
Il existe des tests pour analyser la normalité (Shapiro par exemple). Néanmoins, un histogramme de tes données devrait déjà te donner une idée.
Attention, la normalité ne se regarde pas à l'échelle de la population mais plutôt par niveau de facteur. Exemple, si tu as un effet du genre, la distribution de tes réponses peut être normale pour les hommes et pour les femmes, mais ne pas apparaître comme tel si tu regardes les données à l'échelle de l'ensemble de la population?
En revanche, je vois pas très bien où tu veux tester la normalité sur des variables discontinues ou binaires... C'est pour ça qu'un bon vieux test de Khi2 me semble le plus simple pour ton cas.

Hello, merci pour ton message. J'ai fait ce que tu as dit par rapport aux âges. J'obtiens 35.35 comme khi2 et 4.6 quand je fais la loi du khi2 inverse droite (en prenant 10% de probabilité (?) et 2 degrés de liberté) du coup ça me paraît bizarre... ça voudrait dire que si je regarde par rapport à l'âge, mes données ne sont pas normalement distribuées?

Le 17/08/2018 à 12:51

Jexcelpastrop a écrit :
Hello, merci pour ton message. J'ai fait ce que tu as dit par rapport aux âges. J'obtiens 35.35 comme khi2 et 4.6 quand je fais la loi du khi2 inverse droite (en prenant 10% de probabilité (?) et 2 degrés de liberté) du coup ça me paraît bizarre... ça voudrait dire que si je regarde par rapport à l'âge, mes données ne sont pas normalement distribuées?

-> Le Khi2 ne sert pas à tester la normalité, mais de mémoire tes données n'ont pas besoin d'être normalement distribuées pour faire ce test
-> Je ne comprends pas à quoi correspond les valeurs de Khi2 que tu me donnes, normalement avec un test, tu obtiens une probabilité comprise en 0 et 1...

Le 17/08/2018 à 13:14

Pedro22 a écrit :
Jexcelpastrop a écrit :
Hello, merci pour ton message. J'ai fait ce que tu as dit par rapport aux âges. J'obtiens 35.35 comme khi2 et 4.6 quand je fais la loi du khi2 inverse droite (en prenant 10% de probabilité (?) et 2 degrés de liberté) du coup ça me paraît bizarre... ça voudrait dire que si je regarde par rapport à l'âge, mes données ne sont pas normalement distribuées?
-> Le Khi2 ne sert pas à tester la normalité, mais de mémoire tes données n'ont pas besoin d'être normalement distribuées pour faire ce test
-> Je ne comprends pas à quoi correspond les valeurs de Khi2 que tu me donnes, normalement avec un test, tu obtiens une probabilité comprise en 0 et 1...

Oh ok merci, désolée je m'embrouille. J'ai fait à partir d'un tutorial sur youtube :/ la première valeur c'était une somme (des valeurs obtenues par la formule: (O-T)^2/T) et la deuxième c'est ce que j'obtiens en faisant le test =LOI.KHIDEUX.INVERSE.DROITE(0.1;2) (0.1 = 10% de probabilité et 2 = degrés de liberté) mais j'avoue que pour choisir la valeur de ces 2 derniers j'ai fait la même chose que sur la vidéo alors le problème vient peut-être de là? Je répète qu'ici je regardais par rapport aux tranches d'âge.

Par contre j'ai essayé de faire un t-test par rapport au genre et pour la satisfaction j'obtiens ça:

Je ne sais pas trop si c'est correct...

Le 17/08/2018 à 14:23

Ta satisfaction est sous forme de notes ?
Variable1 et Variable2 représentent les 2 modalités de genre (Homme ou Femme) ?
Tu fais un test d'égalité des moyennes, as-tu vérifiés les pré-requis (normalité des données et variances comparables) ?

Le 17/08/2018 à 15:59

Pedro22 a écrit :
Ta satisfaction est sous forme de notes ?
Variable1 et Variable2 représentent les 2 modalités de genre (Homme ou Femme) ?
Tu fais un test d'égalité des moyennes, as-tu vérifiés les pré-requis (normalité des données et variances comparables) ?

Oui j'ai attribué des notes à la satisfaction pour finir
Oui ce sont les 2 variables mais je crois qu'à la place j'aurais dû faire que pour 1 variable avec un échantillon divisé ?
C'est bien le t-test? Je n'ai trouvé que ça sur excel... et non toujours pas vérifié normalité, je comprends rien et variances comparables non plus ..

je crois que je vais laisser tomber

Le 17/08/2018 à 16:18

C'est pas que je veux pas t'aider, mais c'est pas moi qui vais te faire des cours donc c'est à toi de reprendre les bases...

-> Hommes et femmes = 1 variable (le genre) mais 2 modalités ou 2 niveaux
-> Les tests ont des prérequis : pour faire simple, c'est comme si je disais que j'ai comparé le nombre de grains de sable dans le Sahara et les décibels émis par une chanson de Johnny Haliday. En bidouillant je peux te pondre un résultat, mais à aucun moment j'ai vérifié que c'est comparable...

La plupart du temps on vérifie donc la normalité des données (à savoir que plus on s'éloigne de la moyenne, moins on trouve de valeurs, et ce de façon équilibrée en-dessous et au dessus de la moyenne) et l'égalité des variances (dur de comparer 2 échantillons si les valeurs de l'un sont très dispersées autour de la moyenne tandis que dans l'autres elles sont presque toutes équivalentes...).

Enfin, une note ne correspond pas vraiment à une mesure classique (longueur, poids, température...) puisque tu n'auras que quelques nombres entiers, et pas de décimales (c'est une variable discontinue). Donc c'est un peu foireux de parler de distribution normale et de variance dans ces conditions, surtout si ton effectif est faible.

En conclusion et comme je le répète depuis un moment, reste sur des choses simples et faciles à comprendre, comme le KHI2 !!!!!

Le principe du test est de dire si la répartition des effectifs entre les modalités d'un facteur (niveau de satisfaction par exemple) sont significativement influencées par un autre facteur (sexe par exemple).

Exemple : si les femmes sont plus satisfaites que les hommes (en général c'est pas le cas ! ), tu auras un % de femmes plus important sur les notes de satisfaction élevées. Sinon c'est que la distribution n'est pas significativement différente de la moyenne Hommes-Femmes (distribution théorique dans le cas où il n'y a pas d'influence).

Le 17/08/2018 à 16:35

Pedro22 a écrit :
C'est pas que je veux pas t'aider, mais c'est pas moi qui vais te faire des cours donc c'est à toi de reprendre les bases...
-> Hommes et femmes = 1 variable (le genre) mais 2 modalités ou 2 niveaux
-> Les tests ont des prérequis : pour faire simple, c'est comme si je disais que j'ai comparé le nombre de grains de sable dans le Sahara et les décibels émis par une chanson de Johnny Haliday. En bidouillant je peux te pondre un résultat, mais à aucun moment j'ai vérifié que c'est comparable...
La plupart du temps on vérifie donc la normalité des données (à savoir que plus on s'éloigne de la moyenne, moins on trouve de valeurs, et ce de façon équilibrée en-dessous et au dessus de la moyenne) et l'égalité des variances (dur de comparer 2 échantillons si les valeurs de l'un sont très dispersées autour de la moyenne tandis que dans l'autres elles sont presque toutes équivalentes...).
Enfin, une note ne correspond pas vraiment à une mesure classique (longueur, poids, température...) puisque tu n'auras que quelques nombres entiers, et pas de décimales (c'est une variable discontinue). Donc c'est un peu foireux de parler de distribution normale et de variance dans ces conditions, surtout si ton effectif est faible.
En conclusion et comme je le répète depuis un moment, reste sur des choses simples et faciles à comprendre, comme le KHI2 !!!!!
Le principe du test est de dire si la répartition des effectifs entre les modalités d'un facteur (niveau de satisfaction par exemple) sont significativement influencées par un autre facteur (sexe par exemple).
Exemple : si les femmes sont plus satisfaites que les hommes (en général c'est pas le cas ! ), tu auras un % de femmes plus important sur les notes de satisfaction élevées. Sinon c'est que la distribution n'est pas significativement différente de la moyenne Hommes-Femmes (distribution théorique dans le cas où il n'y a pas d'influence).

Je sais, merci de m'expliquer tout ça, justement je n'ai pas eu de cours là dessus et les slides que mon prof m'a envoyés n'expliquent pas grand chose non plus, pour ça que je cherche ailleurs et je crois que ça m'embrouille plus qu'autre chose au fait. Et par exemple, ces slides ne mentionnent pas du tout le KHI2 mais je vais repartir là dessus alors en regardant plusieurs vidéos, j'arriverai bien à comprendre qqc... Je devrais peut-être inclure 2 niveaux pour chaque facteur au lieu de plusieurs? Tout simplement: Satisfait? Oui/Non, pareil pour les autres

Le 17/08/2018 à 17:24

Plus tu as d'effectifs, plus il est facile de tirer des conclusions fiables. Le regroupement de niveaux de facteurs de permet de palier à un effectif réduit et te facilitera la tâche pour analyser tes données. Donc oui, je pense que tu as intérêt à faire des regroupements.

Pour les cours, tu devrais pouvoir trouver des tutoriels simples et compréhensibles, car malheureusement, tous les profs n'ont pas le sens de la pédagogie.

Le 17/08/2018 à 17:47

Pedro22 a écrit :
Plus tu as d'effectifs, plus il est facile de tirer des conclusions fiables. Le regroupement de niveaux de facteurs de permet de palier à un effectif réduit et te facilitera la tâche pour analyser tes données. Donc oui, je pense que tu as intérêt à faire des regroupements.
Pour les cours, tu devrais pouvoir trouver des tutoriels simples et compréhensibles, car malheureusement, tous les profs n'ont pas le sens de la pédagogie.

Ok merci bon alors j'ai essayé le khi 2 ça m'a donné qu'avec un seuil de signification de 5% il y a un léger lien entre le sexe et la satisfaction (khi2 supérieur), alors qu'avec un seuil de 1% il n'y en a pas forcément (khi2 inférieur). J'espère que c'est juste mais je vais relire un peu de théorie pour bien interpréter et si c'est correct je ferai la même chose pour les autres variables.

Le 18/08/2018 à 00:43

Plus ta p-value s'approche de 0, plus c'est significatif (puisque c'est un risque de te planter d'interprétation). Entre 0,05 et 0,1 on parle de tendance, au-delà pas d'effet significatif.

Le 18/08/2018 à 11:47

Bonjour à tous !

Pedro: si je me remets aux stats, je viendrai te consulter ! Il faudrait que je me programme un recyclage, doublé par l'utilisation d'Excel, car à l'époque où j'en ai fait pas mal (études d'organisation), on faisait tout manuellement... J'utilisais une calculette Casio dotée des fonctions statistiques qui m'a rendu en son temps beaucoup de services.

Mais ce qui me surprend un peu, car c'est un cas qu'on voit relativement fréquemment de demandeurs appelés à réaliser des exercices à la suite d'un cours qui sont noyés dans les choix méthodologiques à opérer dès le départ. Autant que je me souvienne, pour les études que j'ai eues autrefois à faire dans un cadre de formation (files d'attente, optimisation de traitement de courrier, ...), le cours théorique était doublé d'un balisage méthodologique et on partait faire nos études de stage sans aucune hésitation sur la méthode à appliquer, tous nos documents à utiliser préparés à l'avance...

Il semble qu'aujourd'hui on fait se lancer des gens sans savoir où ils doivent aller, ce qui ne paraît pas très formateur, du moins pas optimal en termes d'efficacité de formation...

Bonne journée à tous !

Le 19/08/2018 à 22:03

Bonjour tout le monde, Bonjour JexcelDéjàBeaucoupMieux

Je suis rentré de déplacement ... je vais voir ce qui a été fait (et je n'aurai sans doute rien à ajouter).

Pour MFerrand, j'ai compris qu'ici il s'agissait moins d'un cours avec exercices pratiques d'assimilation, mais plutôt d'un mémoire de thèse ou a minima d'un équivalent DEA et dans ce cas je conçois que le·la doctorant·e ait à la fois à rechercher la meilleure méthode à appliquer et le résultat attendu.

Le 20/08/2018 à 10:05

Bonjour Professeur Steelson,

J'entends bien, qu'il y ait un peu plus à faire que lors d'une application pratique à l'issue d'un cours, et que l'intéressé ait à choisir la bonne méthode dans l'arsenal d'outils qui lui a été dispensé. Mais encore faut-il qu'on lui ait fourni les armes qu'il pouvait ou non dégainer ! Dans plusieurs des cas de l'espèce vus sur le Forum, on n'en a pas l'impression...

J'ai eu ce genre de choses à faire en rapport de fin de stage final, je n'y étais d'ailleurs pas tenu d'introduire un volet statistique, mais j'étais tombé sur un service où était passé un gars plutôt brillant qui avait mis en place des recueils de données à des fins d'analyse, à partir desquelles il avait commencé à ébaucher quelques études... puis ayant été muté, la personne qui lui avait succédé, avait pieusement poursuivi les recueils de données mais se contentait de les stocker sans que qui que ce soit les utilise !

J'avais donc trouvé judicieux, disposant d'une masse de données inexploitées d'incorporer une étude statistique à partir de ces données (avec beaucoup de diplomatie par ailleurs, afin de ne pas apparaître comme donneur de leçons...). Il avait donc fallu que je fasse tous les choix, mais je disposais de l'enseignement qui m'avait été dispensé, encore bien frais, et les choix méthodologiques ne présentaient pas de difficulté.

Bonne journée.

1 2

Rechercher des sujets similaires à "comment comparer variables"