Comment comparer 2 variables?

Bon mon prof m'a enfin répondu, il me parle de régression, corrélation, test anova...

Bon c'est un ayatollah de la stat alors ! j'ai même cru à un moment que c'était un pur de chez les purs qui nous avait posté une question pour nous piéger. Car même quand je donnais des cours de stat & proba (il y a fort longtemps) en BTS au CNAM je ne traumatisais pas mes élèves avec ces questions

Bon faut qu'on s'y mette alors ? je vais laisser jmd ...

Oui c'est l'histoire de sa vie Excel... c'est juste que je dois rendre ça dans style 10 jours.. s'il m'avait demandé avant je stresserais pas autant

Bref en tout cas merci pour les messages

En gros, sur les principes généraux :

X continu, Y continu => on fait une régression

X discret, Y discret => on fait un test du Khi2

X discret, Y continu => test T (Student) ou Anova (1 ou plusieurs facteurs)

Deux citations de George Box :

George Box a écrit :

Tous les modèles sont faux, mais certains sont utiles.

Les statisticiens sont comme les artistes, ils tombent amoureux de leurs modèles.

Donc... admettons que j'analyse l'intention de revisiter par rapport à 1) les tranches d'âge, 2) le sexe et 3) le type de visiteurs (famille, couple) ... je devrais donc opter pour un t-test ou anova alors?

re

pour y voir encore plus clair, il faut un peu normaliser tes données : passer au %

sans quoi, on ne visualise pas bien

exemple ici feuille 3

faire un tableau de valeurs en % de chaque ligne (ou dechaque colonne ? )

re

pour y voir encore plus clair, il faut un peu normaliser tes données : passer au %

sans quoi, on ne visualise pas bien

exemple ici feuille 3

faire un tableau de valeurs en % de chaque ligne (ou dechaque colonne ? )

Justement, les graphiques présentant des pourcentages sont dans mon rapport écrit.. mais pour faire des tests comme anova ou régression j'ai juste besoin des données non? Je me souviens d'un cours où on sélectionnait le type de test, les données et ensuite c'était bon :/ on pouvait valider ou invalider l'hypothèse grâce aux valeurs obtenues dans les résultats

non

tu vois sur le graphique histogr que les petites populations sont difficilement lisibles, et que sur le graph lignes qu'on dirait qu'elles tirent les valeurs vers le bas.

X discret, Y continu => test T (Student) ou Anova (1 ou plusieurs facteurs)

Bonjour tout le monde !

Le Khi2 est également possible dans ce cas de figure, ou avec 2 variables continues. Il suffit de les découper en classes (comme ça a été fait ici pour les âges). Ce test est relativement simple à comprendre et à appliquer, mais à la différence d'une ANOVA, on aura pas d'idée précise de l'importance de la corrélation entre 2 variables.

Plus généralement, les possibilités sous Excel sont très limitées pour ce genre de travail. Je conseille d'utiliser R (gratuit) et de télécharger le package Rcmdr qui permet d'éviter d'écrire tout le code à la main...

PS : vu les faibles effectifs, je pense qu'il faudra procéder à des regroupements (par exemple regrouper les 2 modalités de réponses du "oui" et les 2 du "non")

En gros, sur les principes généraux :

X continu, Y continu => on fait une régression

X discret, Y discret => on fait un test du Khi2

X discret, Y continu => test T (Student) ou Anova (1 ou plusieurs facteurs)

Donc... admettons que j'analyse l'intention de revisiter par rapport à 1) les tranches d'âge, 2) le sexe et 3) le type de visiteurs (famille, couple) ... je devrais donc opter pour un t-test ou anova alors?

pour moi, OUI

je n'ai pas vu la taille de tes échantillons car tu n'as mis que les moyennes je suppose !

Il faut aller dans Données > Utilitaires d'analyse pour trouver ton "bonheur" si je peux dire

En PJ une proposition faite rapidement. Désolé si ça se recoupe avec des réponses précédentes, je n'ai pas ouvert les fichiers.

6forum.xlsx (93.23 Ko)

En gros, sur les principes généraux :

X continu, Y continu => on fait une régression

X discret, Y discret => on fait un test du Khi2

X discret, Y continu => test T (Student) ou Anova (1 ou plusieurs facteurs)

Donc... admettons que j'analyse l'intention de revisiter par rapport à 1) les tranches d'âge, 2) le sexe et 3) le type de visiteurs (famille, couple) ... je devrais donc opter pour un t-test ou anova alors?

pour moi, OUI

je n'ai pas vu la taille de tes échantillons car tu n'as mis que les moyennes je suppose !

Il faut aller dans Données > Utilitaires d'analyse pour trouver ton "bonheur" si je peux dire

Et question très basique je sais mais si je fais le test anova (je vois où cliquer, au moins ça haha) il faut que je sélectionne les données en entier donc? les colonnes avec les données de chaque personne ayant répondu à mon questionnaire?

En PJ une proposition faite rapidement. Désolé si ça se recoupe avec des réponses précédentes, je n'ai pas ouvert les fichiers.

forum.xlsx

Oui je vois ce que tu veux dire merci

En PJ une proposition faite rapidement. Désolé si ça se recoupe avec des réponses précédentes, je n'ai pas ouvert les fichiers.

forum.xlsx

Oui je vois ce que tu veux dire merci

Par contre, normalement pour le Khi2 on essaie d'éviter de la faire quand il y a moins de 5 d'effectif dans une catégorie. Là encore, tu pourrais faire des regroupement des catégories d'âge pour limiter ça.

Et question très basique je sais mais si je fais le test anova (je vois où cliquer, au moins ça haha) il faut que je sélectionne les données en entier donc? les colonnes avec les données de chaque personne ayant répondu à mon questionnaire?

heu, j'imagine oui (je n'ai jamais utilisé excel en stat mais minitab)

Et question très basique je sais mais si je fais le test anova (je vois où cliquer, au moins ça haha) il faut que je sélectionne les données en entier donc? les colonnes avec les données de chaque personne ayant répondu à mon questionnaire?

heu, j'imagine oui (je n'ai jamais utilisé excel en stat mais minitab)

Ok pas de souci, je disais juste de tout sélectionner, et non pas seulement des "sommes" pfiou je vais aller voir tout ça...

J'ai essayé donc le test anova (intention de revisiter / type de visiteurs) et j'obtiens ça. Je sais pas du tout si c'est correct ou pas mais si j'interprète "juste" cela voudrait dire que le type de visiteur a une influence sur l'intention de revisiter je crois...

capture

Super ... on est passé de valeurs ésotériques à un résultat tout aussi ésotérique, mais on a progressé, enfin toi tout seul (et d'ailleurs c'est le but premier de ce forum - il vaut mieux donner des clés que la réponse toute faite) !

N'oublie pas de tester la normalité de tes 2 populations aussi, car le calcul de variance en dépend.

Je regarderai tes résultats demain pour une interprétation sereine !

Super ... on est passé de valeurs ésotériques à un résultat tout aussi ésotérique, mais on a progressé, enfin toi tout seul (et d'ailleurs c'est le but premier de ce forum - il vaut mieux donner des clés que la réponse toute faite) !

N'oublie pas de tester la normalité de tes 2 populations aussi, car le calcul de variance en dépend.

Je regarderai tes résultats demain pour une interprétation sereine !

Pour ma part après avoir fait la même chose avec les autres variables je pense plutôt avoir régressé non mais je pense pas que ce soit correct vu qu'il faut des données numériques j'ai attribué des valeurs aux degrés d'intention (de revisiter) et aux différents types de visiteurs et je pense que.. c'est faux de faire comme ça

Mais bon si justement tu as le temps de jeter un coup d'oeil demain je te remercie quand même

Pour ma part après avoir fait la même chose avec les autres variables je pense plutôt avoir régressé non mais je pense pas que ce soit correct vu qu'il faut des données numériques j'ai attribué des valeurs aux degrés d'intention (de revisiter) et aux différents types de visiteurs et je pense que.. c'est faux de faire comme ça

en effet, c'est partiellement faux

ok pour les intentions de revisiter

pas ok pour les types visiteurs

ce qu'il faut c'est considérer séparément les hommes et les femmes (enfin dans la vraie vie cela se mélange pour le meilleur et pour le pire), tester la normalité des 2 séries de données (l'intention de revisiter étant ici numérique) et comparer les variances des 2 populations

bon c'est mon point de vue ... comme dit George Box : https://forum.excel-pratique.com/viewtopic.php?p=679493#p679493

donc il y a peut-être d'autres échos qui vont surgir ...

Pour ma part après avoir fait la même chose avec les autres variables je pense plutôt avoir régressé non mais je pense pas que ce soit correct vu qu'il faut des données numériques j'ai attribué des valeurs aux degrés d'intention (de revisiter) et aux différents types de visiteurs et je pense que.. c'est faux de faire comme ça

en effet, c'est partiellement faux

ok pour les intentions de revisiter

pas ok pour les types visiteurs

ce qu'il faut c'est considérer séparément les hommes et les femmes (enfin dans la vraie vie cela se mélange pour le meilleur et pour le pire), tester la normalité des 2 séries de données (l'intention de revisiter étant ici numérique) et comparer les variances des 2 populations

bon c'est mon point de vue ... comme dit George Box : https://forum.excel-pratique.com/viewtopic.php?p=679493#p679493

donc il y a peut-être d'autres échos qui vont surgir ...

"partiellement" c'est déjà ça.. donc si j'ai bien compris, pour le genre, je sépare hommes et femmes et ça me fait une anova à 2 facteurs? Mais si ensuite j'ai plus que 2 facteurs (pour les 5 tranches d'âge par ex) je fais quoi :/? (là dans mon exemple je montrais les familles, couples, groupes etc. si jamais) bref désolée pour toutes ces questions...

Bon, on n'est pas demain mais j'ai testé un jeu de données en séparant les male/female

9faux-rhum.xlsx (11.77 Ko)
capture d ecran 120

un petit rappel :

Les calculs d'analyse de la variance comme, d'ailleurs, l'emploi du test t de Student-Fisher ou du test F de Snédécor ne sont strictement valables que si les populations échantillonnées sont distribuées selon la loi de Laplace-Gauss

Rechercher des sujets similaires à "comment comparer variables"