Comment comparer 2 variables?

Bonjour,

Je ne sais pas du tout quelle démarche suivre pour comparer 2 types de variables... Je m'explique: j'analyse le profil touristique d'une attraction et je connais 4 variables socio-démographiques: le sexe de la personne, son âge, sa provenance et si la personne est venue accompagnée (par ex en famille).

Les autres variables sont qualitatives: l'intention de la personne de revisiter/recommander l'attraction, sa satisfaction et puis les notes qu'elle a donné à divers aspects de l'attraction.

En gros, je dois analyser les différences entre ces 2 variables (profil du visiteur vs leur avis sur l’attraction) et surtout voir si les variables démographiques influencent les réponses données. Pour cela, on m’a conseillé de faire des "tests statistiques" sur Excel, mais voilà je ne m’y connais vraiment pas… je vois où sont les formules etc., c’est plutôt lesquelles choisir qui me pose problème.

J’aimerais savoir donc quel(le) test/formule vous me conseillez pour obtenir ces résultats? J'aimerais juste valider ou invalider l'hypothèse comme quoi le sexe, l'âge, la provenance (touristes ou résidents) jouent un rôle sur la satisfaction, etc. sans faire quelque chose de trop compliqué. Je n’ai pas joint de fichier pour l’instant mais je peux le faire sans souci si qqn a une idée et aurait besoin du fichier pour voir plus clair (j’ai juste importé ces données dans un classeur excel pour le moment). Par ex, j'ai x nombre de gens de 16-25 ans qui ont été satisfaits, y nombre qui ont été insatisfaits, etc. pour chaque tranche d'âge (il y en a 5) et chaque degré de satisfaction (aussi 5)

Merci d'avance...

Bonjour,

selon moi, tu devrais établir s'il y a un lien entre les variables ou pas avec un test du khi2 (il existe plein de videos à ce sujet).

bonjour

commencer par tracer des courbes pour VOIR tes données

par ex :

  • satisfaction vs âge
  • satisf vs famille
  • âge vs famille

ensuite tu aviseras : ai-je des pseudo-droites, des paraboles, autres formes... ?

edit salut H2So4

les tests viendront après les courbes.

(il est possible qu'on se contente de régression linéaire ou autre)

Bonjour, Salut à tous !

Ce n'est pas un problème Excel que tu poses ! Tu vas avoir à établir des corrélations entre des caractéristiques de profil et le degré de satisfaction...

Tu commences donc par une statistique descriptive des données brutes, mettant en relation chaque caractéristique et le degré de satisfaction de la part de l'échantillon qui la possède.

L'examen de ces données initiale doit te permettre de formuler des hypothèses sur la possibilité d'une corrélation plus étroite entre telle ou telle caractéristique et le degré de satisfaction.

C'est à partir de là que la question du comment mesurer la validité de cette hypothèse avec Excel peut se poser, pas avant...

Pour ce qui précède, si vraiment tu n'as pas idée de comment procéder, il faudrait passer par un cours de Statistique...

Cordialement.

Bonjour,

pour visualiser tu devrais jeter un oeil aux graphiques en 'toile d'araignée'.

eric

Bonjour, Salut à tous !

Ce n'est pas un problème Excel que tu poses ! Tu vas avoir à établir des corrélations entre des caractéristiques de profil et le degré de satisfaction...

Tu commences donc par une statistique descriptive des données brutes, mettant en relation chaque caractéristique et le degré de satisfaction de la part de l'échantillon qui la possède.

L'examen de ces données initiale doit te permettre de formuler des hypothèses sur la possibilité d'une corrélation plus étroite entre telle ou telle caractéristique et le degré de satisfaction.

C'est à partir de là que la question du comment mesurer la validité de cette hypothèse avec Excel peut se poser, pas avant...

Pour ce qui précède, si vraiment tu n'as pas idée de comment procéder, il faudrait passer par un cours de Statistique...

Cordialement.

Hello,

Merci pour ta réponse... je n'ai jamais rien compris à ce genre de trucs, c'est vraiment pas mon domaine.. j'ai passé l'après-midi dessus à essayer mais je ne sais toujours pas comment faire, pas grave, merci quand même

En gros, je dois analyser les différences entre ces 2 variables (profil du visiteur vs leur avis sur l’attraction) et surtout voir si les variables démographiques influencent les réponses données. Pour cela, on m’a conseillé de faire des "tests statistiques" sur Excel,

Tu t'attaques à du lourd; je n'ai pas voulu répondre d'emblée ... il y a des logiciels plus appropriés comme MiniTab. Sur excel tout est possible. Mais en plus tu t'attaques à des variables discrètes ! Ce n'est pas le plus simple. Faire les tests de normalité, de représentativité de la population, puis de corrélation.

Franchement, demander cela à quelqu'un !! soit c'est une formation / stage genre lean 6 sigma manufacturing ou office ou une formation ingénieur ou statisticien. Je ne sais pas dans quel cadre tu te trouves ...

jmd a raison, commence par dessiner, cela peut "sauter" aux yeux pour commencer à y voir clair.

re

autre possibilité, entrer dans un autre monde !

s'inscrire sur Azure ML (ou autre équivalent) et faire tourner des expériences de Machine Learning pour espérer clusteriser tes populations

mais, bon, il te faut 15 jours pour être opérationnel, si tu es un petit peu matheux (sinon, laisse tomber).

c'est faisable !

si le domaine de l'IA te chatouille, fonce !

re

autre possibilité, entrer dans un autre monde !

s'inscrire sur Azure ML (ou autre équivalent) et faire tourner des expériences de Machine Learning pour espérer clusteriser tes populations

mais, bon, il te faut 15 jours pour être opérationnel, si tu es un petit peu matheux (sinon, laisse tomber).

c'est faisable !

si le domaine de l'IA te chatouille, fonce !

Merci .. justement les maths sont la seule branche où je n'ai plus réussi à avoir la moyenne dès que cela s'est compliqué un petit peu... du coup.. je crois que je ne vais pas tenter

En gros, je dois analyser les différences entre ces 2 variables (profil du visiteur vs leur avis sur l’attraction) et surtout voir si les variables démographiques influencent les réponses données. Pour cela, on m’a conseillé de faire des "tests statistiques" sur Excel,

Tu t'attaques à du lourd; je n'ai pas voulu répondre d'emblée ... il y a des logiciels plus appropriés comme MiniTab. Sur excel tout est possible. Mais en plus tu t'attaques à des variables discrètes ! Ce n'est pas le plus simple. Faire les tests de normalité, de représentativité de la population, puis de corrélation.

Franchement, demander cela à quelqu'un !! soit c'est une formation / stage genre lean 6 sigma manufacturing ou office ou une formation ingénieur ou statisticien. Je ne sais pas dans quel cadre tu te trouves ...

jmd a raison, commence par dessiner, cela peut "sauter" aux yeux pour commencer à y voir clair.

Bon au moins ton message me rassure... j'avais l'impression d'être vraiment bête... et justement je n'ai presque aucune expérience avec excel donc pas facile de s'attaquer directement à ce style d'analyse

joins un fichier avec des données trafiquées (pour masquer les vraies qui sont confidentielles)

joins un fichier avec des données trafiquées (pour masquer les vraies qui sont confidentielles)

Je ne sais pas si ce sera très utile, mais je t'envoie ces tableaux en exemple pour que tu puisses mieux comprendre mon "problème". En gros, je mets le total des gens qui ont répondu (selon le genre ou l'âge) aux différents degrés proposés... mais je suis vraiment très nulle, à partir de là je ne sais pas quoi faire peut-être organiser les variables différemment? J'ai vu une vidéo youtube où le type a le même genre de données et d'abord il calcule le mode et la médiane, ça lui donne un nombre mais ce nombre = satisfaction...

Re,

c'est passé inaperçu, mais bon, un exemple quand même :

2018 08 12 00 12 33

eric

Re,

c'est passé inaperçu, mais bon, un exemple quand même :

2018-08-12_00-12-33.png

eric

Merci pour ton exemple Éric J'ai justement généré plusieurs graphiques mais je ne connaissais pas ce type

J'ai regardé un travail fait précédemment, ce n'est pas exactement pareil mais celui qui l'a rédigé écrit par exemple une hypothèse et ensuite il calcule le mode, la médiane et l'écart type et la réponse à sa question contient plusieurs échelles de difficultés. C'est une question sur l'accessibilité d'un endroit, son hypothèse "l'endroit est difficile d'accès" et donc ensuite il calcule ce que j'ai dit plus haut. Seulement je ne sais pas trop comment interpréter les résultats :/ et surtout si ça montre une certaine dépendance des variables...

si tu ne traces pas de courbes, toile d'araignée ou simples xy, un peu dans tous les sens, tu vas piétiner

car ce que tu as en tête avec des calculs plus ou moins complexes, c'est une conclusion et non un point de départ

trace !

et joins un fichier avec des données bidons !

Une bonne pratique dans ton cas est de pouvoir passer de variable discrète à variable continue car tu peux noter le degré de satisfaction de 1 à 5 (puisqu'il n'y a qu'une seule dimension) et idem avec les âges en prenant la moyenne des tranches. Et calculer ainsi le coef de corrélation.

Mais c'est une méthode de plus ...

si tu ne traces pas de courbes, toile d'araignée ou simples xy, un peu dans tous les sens, tu vas piétiner

car ce que tu as en tête avec des calculs plus ou moins complexes, c'est une conclusion et non un point de départ

trace !

et joins un fichier avec des données bidons !

Bon mon prof m'a enfin répondu, il me parle de régression, corrélation, test anova... je t'envoie ce que j'ai fait et j'espère que c'est juste... par contre j'ai essayé de faire un nuage de points et ça m'a l'air pas très correct :/ et sinon je pense que je vais surtout focaliser mon analyser sur l'intention de revisiter l'attraction, ce qui est le plus important selon moi

4forum.xlsx (74.18 Ko)

Bon mon prof m'a enfin répondu, il me parle de régression, corrélation, test anova...

Bon c'est un ayatollah de la stat alors ! j'ai même cru à un moment que c'était un pur de chez les purs qui nous avait posté une question pour nous piéger. Car même quand je donnais des cours de stat & proba (il y a fort longtemps) en BTS au CNAM je ne traumatisais pas mes élèves avec ces questions

Bon faut qu'on s'y mette alors ? je vais laisser jmd ...

En gros, sur les principes généraux :

X continu, Y continu => on fait une régression

X discret, Y discret => on fait un test du Khi2

X discret, Y continu => test T (Student) ou Anova (1 ou plusieurs facteurs)

Deux citations de George Box :

George Box a écrit :

Tous les modèles sont faux, mais certains sont utiles.

Les statisticiens sont comme les artistes, ils tombent amoureux de leurs modèles.

Rechercher des sujets similaires à "comment comparer variables"