Comparaison de la corrélation entre 2 colonnes de données binaires

Bonjour à tous,

Je suis médecin, et j'ai besoin de vous pour un projet d'étude clinique. Il existe surement déjà un sujet du forum qui traite de ça, mais je n'arrive pas à le trouver.

Il existe un score clinique comportant 10 items à résultat binaire "présent/absent", donnant un total numérique (correspondant à la somme des items précédents). Dans l'étude, qui portera sur plusieurs centaines de patients, j'aimerais savoir s'il existe une concordance pour chaque item lorsqu'il est rempli par 2 médecins différents.

capture d ecran 2018 06 18 a 17 17 42

Du coup dans l'image ci dessus, j'aimerais savoir par exemple, le degré de corrélation entre les données de la colonne A du premier score et celles de la colonne A du 2nd score, sachant bien évidemment que chaque ligne représentera un patient.

En gros, est ce que je peux le faire moi même ou bien faudra t il que je demande à un statisticien?

Merci beaucoup à vous tous.

amicalement

bonjour

joindre un fichier et non une image, en profiter pour ne pas mettre les colonnes sans intérêt pour la question

oui, il faudra un statisticien pour veiller à bien interpréter les résultats

danger grave de mauvaise interprétation selon la variance, et selon le modèle de distribution, la population (homogène ou non)

et les autres biais éventuels

où est l'échantillon témoin ?

veux-tu faire un modèle, avec quelle méthode d'IA ?

Bonsoir,

Je ne comprends pas bien ton propos... je suppose que chaque ligne correspond à un patient.

Je ne sais pas ce que représente chaque item, mais si on fait la somme des valeurs "présent" cela veut dire que les items sont totalement interchangeables, sinon la somme n'a strictement aucun sens.

Rechercher la concordance me semblait être au niveau de chaque item. On peut avoir 2 scores avec le même nombre d'items à 1 sans aucune concordance.

Un résultat sur 10 items évalués de façon binaire offre 1024 résultats possibles...

Cordialement.

Bonsoir.

Pour mieux illustrer mon propos, je vous transmets un vrai tableau Excel (je vous le mets en format xls et xlsx comme ça vous aurez le choix ).

Il s'agit d'une population homogène, mais par contre sans répartition Gaussienne (je pense).

Plus d'explications sur ce score : il sert à estimer la probabilité qu'a un patient d'avoir une maladie en fonction de certains de ces critères cliniques. Les 9 premiers items valent +1 chacun s'ils sont présents, le 10ème vaut -2 s'il est présent. Les résultats du score peuvent donc varier de -2 à +9. Mon but sera d'évaluer si ce score est reproductible entre 2 médecins, donc est ce que 2 médecins vont estimer un score identique pour un même patient à un moment t donné. (car certains items sont subjectifs).

Sur le tableau Excel, le 2ème score est considéré comme le témoin ("médecin expert"). Chaque ligne correspond effectivement à un patient différent.

13etude.zip (9.58 Ko)
5etude.xlsx (36.55 Ko)

En tout cas je vous remercie de vos réponses si rapides et si pertinentes.

Amicalement

PS : ne faites pas attention à la case "milieu". C'est un oubli de ma part.

Il me semble, si je n'ai pas regardé trop vite, que la majorité des évaluations présentent des différences, et même quand le score est identique les appréciations critère par critère ne le sont pas...

A ce stade, il convient (on est en amont d'une étude statistique...) de préciser la signification du score.

Est-ce qu'il est représentatif d'une probabilité estimée d'avoir la maladie ?

Et est-ce la variation de score à une unité près est significative (en terme de diagnostic) ?

Ou vaut-il mieux une répartition plus lâche (Très problable, Probable, Peu probable, Pas du tout probable) ? [ce qui renforcerait les convergences...]

Et effectivement, si l'on ne vise que l'évaluation d'une probabilité, on peut assimiler des jugements convergents bien que ne reposant pas sur les mêmes critères.

A ce niveau, on est toujours dans l'acceptabilité de chaque élément de l'échantillon, on ne retiendrait que les convergents pour l'étude.

Cependant je crois bien que l'étude dans ce cas ne permet que d'évaluer la fiabilité du diagnostic global (obtention de la maladie en rapport avec le score ou la répartition faite selon le score.

Par contre, si l'on veut étudier la validité des critères d'évaluation, au niveau échantillonnage, on retient pour chaque item la convergence du jugement sur l'item, on fait une étude par item, qu'on complète après première analyse par étude sur des regroupements d'items, de façon à faire ressortir la contribution de chacun... A l'issue on pourra évaluer quels sont les critères les plus significatifs pour poser un diagnostic (selon résultats évidemment).

Pour résumer, le problème premier d'une analyse statistique n'est pas statistique ! Il consiste à définir la méthode, les critères de composition d'échantillons, les objectifs de l'étude... éléments essentiellement qualitatifs. Ensuite avec les études stats, on passe dans le quantitatif, et la détermination de degrés de corrélation... (la statistique n'a de raison d'être utilisée que lorsque le résultat ne peut pas être simplement Vrai ou Faux), sans oublier l'évaluation de la fiabilité des résultats obtenus (fourchette de validité), qui commence d'ailleurs par l'examen critique des données retenues pour l'étude afin de déterminer si elles permettent l'application des lois statistiques qui seront utilisées... Il y a effectivement intérêt que les études soient réalisées par quelqu'un rompu aux travaux stats, mais pour le qualitatif préalable, ce sont les spécialistes de la matière étudiée qui ont la main.

Cordialement.

Rechercher des sujets similaires à "comparaison correlation entre colonnes donnees binaires"