Comparaison de la corrélation entre 2 colonnes de données binaires

Question

Je suis médecin, et j'ai besoin de vous pour un projet d'étude clinique. Il existe surement déjà un sujet du forum qui traite de ça, mais je n'arrive pas à le trouver. Il existe un score clinique comportant 10 items à résultat binaire "présent/absent", donnant un total numérique (correspondant à la somme des items précédents). Dans l'étude, qui portera sur plusieurs centaines de patients, j'aimerais savoir s'il existe une concordance pour chaque item lorsqu'il est rempli par 2 médecins différents. Du coup dans l'image ci dessus, j'aimerais savoir par exemple, le degré de corrélation entre les données de la colonne A du premier score et celles de la colonne A du 2nd score, sachant bien évidemment que chaque ligne représentera un patient. En gros, est ce que je peux le faire moi même ou bien faudra t il que je demande à un statisticien? Merci beaucoup à vous tous. amicalement...

jmd · Answer

Joindre un fichier et non une image, en profiter pour ne pas mettre les colonnes sans intérêt pour la question oui, il faudra un statisticien pour veiller à bien interpréter les résultats danger grave de mauvaise interprétation selon la variance, et selon le modèle de distribution, la population (homogène ou non) et les autres biais éventuels où est l'échantillon témoin ? veux-tu faire un modèle, avec quelle méthode d'IA ...

MFerrand · Answer

Je ne comprends pas bien ton propos... je suppose que chaque ligne correspond à un patient. Je ne sais pas ce que représente chaque item, mais si on fait la somme des valeurs "présent" cela veut dire que les items sont totalement interchangeables, sinon la somme n'a strictement aucun sens. Rechercher la concordance me semblait être au niveau de chaque item. On peut avoir 2 scores avec le même nombre d'items à 1 sans aucune concordance. Un résultat sur 10 items évalués de façon binaire offre 1024 résultats possibles... Cordialement...

MFerrand · Answer

Il me semble, si je n'ai pas regardé trop vite, que la majorité des évaluations présentent des différences, et même quand le score est identique les appréciations critère par critère ne le sont pas...

A ce stade, il convient (on est en amont d'une étude statistique...) de préciser la signification du score.

Est-ce qu'il est représentatif d'une probabilité estimée d'avoir la maladie ?

Et est-ce la variation de score à une unité près est significative (en terme de diagnostic) ?

Ou vaut-il mieux une répartition plus lâche (Très problable, Probable, Peu probable, Pas du tout probable) ? [ce qui renforcerait les convergences...]

Et effectivement, si l'on ne vise que l'évaluation d'une probabilité, on peut assimiler des jugements convergents bien que ne reposant pas sur les mêmes critères.

A ce niveau, on est toujours dans l'acceptabilité de chaque élément de l'échantillon, on ne retiendrait que les convergents pour l'étude.

Cependant je crois bien que l'étude dans ce cas ne permet que d'évaluer la fiabilité du diagnostic global (obtention de la maladie en rapport avec le score ou la répartition faite selon le score.

Par contre, si l'on veut étudier la validité des critères d'évaluation, au niveau échantillonnage, on retient pour chaque item la convergence du jugement sur l'item, on fait une étude par item, qu'on complète après première analyse par étude sur des regroupements d'items, de façon à faire ressortir la contribution de chacun... A l'issue on pourra évaluer quels sont les critères les plus significatifs pour poser un diagnostic (selon résultats évidemment).

Pour résumer, le problème premier d'une analyse statistique n'est pas statistique ! Il consiste à définir la méthode, les critères de composition d'échantillons, les objectifs de l'étude... éléments essentiellement qualitatifs. Ensuite avec les études stats, on passe dans le quantitatif, et la détermination de degrés de corrélation... (la statistique n'a de raison d'être utilisée que lorsque le résultat ne peut pas être simplement Vrai ou Faux), sans oublier l'évaluation de la fiabilité des résultats obtenus (fourchette de validité), qui commence d'ailleurs par l'examen critique des données retenues pour l'étude afin de déterminer si elles permettent l'application des lois statistiques qui seront utilisées... Il y a effectivement intérêt que les études soient réalisées par quelqu'un rompu aux travaux stats, mais pour le qualitatif préalable, ce sont les spécialistes de la matière étudiée qui ont la main.

Cordialement.