Repérer textes similaires mais non identiques

Bonjour,

Une aide experte m’est nécessaire pour débusquer des textes similaires mais non identiques dans une longue série d’environ 3000 cellules.

L’objectif est donc de repérer et de localiser des textes qui ont un pourcentage de mots communs suffisamment importants pour supposer qu’ils sont similaires et que seul un verbe ou un adjectif diffère. Un examen manuel permettant dans un deuxième temps de le déterminer.

Je ne sais pas s'il y a une solution par formule, mais sachant que je ne connais pas le VBA, merci de bien vouloir me considérer comme la débutante si la solution proposée passe par une macro.

En PJ un exemple explicite de fichier.

Je vous remercie de votre aide indispensable, car malgré mes recherche je n’ai pas trouvé de solution satisfaisante à ce problème.

Bonne journée

Valérie

bonjour,

une proposition avec une macro VBA excel (nécessite donc excel) et ne fonctionnera pas sous openoffice.

Bonjour h2so4,

Merci beaucoup pour cette macro !

Un complément cependant, quel paramètre dois-je modifier pour étendre la plage prise en compte dans l'exemple A2:A4 à l'ensemble de la colonne A ?

Par ailleurs, des tests me montrent que le % n'est pas borné à 100%, donc j'obtiens des résultat > 100%.

L'objectif étant bien de trouver si dans la cellule considérée quel est le % de similitude avec un autre texte présent dans une autre cellule de la même plage.

Merci encore pour votre aide.

Valérie

bonjour,

effectivement, c'était loin d'être correct !

voici une nouvelle version, j'espère que ce sera mieux cette fois !

2 macros différentes, l'une qui compte le nombre de mots identiques (aargh) et une autre qui se base sur la séquence des caractères (aargh1) en utilisant la fonction de levenshtein.

Bonjour h2so4,

Oui, mon bonheur est immense,

Car, grâce à votre procédé,

Rien n’égale ce filtrage,

Sinon mon badinage,

Mais le vôtre est utile,

Le mien est bien plus futile…

Je vous remercie infiniment pour cette fonctionnalité indispensable pour repérer les similaires dans de longues listes. Et en pensant aux longues heures naguère passées à vérifier à vue…j’espère que ce code sera mise en avant, pour aider la communauté, car je suis certaine que nombreux ce sont heurtés aux limites de la recherche des doublons sous Excel…

Merci encore !

Cordialement,

Valérie

des remerciements en vers, une première pour moi !

la douceur du vair

la transparence du verre

l'agilité du ver

l'espoir du vert

je me perds dans tous ces vers (ou ces vairs ou encore verts ou verres)

La polysémie des mots est à l’instar de celle du code… c’est le contexte d’usage qui en détermine le sens, mais ne maîtrisant rien du second, je ne pouvais que bredouiller quelques mots du premier. 😉

Rechercher des sujets similaires à "reperer textes similaires identiques"