Comparaison probabilistique de strings

Bonjour,

J'ai 2 bases de donnée. L'une d'elle appartient à mon entreprise, l'autre à une entreprise connexe.

Nous souhaitons vérifier les doublons entre nos 2 bases de données. Dans les 2 cas, les données à comparer sont en colonnes 5 des 2 feuilles.

J'ai d'abord commencé par un simple "Instr()" ==> 14/830 matchs possible

J'ai ensuite retiré tous les caractères pouvant perturber (pour ça, j'ai doublé la la colonne 5 en 6 et fait un "replace" sur la 6 puis comparé les 2 colonnes 6). ==> 17/830 matchs possibles.

Du coup, je voudrais maintenant que si la comparaison correspond à disons 80% de caractères, écrire malgré tout la réponse...

ça paraît réalisable? Instr() ne renvoie une réponse que si il trouve la position de la chaîne exacte.

Peut-être en découpant avec une fonction left/right/mid?

Je vous joins le Excel au cas ou vous voudriez vous amuser.

5export-copie.zip (486.21 Ko)

bonjour grexcel, avec l'aide de "Fuzzy Logic" de Microsoft Labs, j'arrive à 28% avec un match de >=0,80, même 68% pour un match >=0,60

4export-copie.zip (1.11 Mo)

Mais, il faut encore vérifier parce que c'est fuzzy ...

https://www.mrexcel.com/excel-tips/excel-2020-use-the-fuzzy-lookup-tool-from-microsoft-labs/

Bonjour Bart,

Merci pour cet outils! vraiment intéressant!

Je vais faire avec ça je pense, ça me prémache le boulot bien comme il faut.

Sujet résolu.

re, on peut aussi demander plusieurs résultats par ligne ! J'avais fait cela mais mon fichier dépassait 1.5MB et je ne pouvais pas le mettre en PJ. Donc,

Alors, par exemple, le premier aura un match de par exemple 82% et le 2ième 75% mais après votre vérification, vous préférez le 2ième, tout est possible, c'est fuzzy.

On fait cela avec "number of matches", je n'ai pas touché au "similarity threshold" et non plus au "configure"

image

la colonne E, il faut choisir le format "%", autrement ce n'est pas lisible, colonne F, c'est l'explication, si vous choississez "retour à la ligne", c'est aussi mieux lisible ...

image

Je trouve l'outil génial et hyper ludique, je vais y passer la journée ;)

Rechercher des sujets similaires à "comparaison probabilistique strings"