Identification des doublons sur la base des attributs de produits

Bonjour,

Je suis sur une problématique un peu complexe mais je suis sûr que je peux la solutionner en utilisant excel, sauf que je n'arrive pas à trouver une méthode pour y parvenir.

Je vous explique : j'ai un magasin plein de produits à gérer (on va considérer que c'est des stocks) et je dois identifier les produits en double

Cette identification se basera sur des attributs. En effet, chaque produit a une vingtaine d'attributs : cela peut être une valeur numérique (longueur, largeur, poids, ...), alphabétique (marque, constructeur, ...) ou alphanumérique (code fournisseur, code de rangement, ...)

J'ai donné sur le fichier excel une illustration avec 200 lignes pour les produits et 20 colonnes pour les attributs. En vrai, j'ai plus de 10 000 produits

Mon objectif c'est d'identifier les produits en double sur la base des valeurs des attributs, chaque attribut aura une pondération.

Les pondération vont de 1 (pour les attributs ayant un faible potentiel d'identification de doublons) à 5 pour des articles ayant un fort potentiel d'identification de doublons

Par exemple, l'attribut 1(longueur) aura une pondération de 1 parce que 2 produits de même longueur ne sont pas forcément un doublon. L'attribut 3(code fournisseur) aura une pondération de 4 parce que 2 produits ayant le même code fournisseur , il y a de grandes chances que ce soit des doublons.

Avez-vous en tête une méthode excel qui peut m'aider à trouver les doublons de produits ?

Je pense notamment à créer une matrice carré avec 200 lignes et 200 colonnes (le nombre de produits) (onglet méthode identification doublon sur le fichier excel) et où sur chaque cellule je mettrai la note finale de comparaison entre le produit i et le produit j, les notes supérieurs à certain seuil que je choisirai seront les doublons, sauf que je n'arrive pas à mettre en place les formules qui m'aideront à le faire

Merci beaucoup d'avance.

Bonjour à tous,

Je suis vraiment dans une impasse, auriez-vous une méthode pour traiter ce sujet svp

Merci d'avance de votre aide

Bonjour

Le souci c'est que votre fichier n'est très pas représentatif. Vous parlez de 200 lignes mais une seul est remplie
La pondération est un renseignement dans la feuille ?
L'attribut 3... comment on sait dans votre feuille que c'est le code fournisseur ?

Vous devriez mettre un exemple avec plus de données et surtout le résultat attendu

Cordialement

Bonjour

Je vous remercie de votre retour, j'ai alimenté le fichier avec des exemples sur 5 produits et j'ai mis 3 onglets

le premier onglet décrit la valeur des attributs '(en colonnes) par produits (en lignes)

Le second onglet définit la pondération

Le 3ème onglet sera une analyse comparative entre produits par produit : par exemple pour le produit 1 il a une note de 3 par rapport au produit 2 (attribut 2 * pondération = 2 + attribut 17* pondération = 1)

Après je compte définir un seuil à partir duquel on peut considérer que les produits sont des doublons. Par exemple si le seuil est 5, on peut dire qu'on a sur cet exemple un seul doublon c'est le produit 1 avec le produit 5

Le 3ème onglet sera une analyse comparative entre produits par produit : par exemple pour le produit 1 il a une note de 3 par rapport au produit 2 (attribut 2 * pondération = 2 + attribut 17* pondération = 1)

désolé mais je n'ai pas compris la logique

- pourquoi l'attribut 17 ?
- L'onglet 3 c'est ce que vous obtenir ?

Bonjour,

Désolé si je ne suis pas clair, je m'explique :

Mon hypothèse est que de manière générale pour avoir un doublon entre 2 produits il faut que ces 2 produits aient à minima un certains nombre d'attributs semblables, et bien sûr chaque attribut a sa propre pondération

Je m'explique pour cette dernière partie : 2 produits ayant le même attribut ''longueur'' ne sont pas forcément des doublons par exemple un double décimètre peut avoir la même longueur d'un ipad ... et donc pour l'attribut longueur j'attribue la pondération 1

Par contre 2 produits ayant le même attribut fournisseur, il y a de fortes chances que ça soit un doublon, et donc je leur attribue une pondération de 5

Et afin d'identifier ces doublons, pour chaque produit et par rapport aux autres, je somme les attributs semblables multipliés par leur pondération.

Et dans mon exemple : les attributs en commun entre le produit 1 et 2 sont les attributs 2 et 17 qui ont respectivement les pondérations 2 et 1, donc la somme est de 3.

L'onglet 3 en effet donne le résultat escompté, la difficulté actuellement est de pouvoir l'automatiser car j'ai des millions de lignes à traiter

bonjour le fil, comme-ça ?

Un GRAND GRAND merci, vous êtes mon sauveur, ça marche nickel

Je suis en train d'industrialiser le fichier sur tous les produits de mon magasin, et vous avez raison, cela devient rapidement très lent. Pour des magasins avec 500 produits, ça passe mais j'ai d'autres magasins avec 100 000 produits, je vais voir comment y procéder.

Dernière questions SVP : je vais transférer le fichier à des magasiniers pour me valider les doublons trouvés, pour leur faciliter la tâche, y a-t-il un moyen de :

- masquer la partie inférieur de la matrice comme ça j'évite le risque qu'ils fassent le travail en double

- afficher sur une colonne le résultat par produit suite à un seuil choisi, par exemple pour le produit 1 si on choisit un seuil de 2, il y a les 2 produits "produit 2, produit 5" qui doivent être affichés

Je vous ai mis l'illustration sur l'onglet "Méthode identification doub V2" et la colonne Q

Merci beaucoup encore une fois

re,

quand on parle de 100.000 produits dans un xls (avec 65.500 lignes), il y a quelque chose qui n'est pas okay.

Maintenant, on compare avec une macro, qui écrit uniquement les combinaisons avec des valeurs égales (=le sommeproduit >0) vers un tableau dans la feuille "data".

Puis on crée un TCD avec ce tableau comme source.

La colonne F est le résultat voulu, je supposes.

Bonjour,

Merci beaucoup, j'ai bien saisi la formule pour avoir le résultat sur la colonne F

Par contre, je n'ai pas compris comment vous avez eu votre premier tableau (colonnes A, B et C), je suis nul en macro j'en ai jamais utilisé

Rechercher des sujets similaires à "identification doublons base attributs produits"