Comment supprimer des "quasi doublons" sans perte de données ? (Excel 2013)

Bonjour à tous,

J'ai un fichier excel de +/- 35 000 lignes qui contient un grand nombre de quasi doublons.

Un fichier vaut mieux que 1000 mots, donc je vous mets une situation en PJ qui résume parfaitement les problématiques rencontrées. Il contient 5 lignes et j'aimerais en avoir 2 à la fin du dédoublonnage sans pour autant perdre d'informations.

Est-il possible de "rassembler" des lignes doublons par une sorte de concatener horizontal ?

J'espère que ma situation sera claire pour vous mais n'hésitez pas à revenir vers moi au besoin .

Milles mercis,

Fabien

Bonjour,

en passant par un tableau croisé dynamique il serait possible de regourper certains doublons ;

Malheureusement comme ton exemple le montre ; certains doublons ne seront pas identifiés comme tel :

Exemple : "Fermes / Chartreuse" et "Fermes / La Chartreuse" différent pour Excel.

Par ailleurs tu n'expliques pas quels seront les données à conservées dans les autres colonnes ?

Ferme limon lng 4.85386 ou Ferme limon 4.54262 ??

Bonjour Xmenpl et merci pour ton retour.

J'imaginais bien ce type de réponse mais j'espèrais que l'expérience de la communauté aurait peut être déjà des règles pré-définies pour répondre à ces problématiques .

Dans ce cas, la règle serait :

  • Si A / D / E / F est identique ou proche (j'ai cru comprendre qu'il était possible d'exclure de la logique les virgules et différences minimes telles que les articles "Le" "Au" etc.)
  • Si B / C est identique (on garde 3 chiffres après la virgule pour la comparaison)
  • -> on regroupe les lignes
  • -> dans le cas de B et C, on garde l'info qui contient le plus de chiffres après la virgule
  • -> pour les autres colonnes idéalement il faudrait les concatener avec un indicateur de séparation type / \ etc.

Est-ce que cette règle te semble réaliste ou bien trop floue ?

Rechercher des sujets similaires à "comment supprimer quasi doublons perte donnees 2013"