Analyse de donnees
Bonjour à tous,
Je dois opérer une extraction d'un CRM avec des donnees d'entreprises et les interlocuteurs identifiés par nos services qui y sont rattachés.
Jusque là, aucun problème.
Un de nos services à récupéré un autre fichier ou figurent des entreprises ou se trouvent des personnes également identifiées par leurs soins.
Le challenge consiste comme vous l'aurez devine, à comparer les noms des entreprises avec des dénominations qui seront plus ou moins proches voire carrément éloignées....
Quelle serait la meilleure approche pour entamer un rapprochement, sachant que nous ne disposons pas d'élément clef comme un SIRET ou un SIREN !
Le fichier fait environ 5 à 6 000 lignes.
Il ne s'agit bien évidemment pas de mettre au point un algorithme sophistiqué mais de savoir s'il est possible de créer une relation sur un millier de lignes environ.
Merci d'avance pour vos suggestions,
Bien amicalement,
Philippe
Philou49 a écrit :Il ne s'agit bien évidemment pas de mettre au point un algorithme sophistiqué mais de savoir s'il est possible de créer une relation sur un millier de lignes environ.
Bonjour Philou49,
Il faudrait d'abord avoir un aperçu des données à traiter, pour voir à quel point les données à comparer sont éloignées les unes de autres. Par exemple, si une feuille comporte des noms en majuscule et l'autre en minuscules,, il y aura des traitements simples possibles.
Mais si on est dans de l'analyse phonétique, évidemment, l'algorithme sera plus complexe.
Bref, la réponse est dans la question...
Cordialement, Daniel
bonjour à vous
ce genre de comparaison a lieu lorsqu'on veut faire des mailings par la poste, sur papier. Et ce genre de prospection n'existe plus !
(sinon en email, les adresses emails étant des textes rigoureusement identiques, il y a des méthodes faciles de comparaison de 2 listes)
sinon, pour ce qui est de la prospection par téléphone ou visite, il faut donner une base à ton commercial, qui servira de base définitive, et à chaque fois qu'il attaque un nouveau prospect, il fait une recherche dans l'autre base (ctrl+R et saisie d'une partie du nom)
ainsi on étale dans le temps la synchronisation des bases
j'ai déjà fait ça dans 2 entreprises
Bonjour JMD,
En fait nous gérons avec notre CRM toute notre base de données en allant très loin dans les opérations, il ne s'agit pas d'un produit de base, mais de Microsoft Dynamics CRM 2013.
Notre base en fait n'est pas impliquée dans sa gestion quotidienne.
Simplement, un service de notre entreprise a besoin ponctuellement et à titre exceptionnel, de procéder à un croisement de données entre les données "entreprises" et "employés clefs" identifiés dans notre CRM (D.R.H, D.G, P.D.G, etc.) et ce fichier de prospection qui a une toute autre provenance, et un tout autre usage.
Dans notre CRM, les entreprises ont été qualifiées depuis 10 ans et ont été saisies selon les utilisateurs.
Exemple : la SARL TOTO a été saisie sous "TOTO", mais vous vous doutez bien que le magasin Décathlon de Tours ne sera pas saisie comme le siège social, ou une autre entité de la société.
Sauf à prendre la dénomination officielle figurant dans les BDD juridiques impossible d'avoir une identification certaine.
L'autre fichier mentionne le nom des sociétés que l'on souhaite croiser en tant qu'employeurs, ce n'est donc pas la priorité de la qualification de ce second fichier, d'où forcément des hétérogénéités et l'impossibilité de qualifier en utilisant un identifiant unique SIRET ou un SIREN dont nous ne disposons pas dans ce deuxième fichier.
Je cherche en fait à savoir s'il existe une formule ou une méthodologie pour se baser sur le Plus Petit Commun Dénominateur.
En gros pour reprendre notre exemple supra, si je cherche les 4,5 ou 6 caractères qui seraient communs y a t'il un moyen d'y parvenir avec un succès raisonnable ?
Mon challenge : dégrossir et essayer d'extraire au moins 1 500 résultats positifs corrects avant... jeudi prochain, sinon dire que cela est impossible !
Bien amicalement,
Philippe.
re
je pense qu'on a bien compris ton souci technique
mais tu devrais joindre un fichier avec 2 colonnes contenant quelques exemples à comparer
ya pas des codes postaux aussi ? des villes ?
re re
un logiciel comme tu cherches, avec une version d'évaluation !
http://www.dataqualityapps.fr/
Exemple:
Albert Einstein Degré de Concordance
= Einstein Albert 100%
= A. Einstein 95%
= Albert Einssein 98%
= Abert Meinstein 87%
Re,
Il n'y a pas de mal !
Pour les données, non je n'ai pas les fichiers sous la main, ils sont au bureau, mais en fait il suffit juste d'imaginer que dans mes extractions que je peux gérer sous Excel puisqu'elles s'opèrent au format XLS, je dispose de toutes les données d'identification d'une entreprise telles qu'adresse, numéro de téléphone, email, SIRET, code NAF/APE, et d'autres données de qualification propres à notre entreprise mais que je n'exporterai pas car non pertinentes, et de l'autre, un fichier avec des colonnes qui donnent la fiche d'identité de personnes employées de sociétés mais dont on ne dispose que du nom !
Je ne peux pas en dire plus sur ce fichier car cela est confidentiel, mais il, s'agit d'un annuaire de personnes...
C'est ça le point noir de l'opération !
On ne peut se baser que sur le nom de la société tel qu'il a été saisi !
En fait oui, le logiciel dont le lien a été communiqué est EXACTEMENT ce que je souhaite faire !
Je vais me pencher dessus car il semble extrêmement prometteur !
Ne sachant pas si j'aurai le feu vert pour faire l'acquisition de ce logiciel, selon vous, existe t-il une possibilité d'effectuer ce type d'opération avec Excel sans rentrer dans de la programmation ?
C'est juste ma question !
Bien cordialement,
Philippe
1- à mon avis faire la programmation c'est pas de la tarte (le preuve il y a des logiciels payants)
2- invente-nous un exemple/un template puisque tu ne peux pas mettre les originaux
3- le logiciel peut-être testé gratuitement il me semble
Bonsoir,
Je vais tâcher de mettre quelques exemples histoire de bien comprendre les différences dès que j'aurais pu les récupérer.
Pour répondre à une des questions précédentes, non, on ne peut pas non plus se baser sur une concordance codes postaux ou villes car dans le premier fichier extrait du CRM il y a bien toutes ces indications, mais dans le second, les données sont focalisées sur les personnes, et ces informations ne concernent pas les entreprises.
On possède le nom de l'entreprise, c'est tout !
Ce serait trop facile hélas !
Bien amicalement,
Philippe.