Fusion fichier csv millions de ligne

Bonjour à tous,

Je cherche a constituer une liste exhaustive des sociétés commerciales immatriculées à l'insee. J'ai donc téléchargé le fichier csv stocketablissement.csv. Sur datagouv. Je me suis rendu compte après traitement sur power bi qu'il me restait 11 000 000 de sociétés. Hors, on estime qu'il y a 4 000 000 de sociétés commerciales en France.

Le problème est que je n'ai pas d'information sur la forme juridique dans ce fichier, donc il y a sans doute des sci, communes et associations qui viennnent alourdir le fichier.

Un autre fichier est rendu disponible par l'insee et dans lequel il y a la forme juridique par siren(fichier unitlegale) .

Si je fusionne les deux fichiers à partir de la colonne Siren, je pourrai avoir la forme juridique dans mon fichier recensant les établissements et je pourrai donc filtrer les lignes pour garder uniquement les sociétés commerciales.

Le problème est que je dois fusionner deux fichier de dizaines de millions de ligne et je n'ai pas réussi même avec python. Avez-vous une idée svp ?

Grand merci

bonjour,

Excel n'a que 1.048.000 lignes, donc si cela dépasse ce numero, on doit les mettre dans une autre feuille/colonne.

En VBA on peut facilement lire ce CSV de 11.000.000 sociétés dans un dictionaire, le seul problème, c'est qu'on a besoin d'un clé unique (ou une combinaision qui est unique, par example nom société + ville ou + numéro TVA ou ....

Alors avec le deuxième fichier et le même clé unique, vous pouvez ajouter les données de ce fichier au dictionaire.

Les sociétés sans données ajoutés, on les filtre et le reste on les envoie vers une feuille.

Je ne sais pas si vous pouvez nous joindre ces 2 fichiers (ou une partie) vue les lois applicables.

Bonjour,

Merci pour votre réponse. Les fichiers étant trop volumineux, 6 gigas et 3 gigas, je ne peux pas les poster dans le forum.
Les fichiers sont disponibles gratuitement sur le site datagouv.

Donc fichier Stock établissement et fichier stock unité légale.

image

Concernant votre remarque sur la clé unique. Le SIREN fait affaire de clé unique et de colonne de rapprochement.

j'étais sur ce site, ces sont quels fichiers que vous voulez utiliser et comment ?

Bonjour, Avec power query c'est pas possible ? Power query n'a pas de limite de lignes à ma connaissance tant que la requête n'est pas affiché dans Excel

J'ai réussi à obtenir le résultat voulu avec Power bi. Néanmoins c'est vrai que j'aurai aimé traiter les fichiers en amont de power bi pour garder uniquement les colonnes qui m'intéressent et filtrer les lignes qui ne m'intéressent pas pour ensuite traiter un fichier moins volumineux avec Power bi. (Meilleur temps d'actualisation).

Enfin bon c'est le résultat qui compte !

Grand merci à tous les deux pour votre temps et pour vous être intéressé à mon problème.

Rechercher des sujets similaires à "fusion fichier csv millions ligne"