Bonjour à tous,
Je cherche a constituer une liste exhaustive des sociétés commerciales immatriculées à l'insee. J'ai donc téléchargé le fichier csv stocketablissement.csv. Sur datagouv. Je me suis rendu compte après traitement sur power bi qu'il me restait 11 000 000 de sociétés. Hors, on estime qu'il y a 4 000 000 de sociétés commerciales en France.
Le problème est que je n'ai pas d'information sur la forme juridique dans ce fichier, donc il y a sans doute des sci, communes et associations qui viennnent alourdir le fichier.
Un autre fichier est rendu disponible par l'insee et dans lequel il y a la forme juridique par siren(fichier unitlegale) .
Si je fusionne les deux fichiers à partir de la colonne Siren, je pourrai avoir la forme juridique dans mon fichier recensant les établissements et je pourrai donc filtrer les lignes pour garder uniquement les sociétés commerciales.
Le problème est que je dois fusionner deux fichier de dizaines de millions de ligne et je n'ai pas réussi même avec python. Avez-vous une idée svp ?
Grand merci