Ouvrir .csv plusieurs millions de lignes

Bonjour à vous tous !

Me revoilà avec toujours le même enjeu que dans mon premier post.

Mais cette fois, j'aimerais pouvoir traiter le fichier CSV - trop volumineux pour être joint à ce message, voilà le lien de téléchargement :

Comme il me l'a été conseillé, je l'ouvre avec Access, mais même avec Access ça rame HORRIBLEMENT.

Comment traiter ce .CSV, du coup ?

Dois-je le transformer en un autre format ?

Très agréable journée à vous !

Bonjour,

1692007 lignes et 40 colonnes !...

Essaie d'attaquer ton fichier avec Power Query en supprimant les colonnes inutiles, en filtrant les données comme tu le ferais sous Excel, etc...

Exemples : associations dissolues, code social, etc...

Tu n'as certainement pas besoin de toutes les données.

Précise ce que tu veux de ton csv.

Cdlt.

Bonjour à tous,

Pour m'excuser de ma dernière intervention ratée de l'autre fil, est-ce que ce lien pourrait t'intéresser :

https://public.opendatasoft.com/explore/dataset/associations/export/?q=protection+animale

capture

* cf "onglet" Export" => formats excel ou csv possibles

* filtrage par d'autres mots clé possible (ici : protection+animale), exemple :

https://public.opendatasoft.com/explore/dataset/associations/export/?q=protection+animale&refine.theme_libelle=protection+des+animaux

(985 lignes, code=024026 ...)

* autre exemple pour filtre sur thème_code=024000

https://public.opendatasoft.com/explore/dataset/associations/table/?refine.theme_code=024000

ou thème_code=024026

https://public.opendatasoft.com/explore/dataset/associations/export/?refine.theme_code=024026

Pierre

Bonjour Jean-Eric et Pierre et merci pour vos réponses respectives !!

Bonjour,

1692007 lignes et 40 colonnes !...

Essaie d'attaquer ton fichier avec Power Query en supprimant les colonnes inutiles, en filtrant les données comme tu le ferais sous Excel, etc...

Exemples : associations dissolues, code social, etc...

Tu n'as certainement pas besoin de toutes les données.

Précise ce que tu veux de ton csv.

Cdlt.

Comme conseillé, j'ai essayé avec Power Query, supprimant les colonnes inutiles, filtrant les données.

Malheureusement, malgré ma suppression des lignes d'erreurs, et mon changement de tout le tableau en format "Texte", impossible de fermer et charger le tableau. Il me met un message d'erreur.

Évidemment, j'ai dû faire une bêtise, mais laquelle ... ?

Bonjour à tous,

Pour m'excuser de ma dernière intervention ratée de l'autre fil, est-ce que ce lien pourrait t'intéresser :

https://public.opendatasoft.com/explore/dataset/associations/export/?q=protection+animale

* cf "onglet" Export" => formats excel ou csv possibles

* filtrage par d'autres mots clé possible (ici : protection+animale), exemple :

https://public.opendatasoft.com/explore/dataset/associations/export/?q=protection+animale&refine.theme_libelle=protection+des+animaux

(985 lignes, code=024026 ...)

* autre exemple pour filtre sur thème_code=024000

https://public.opendatasoft.com/explore/dataset/associations/table/?refine.theme_code=024000

ou thème_code=024026

https://public.opendatasoft.com/explore/dataset/associations/export/?refine.theme_code=024026

Pierre

Bonjour Pierre !

Merci pour ce lien, il faut que je regarde, ça a l'air très intéressant !

Est-ce la façon dont ils procèdent à des extractions ? Dans tous les cas, ça m'a l'air prometteur, je vais regarder ça tout de suite !

Merci à tous les deux pour votre réponse !!!

Re,

Power Query a dû s'occuper de la conversion des données par colonne.

Tu n'avais pas à y toucher. Sinon, on est bien clair, les données filtrés ne doivent pas dépasser le nombre de lignes d'une feuille de calcul !?

Quelles sont les colonnes à supprimer et les filtres que tu as mis en place ?

Je regarderai de mon côté.

Cdlt.

Pour poursuivre, et fait vite-fait (donc largement imparfait), la manip suivante :

* sélection des données des 4 départements bretons (22, 29, 35 et 56), en suivant ce lien (et en modifiant le code dept) :

https://public.opendatasoft.com/explore/dataset/associations/export/?refine.theme_code=024026&refine.dept=29

* copier/coller des données vers l'onglet "Base" du xlsm joint

* vérification de la colonne N (dans quelques cas, j'ai pu constater un décalage à "recaler" comme il faut)

* ensuite, sur l'onglet "Région" ou "France" s'affiche des points représentant les assoce

* un clic sur un des points affiche de l'info

Ici pour la Bretagne-la-plus-belle-région-du-monde, donc chez-moi, mais on pourrait faire pareil pour les autres régions, il suffirait d'en avoir le courage ... (je peux fournir les cartes calibrées des autres régions)

Pierre

Rebonjour à vous deux !

ALORS :

Dans un premier temps, concernant le fichier CSV dont j'ai effectué un tri.

Les opérations que j'ai effectuées :

- Enlever les colonnes suivantes :

id_ex

siret

rup_mi

gestion

nature

groupement

adrs_repetition

adrg_declarant

adrg_pays

dir_civilite

publiweb

position

- Enlever les lignes erreurs

- Filtrer la colonne "object_social1" avec les numéros suivants

24026

13005

7050

24000

24025

20000

50000

7045

14000

3000

24035

13010

11050

7000

17300

23020

24020

24015

24030

24040

14035

24050

6000

13000

24045

20015

10000

23000

11125

14025

17000

10022

11095

40000

6100

11000

6030

16000

16025

Car ce sont les numéros que j'ai identifié en faisant mes recherches textuelles "protection animale".

Dans un second temps, je viens de télécharger le fichier excel d'après ton lien, Pierre.

J'ai trié textuellement selon le filtre 24026 car c'est le thème "Protection des animaux" et ai téléchargé un excel. Il a pris super longtemps pour arriver, je n'ai même pas encore eu une chance de l'ouvrir, mais ça m'a l'air parfait de prime abord !!

Merci encore à tous les deux, je m'y remets

Bah, il faut cliquer sur "Seulement les 4215 enregistrements sélectionnés"

As-tu regardé la carte proposée?

Rebonjour Pierre,

Merci encore pour toutes tes réponses et ton temps, et vive la Bretagne (c'est ma région préférée aussi )

Bon, les fichiers quand je les télécharge sont corrompus, quoi que je fasse... Eh oui, j'ai bien téléchargé les 4215 enregistrements. J'ai essayé XLS et CSV, mais rien à faire... Je ne sais pas si c'est normal ou si c'est l'endroit d'où je télécharge qui pose problème comme ça. Je réessayerai de chez moi pour voir si cela change quelque chose.

Pour la région Bretagne, c'est typiquement le genre de fichier qui est très utile ! Après, j'avoue qu'avoir toute la France dans un seul et même fichier ne serait pas du luxe, car il doit y avoir maximum 10.000 associations sur la protection animale (à tout casser). Or 10.000, je crois savoir que c'est tout à fait ouvrable sur Excel.

Quant aux cartes "Régions", je les ai effectivement ouvertes, mais il me dit que la Macro Clic ne fonctionne pas.

Dans tous les cas, je vais tester des choses chez moi pour voir si ça marche mieux...

Merci pour votre aide précieuse,

Glizzter

Ok?

Je remets ici la Bretagne.

Pour les autres régions : les fichiers sont vides de codes, en fait ces cartes sont à placer à la place de celle de la Bretagne dans mon 1er fichier.

Pour le site public.opendatasoft.com, je te suggère alors de télécharger par chaque département comme je l'ai fait pour les 4 départements bretons, avec un lien du genre :

https://public.opendatasoft.com/explore/dataset/associations/export/?refine.theme_code=024026&refine.dept=29

Pierre

6bzh.xlsm (690.12 Ko)

Bonjour,

Bonjour Glizzter, pierrep56,

J'ai regardé ton fichier csv et transformé suivant tes indications mais en supprimant (je pense) les associations dissolues.

Le résultat est un fichier de 208Mo (602781 lignes et 29 colonnes), avec un nombre de données apparemment inutiles.

En sus, si je considère que tu traites de la protection animale, le choix de tes filtres est à revoir.

Si tu veux continuer avec Power Query, je te suggère de regarder les fonctions Texte (langage M) disponibles, pour faire le ménage.

Question rapidité, Bof ! mais ce n'est pas un fichier à actualiser tous les jours...

Cdlt.

3glizzter.xlsx (18.93 Ko)

Bonjour à vous deux et merci infiniment de votre temps et de vos réponses,

Vraiment, ce forum est une perle grâce aux contributions de ses membres !!

Je vais effectivement filtrer davantage mes résultats mais je souhaitais faire du dégraissage manuel également car je désire comprendre mieux le fonctionnement de l'enregistrement d'une association et comment certaines dans des thématiques spécifiques se retrouvent associées à la Protection des animaux. Avec un peu de chance, ça va me faire apprendre de nouvelles choses, et peut-être même me faire penser à des choses que je n'avais pas envisagées au départ !

Je vais donc regarder vos deux fichiers aujourd'hui et reviendrais vers vous aussi vite que possible.

Encore une fois, merci à vous ,

Glizzter

bonjour à tous

je plussoie sur Jean-Eric : prendre Power Query

mais dans Power BI Desktop (gratuit)

PBI (avec PQuery qui y est intégré) avale le gros csv en 1 minute

ensuite, même sans prétraitement dans PQuery, donc en conservant toutes les données, on peut afficher, filtrer, bidouiller les données à sa guise

tout est fluide

exemple de graphique (il faut 1 seconde pour qu'il l'affiche ! ) de millions de lignes sommées par date, il a fait des sommes par an tout seul, mais on peut remodifier

naturellement, il vaudra mieux prétraiter dans PQuery : notamment supprimer les colonnes inutiles, et filtrer des lignes (j'ai pas regardé)

amitiés

toto

Re,

@ Glizzter,

Je suis un peu perdu !

Si tu voulais un graphique, il fallait le dire clairement.

Cdlt.

re

j'ai aussi mis un tableau (mal visible derrière le graphique qui attire le regard)

et on peut mettre des filtres de type segment comme dans Excel

note :faire un tableau, un TCD ou un graphique, c'est presque pareil dans PBI

note 2 : on peut exporter des données filtrées depuis PBI vers Excel,

https://www.youtube.com/watch?v=jmTedSuKers

amitiés

Bonjour JMD et rebonjour Jean-Eric,

Merci à tous les deux pour vos réponses

@Jean-Eric,

Non, merci, je n'ai pas besoin de graphique (du moins, pas pour le moment)

Ton fichier est par-fait. J'ai adapté le lien vers le fichier RNA Waldec de mai 2019 ; et ai réduit la quantité de filtres comme tu me l'as préconisé. Tout est idéal.

Juste une petite question :

comment faire, à partir de l'éditeur Power Query, pour l'importer dans une nouvelle feuille afin de continuer à traiter les données manuellement ?

@JMD

Merci pour cette découverte, je ne connaissais pas ce programme !!

Je ne peux malheureusement pas le télécharger sur le poste sur lequel je suis (ou tout du moins l'y installer) car je n'ai pas les droits admin. Mais je profiterais d'être chez moi pour y jeter un meilleur coup d’œil !

Bonjour à tous,

Juste comme exercice de style, voici un essai de carte de département.

Sur l'onglet "Carte", on choisit un département (avec éventuellement choix d'une région avant) => la carte du département se dessine avec toutes les assoce code-theme=024026 pointée en rouge.

capture

Un clic sur un des point affiche de l'info correspondant à cette assoce.

Cette méthode permet d'avoir tous les départements avec toutes les assoce code-theme=024026 sans aucune autre manip.

Pierre

Rebonjour Pierre,

Bon sang c'est incroyable ce que tu as fait !! C'est effectivement formidable !

Bien sûr, comme je projette à terme d'utiliser Google My Maps, je n'ai pas cherché à faire un référencement par carte excel, mais simplement établir une liste complète des associations...

Mais de savoir que c'est possible, et avec une telle clarté dans la présentation, c'est vraiment incroyable à mes yeux !!!

Tu donnes des cours ? Hahaha ! (je ne rigole qu'à moitié)

J'aimerais vraiment savoir faire ce genre de travail, c'est magnifique.

Glizzter

@JMD

Merci pour cette découverte, je ne connaissais pas ce programme !!

Je ne peux malheureusement pas le télécharger sur le poste sur lequel je suis (ou tout du moins l'y installer) car je n'ai pas les droits admin.

re

toi aussi tu as un service informatique qui freine, alors qu'ils auraient dû depuis 2 ou 3 ans avoir installé PBI sur tous les PC de l'entreprise

des informaticiens en retard sur la technologie, une honte !

courage

amitiés

Rechercher des sujets similaires à "ouvrir csv millions lignes"