Du lourd (au sens propre oui)

Hi guys,

Je me permets de solliciter l'aide de la communauté pour le défi excel ci dessous :

47 Go

47k fichiers

Un bourbier dira t on ! Même Goku hésiterait à y mettre le nez, et dieu sait qu'il le fourre partout.

A noter que mes connaissances s'arrêtent actuellement au niveau d'un tableur croisé dynamique soit .. lambda.

Pour faire simple chacun des fichiers possède des informations diverses mais avec des dénominateurs communs & des redondances.

Le but étant de créer un fichier global ou/et plusieurs fichier, qui reprend l'ensemble des informations sans redondances.

Pour illustrer le cas de figure :

Prenons 4 fichiers qu'on va nommer Alpha, Beta, Gamma, Delta.

Alpha contient des informations sur A, B, C, D, E avec les critères 1, 2, 3, 4, 5

Beta contient des informations sur D, E, F, G, H avec les critères 4, 5, 6, 7, 8

Gamma contient des informations sur G, H, I, A, B, avec les critères 1, 3, 9, 10

Delta contient des informations sur D, G, J, P, Q avec les critères 9, 10, 11, 12, 14

Quel est le meilleur moyen de fonctionner dans le but d'obtenir ce classeur consolidé ?

Je suis ouvert à toute solution hors excel si nécessaire, type macro etc..

Merci par avance pour votre support, dieu vous bénisse, et lavez vous les mains, corona tout ca tout ca

Bonjour

Quel est le meilleur moyen de fonctionner dans le but d'obtenir ce classeur consolidé ?

Je suis ouvert à toute solution hors excel si nécessaire, type macro etc..

Commencer par nous indiquer ta version Excel et joindre au moins deux fichiers d'une dizaines de lignes représentatives

78 chris :

J'ai 2 versions d'excel sur 2 pc différents, 2013 et 2016. Il y en a une qui se prête plus à l'exercice ?

Concernant les exemples, je te prie de trouver ces derniers ci joint. Au total les fichiers doivent contenir 500 000 noms qualifiés par 40 caractéristiques. Chaque nom, possédant en moyenne 33% des caractéristiques possibles.

Merci de l'aide !

bdd omega capture bdd alpha

Bonjour,

2 fichiers = 2 classeurs excel et pas 2 photos.

Bonjour à tous

2 fichiers = 2 classeurs excel et pas 2 photos.

+1

PowerQuery (intégré à partir de 2016, en add on sur 2013) permet de consolider mais 47 000 fichiers me parait beaucoup que ce soit pour PowerQuery ou pour VBA

On peut tenter sur quelques fichiers représentatifs et, si le volume coince , il doit être possible de prévoir plusieurs étapes successives.

Bonjour à tous,

Les 47 000 fichiers proviennent d'où ?

Ils sont peut-être issus d'un entrepôt de données (SQL Server, Teradata, ...) et générés automatiquement par des batchs d'extractions planifiés.

A moins que 10 stagiaires à plein temps les saisissent manuellement

Si la première hypothèse est retenue, le mieux est peut-être d'extraire directement la totalité des données depuis l'entrepôt source.

Toutefois, Excel n'a pas vocation à gérer autant de données. Et cela aboutirait à reconstruire sous Excel, la base de données initiale.

Peut-être faut-il se poser la question de ce qu'on veut faire de ces données.

Probablement les reconsolider ensuite. On risque alors de rencontrer des soucis, tant de volumétrie que de performances.

Pour ce type de problématique, sous réserve que l'hypothèse 1 soit vérifiée, les technologies appropriées sont des reportings ou cubes directement mis en place sur le SGBD source (par exemple avec Analyses Services, Reporting Services, B.O., ...).

Cordialement

Bouben

Re

Toutefois, Excel n'a pas vocation à gérer autant de données. Et cela aboutirait à reconstruire sous Excel, la base de données initiale.

Non un requêteur tel PowerQuery ne reconstruit pas la base, il l'exploite.

Hello Chris,

L'idée est bien de traiter les données de 47 000 fichiers ?

Mon propos est de souligner que toutes ces données doivent être consolidées à un moment pour être analysées ensuite.

PowerQuery (que je ne connais pas), devra probablement établir une connexion sur chacun des 47 000 fichiers, pour l'exploiter comme un entrepôt de données centralisé.

Je me trompe ?

Bouben

h2so4 : J'admets, quelle erreur !

Voici les fichiers ci joint.

78chris, Bouben : Je me permets de vous répondre à tous deux directement puisque les posts convergent dans le même sens.

Mon but est bien de créer une BDD exhaustive depuis 47 000 fichiers, en évitant les redondances (telles que présentes dans les 2 fichiers excel ci joint).

Ce que j'ai donc nommé "une consolidation", en espérant que le terme ne soit pas ici galvaudé.

Pour étayer ma requête, il m'est possible de faire tomber le nombre de fichier aux alentours des 20 000 sans perdre en qualité. Donc le bloque à traiter ressemblera plus à 20 000 fichiers pour 20Go. Ce qui reste tout de même colossale..

Concernant la provenance de la data, elle provient bien directement de fichiers excel, non disponible sur un entrepôt de données (tel que SQL Server, Teradata). On est bien sur de la data brut.

Merci de votre attention et intérêt en tous cas guys

7bdd-1.xlsx (10.80 Ko)
8bdd-2.xlsx (10.70 Ko)

Bonjour

Tu es bien en multipost puisque tu postes sur plusieurs forums...

Exemple PowerQuery : chemin à changer puis Données, Actualiser tout

Teste d'abord avec une vingtaine de fichiers puis ajoute ensuite d'autres

Re

Hello Chris,

PowerQuery (que je ne connais pas), devra probablement établir une connexion sur chacun des 47 000 fichiers, pour l'exploiter comme un entrepôt de données centralisé.

Oui pour la connexion mais la requête ne charge pas les données consolidées.

J'ai déjà traité des cas de gros CSV. Il y avait peu de fichiers mais un grand nombre de lignes dans chaque

Donc à voir où est la limite... j'ignore si le nombre de connexions est limité...

Bonjour

Tu es bien en multipost puisque tu postes sur plusieurs forums...

Exemple PowerQuery : chemin à changer puis Données, Actualiser tout

Teste d'abord avec une vingtaine de fichiers puis ajoute ensuite d'autres

Chris : Yes en effet j'ai posté sur divers forum, ne sachant pas si certaines communautés étaient plus nombreuses que d'autres, et cherchant diverses solutions potentielles..

Merci en tout cas pour l'exemple cité, je vais tester ca.

Je me mets d'abord en tête de trier le tout à la mano, histoire d'avoir des fichiers cohérents à mettre dans Powerquery et d'éviter le fouilli actuel.

Rechercher des sujets similaires à "lourd sens propre"