Siphon de recherches - Site Journal Officiel de la République

Bonjour à tous !

J'espère être dans la bonne rubrique !

Je mène le projet bénévole de générer une carte gratuite par l'outil My Maps de Google référençant tous les acteurs de la protection animale en France (refuges, fourrières, SPA, vétérinaires, etc). Ainsi, toute personne souhaitant trouver un centre d'adoption, d'aide, d'accueil, etc, sera en mesure de trouver les ressources les plus proches d'une adresse donnée.

Pour cela, je me sers d'Excel / Google Sheet afin d'avoir une ligne par lieu, rapatriant :

  • La nature de la structure (Association, Fondation ?)
    le type de lieu (Refuge, siège social, dispensaire)
    le nom,
    l'adresse,
    le code postal,
    la ville,
    le département,
    l'adresse complète concaténée pour que Google retrouve le lieu quand je l'importe sur l'outil My Maps,
    le numéro de téléphone,
    l'adresse mail,
    le lien du site internet,
    et les horaires ;

Pour trouver une liste des Associations, j'ai contacté les préfectures car c'est là où elles vont s'inscrire pour exister légalement.

Sauf que les préfectures m'ont renvoyée vers le J-O de la République qui est bâti sur un vieux système de recherche par critères...

J'ai appelé le J-O et leur ai demandé une extraction pour le thème "Protection des animaux", mais bien sûr, même s'il s'agit d'informations publiques, ils ont la flemme... Et moi, je n'ai pas envie de me coltiner plus de 12.000 résultats à taper à la main dans Excel...

En plus, dépendant de quand je fais ma recherche par thème, le nombre de résultats change DRASTIQUEMENT... ?

De 500 résultats à plus de 12.000 ? Et encore, ça c'est quand leur serveur veut bien faire la recherche...

J'ai inspecté le code source du site et j'ai pu constater que c'était un vieux système : aucune possibilité de modifier le nombre de résultats affichés par page, le nombre de page disponibles à la navigation ne peut dépasser 100 ce qui est absolument ridicule considérant le nombre de résultats possibles (12.000 !!!!!) et le nombre de résultats affichés par page...

Bref, cette entreprise est une tombe et je ne sais pas comment m'en sortir. J'ai demandé à des informaticiens de mon entourage (Chef de projet MOA, Administrateur Système Réseau...), et aucun ne voit comment procéder...

Quelqu'un a-t-il une idée ?

Merci à tous de votre temps,

Avec toute ma bienveillance,

Glizzter

Bonjour et sur le forum,

je me posais une question... L'INSEE fait plein de statistiques, il n'y aurait pas quelque chose sur ce type de structures? Je sais qu'ils ont déjà des statistiques sur les infrastructures par commune: cinémas, théâtres, pôle emploi... Est-ce que tu as regardé si ils avaient quelque chose là dessus? Tu peux aussi regarder du côté de data.gouv pour rechercher des données. Je te propose ça car je ne sais pas si tu as cherché tes informations sur ce genre de site plutôt que de chercher sur leur vieux site...

Je me rappelle avoir vu la vidéo d'un Youtuber qui avait fait appel à un ami pour extraire automatiquement plein d'informations du site de Nintendo (pour faire des statistiques sur les cartes de ce jeu afin de voir quelles cartes sont les mieux notées en général), c'était un site qui avait aussi de nombreuses pages de résultat avec aucun moyen d'afficher beaucoup d'infos d'un coup, et il avait fait faire un programme pour automatiser l'extraction des infos... Tu pourrais te tourner sur ce type de sujet si jamais tu dois vraiment passer par ce site... Je crois que c'était codé en javascript... Un autre membre du forum aura peut-être la solution miracle, qui sait

Bonjour Ausecour

Le pseudo parfait, je suis jalouse.

Merci pour ta réponse, malheureusement l'INSEE fournit des statistiques mais ne fait pas - à ma connaissance - un référencement des lieux en question avec adresse, etc.

Je vais tout de même leur poser directement la question, car ça ne mange pas de pain !

L'anecdote du YouTuber et du programme m'inquiète un peu, même si je t'avoue que je me doutais que tout cela nécessiterait du développement.

Comme c'est une initiative complètement bénévole, je ne peux pas me permettre de payer un-e développeur-se... Mais peut-être que je pourrais apprendre moi-même à faire/construire un tel programme ? Je demande des formations en code depuis des lustres à mon employeur mais je n'en ai pas, c'est peut-être l'occasion de me lancer en autodidacte.

J'aimerais juste savoir par où commencer et de quoi j'ai besoin...

Merci en tout cas d'avoir pris le temps de me répondre, c'est très aimable à toi !

Si quelqu'un d'autre a une idée ou une remarque, tout est bienvenu

L'anecdote du YouTuber et du programme m'inquiète un peu, même si je t'avoue que je me doutais que tout cela nécessiterait du développement.

Ne t'inquiète pas pour l'anectode, je ne pense pas que tu aies besoin de payer qui que ce soit pour faire ce dont tu as besoin, j'ai juste cherché sur Google "extraire les données d'un site web javascript" et j'ai déjà des tutoriels, des vidéos etc... D'autres langages de programmations permettent peut-être de faire ça aussi, et tu trouveras peut-être des sites de bénévoles dans ces langages qui pourront t'aider à développer un code adapté à ton besoin gratuitement

Je me pencherai peut-être sur cette problématique ce week-end, je dois avouer que je suis curieux de savoir comment on peut extraire les données d'un site automatiquement... Et ce n'est pas la première fois que je me retrouve impuissant quand quelqu'un pose une question dessus

Je vois, mais comment sais-tu que c'est le langage javascript ?

Désolée si la question est simplette mais en langage je suis vraiment très très novice (à part l'HTML5)

Perso j'avais plus l'impression qu'ils ont une base de données PHP ? Genre que la recherche se fait chez eux, pas chez moi, sinon comment expliquer qu'en fonction des moments, le nombre de résultats n'est pas le même, et qu'ils ont des adresses fixes de page de résultats ?

Honnêtement, en regardant le code source, j'étais assez interloquée de voir cette structure car de nos jours c'est tellement simple sur des contenus dynamiques de forcer le changement le nombre de résultats par page en jouant avec l'Inspecteur/l'Examinateur du navigateur. Tout est téléchargeable et siphonnable. Là, rien n'est modulable. On ne peut pas "tricher"

Encore une fois, je n'y connais pas grand-chose donc bon, ce que j'en pense....... ===>

Je vais essayer de regarder des tutoriels moi aussi avec la phrase clé dont tu m'as parlé.

Merci

En fait je t'ai parlé du javascript car c'est de mémoire ce qui a été utilisé pour le programme d'extraction de la vidéo dont je te parlais, mais je ne sais pas si un langage javascript peut fonctionner sur une page codée en php...

Peut-être faut-t-il chercher "extraire données base php" ? Je dois t'avouer que je n'y connais pas grand chose non plus, je sais utiliser un peut l'examinateur, le langage html ça me parle un peu, mais au-delà de ça, le langage web...

Du coup ne te focalise pas seulement sur javascript

Bonjour,

Peux tu nous fournir le lien du site et du fichier en question.

A+

Bonjour Galopin01 et merci beaucoup de ta réponse !

Le lien du formulaire sur le site est le suivant :

Le critère à choisir dans thème est "Protection des animaux" en sachant que dès qu'on clique sur "Rechercher", cela fait une requête au serveur distant, et les résultats de requête changent à chaque fois qu'elle est renouvelée, quand bien même l'URL reste la même et même si les critères n'ont pas changé (ni les résultats dans la base de données sur le serveur distant, d'ailleurs).

On note quand même la présence de "PAGE=1" dans l'URL...

Quand au fichier, je n'en ai pas pour cet exercice, tout simplement car je ne sais pas de quoi j'ai besoin pour parvenir à invoquer les informations.

J'espère que ce que je dis a du sens...

Je continue d'enquêter de mon côté !

Merci beaucoup pour ta réponse et ton intérêt,

Glizzter

Bonsoir,

Je n'ai pas le sentiment que tu arriveras à quelque chose via le dernier lien 24 pages ce n'est pas la mer à boire si c'était du solide, mais cette extraction, j'ai un peu de mal à comprendre à quoi elle correspond...

Pour ma part j'ai téléchargé les 320 Mo du fichier rna_waldec d'avril :

Pfff... ça rentre pas dans Excel ! Avec Access ça rame un peu mais on arrive à extraire toussa. le problème c'est qu'il n'y a -me semble-t-il- rien qui permette de filtrer par type...

Je creuserai demain !

A+

Rebonsoir,

Merci beaucoup pour ton travail même si, je vais être honnête avec toi, je n'ai pas compris grand-chose à ton message...

Où as-tu vu qu'il y avait 24 pages ?

Ça veut dire quoi rna_waldec ?

J'ai peu utilisé Access dans ma vie, je t'avoue...

Bon je vais aller faire des recherches Google moi

Bonjour Galopin01,

Alors vois-tu, je ne savais même pas que ce Répertoire National des Associations existait, et au cours de mes nombreuses conversations avec les préfectures et le Journal Officiel des Associations, personne n'a mentionné le nom (rassurant )

J'ai bien trouvé ce lien : https://www.data.gouv.fr/fr/datasets/repertoire-national-des-associations/

Je l'ai désarchivé, c'est un .CSV très lourd, mais que j'ouvre sur Excel d'Office 365

L'ouverture prend beaucoup de temps et impossible effectivement de l'ouvrir en entier, cela s'arrête à la ligne 1.048.576

Mais : excellente nouvelle, ça a l'air de contenir les informations qui m'intéressent ! Évidemment, il n'y a pas le mail, ni le numéro de téléphone, et encore plus rarement le lien vers un site internet, mais quand même ! Il y a l'adresse, et c'est déjà énorme ! Ça mâche une énorme quantité du travail. Visiblement, ma carte dépendrait donc du traitement de ce fichier pour se mettre à jour.

Du coup, je comprends ce que tu veux dire par "Type" et tri.

Après une de mes conversations avec quelqu'un au service Associations du Journal Officiel d'il y a quelques jours, il y aurait un numéro spécifique de tri, et un dédié aux associations pour la Protection des animaux. Je vais essayer de rappeler aujourd'hui pour voir s'il apparaît dans le RNA et si du coup on peut utiliser cette méthode.

Je tiens au courant des nouvelles.

PS : j'espère que le double-post n'est pas trop grave.

Merci à tout le monde !!

Glizzter

Bonjour à vous deux

Je vois que galopin a bien fait avancer le sujet!

Rassure toi je n'ai jamais eu de sanction pour les double post

Je ne peux actuellement pas regarder les liens que vous vous échanger mais si besoin j'y jetterai aussi un oeil

Bonjour,

Je pense que tu aurais plus vite fait de demander à la SPA de te fournir l'information : Si eux ne possède pas la liste de toutes les asso existantes je pense que personne ne l'a !

Je demanderai à ma fille qui gère une de ces asso de me dire si par hasard elle n'aurait pas ça dans son PC.

D'autre part il existe dans tous les départements une asso qui s'appelait dans le temps "volontariat" ou "bénévolat"... et qui est fédérée au niveau national. Il y a 20 ans ces asso possédaient une liste de toutes les asso de leur département (triée par objet) ça devrait la encore faire une source de données possible...

A+

Bonjour à vous deux !

J'ai d'ores et déjà demandé à la SPA, ainsi qu'à moult associations/collectifs rassemblant des associations et des refuges sur des territoires donnés.

Le seul fichier que j'ai obtenu est celui de la Fondation Brigitte Bardot. Les autres me disent ne pas avoir de fichier ou ne pas pouvoir me l'envoyer. Idem pour les préfectures qui font sourde oreille jusqu'à présent.

Je continue tout de même à penser que ce RNA est l'idéal. Il est mis à jour avec les clôtures d’association et les changements de statuts, etc.

Il va falloir que j'apprenne à me servir d'Access j'imagine.

Pour l'instant, ça sonne occupé au Journal Officiel

Bref, je vous tiens au courant,

Merci pour vos réponses

Glizzter

erreur

erreur

???

erreur

???

Désolé, c'est moi qui ai fait une erreur de manipulation et je ne sais pas comment effacer mon message.

erreur

???

Désolé, c'est moi qui ai fait une erreur de manipulation et je ne sais pas comment effacer mon message.

On ne peut pas les effacer sauf peut-être en demandant aux administrateurs du forum, tout en bas du forum Excel VBA tu as:

Permissions du forum

Vous pouvez poster de nouveaux sujets

Vous pouvez répondre aux sujets

Vous pouvez modifier vos messages

Vous ne pouvez pas supprimer vos messages

Vous pouvez joindre des fichiers

Tu n'as pas les droits pour enlever tes messages toi-même

REBONJOUR !

Alors !

Figurez-vous que je suis tombée sur quelqu'un de très sympa au J-O qui m'a dit que la catégorie numérique de la "protection des animaux" c'est 024026... ! Et que le grand thème "Environnement" (protection de la faune, de la flore, développement durable, etc) c'est 024000.

Et donc j'ai regardé dans le fichier ouvert sur Access, que j'ai filtré en recherche textuelle "protection des animaux", et qu'est-ce qui apparaît dans une colonne sans titre : une récurrence de 24026 !!!

Donc voilà, pour moi, ça parait bien. Je n'ai plus qu'à rapatrier tous les 24026 sur excel, et j'aurais déjà un paquet d'associations officielles en plus sur ma carte !

Merci à vous tous de votre aide !

Rebonjour,

Bon ben je n'aurai pas servi à grand chose mais je suis content de voir que tu as pu t'en sortir avec ton souci! Bonne chance pour la suite si tu as des questions n'hésite pas à repasser

Rechercher des sujets similaires à "siphon recherches site journal officiel republique"