Scraping Data Amazon

Question

Je souhaite scraper une data d'Amazon afin de la faire figurer sur ma feuille Google Sheets. En ayant accès à cette page (lien sur l'image, je ne peux pas poster de lien pour le moment!), je veux obtenir l'ASIN ou l'ISBN ou l'ID (l'identifiant unique propre au livre) du livre N°1. Par exemple aujourd'hui, dans la catégorie Actu, Politique et Société, le N°1 des ventes est "Faites votre Glucose Révolution". Je sais comment récupérer le titre et autres data apparentes avec la fonction Importxml et le X path, mais le problème est que la data "ASIN" ou "ISBN" ne semble as récupérable directement depuis cette page (en tout cas pas avec mes connaissances). L'ID est visible dans le code HTML de la page (voir photo 1 ci-jointe). L'ISBN/ASIN est visible sur la fiche produit du livre une fois qu'on clique sur l'encadré de la fiche du n°1 (voir photo 2). Ma question est : comment récupérer soit l'ID du code HTML (qui est changeant car mis à jour par Amazon en fonction du classement), soit l'ASIN/ISBN du livre (qui n'est pas sur la page en question mais sur la fiche produit) et faire apparaître cette Data dans mon sheets ? Merci pour vos réponses, je suis dispo si des éclaircissements sont nécessaires. Erwan...

Steelson · Answer

Comme ceci =regexextract(importxml("https://www.amazon.fr/gp/bestsellers/books/689215031/ref=zg_bs_nav_books_1";"//div/@data-client-recs-list");"&#91;0-9&#93;{10}") en fait, le site est construit en javascript côté utilisateur, on ne peut donc pas normalement utiliser importxml, sauf ici à capter le json et le décoder (assez simplement ici car on prend la première série de 10 chiffres trouvée)...

Steelson · Answer

Comment accèdes-tu au détail du produit ? peux-tu mettre l'url (utilise les balises &lt;/&gt; au-dessus du cadre de réponse) ...

Steelson · Answer

Tu peux utiliser cet xpath //ul&#91;@class='a-unordered-list a-nostyle a-vertical a-spacing-none detail-bullet-list'&#93;/li&#91;contains(.,'Classement')&#93; d'où =importxml("https://www.amazon.fr/Faites-Glucose-Revolution-Jessie-Inchausp%C3%A9/dp/2221256778/ref=zg_bs_689215031_1/260-8755144-6626333?pd_rd_i=2221256778&psc=1";"//ul&#91;@class='a-unordered-list a-nostyle a-vertical a-spacing-none detail-bullet-list'&#93;/li&#91;contains(.,'Classement')&#93;") et si tu veux seulement la première valeur =regexextract(importxml("https://www.amazon.fr/Faites-Glucose-Revolution-Jessie-Inchausp%C3%A9/dp/2221256778/ref=zg_bs_689215031_1/260-8755144-6626333?pd_rd_i=2221256778&psc=1";"//ul&#91;@class='a-unordered-list a-nostyle a-vertical a-spacing-none detail-bullet-list'&#93;/li&#91;contains(.,'Classement')&#93;");"&#91;0-9&#93;+")...

Steelson · Answer

...