Scraping Data Amazon

Bonjour à tous,

Je souhaite scraper une data d'Amazon afin de la faire figurer sur ma feuille Google Sheets. En ayant accès à cette page (lien sur l'image, je ne peux pas poster de lien pour le moment!), je veux obtenir l'ASIN ou l'ISBN ou l'ID (l'identifiant unique propre au livre) du livre N°1.

Par exemple aujourd'hui, dans la catégorie Actu, Politique et Société, le N°1 des ventes est "Faites votre Glucose Révolution". Je sais comment récupérer le titre et autres data apparentes avec la fonction Importxml et le X path, mais le problème est que la data "ASIN" ou "ISBN" ne semble as récupérable directement depuis cette page (en tout cas pas avec mes connaissances).

L'ID est visible dans le code HTML de la page (voir photo 1 ci-jointe). L'ISBN/ASIN est visible sur la fiche produit du livre une fois qu'on clique sur l'encadré de la fiche du n°1 (voir photo 2).

Ma question est : comment récupérer soit l'ID du code HTML (qui est changeant car mis à jour par Amazon en fonction du classement), soit l'ASIN/ISBN du livre (qui n'est pas sur la page en question mais sur la fiche produit) et faire apparaître cette Data dans mon sheets ?

Merci pour vos réponses, je suis dispo si des éclaircissements sont nécessaires.

Erwan

httpswww amazon frgpbestsellersbooks689215031ref zg bs nav books 1

Bonjour,

comme ceci

=regexextract(importxml("https://www.amazon.fr/gp/bestsellers/books/689215031/ref=zg_bs_nav_books_1";"//div/@data-client-recs-list");"[0-9]{10}")

en fait, le site est construit en javascript côté utilisateur, on ne peut donc pas normalement utiliser importxml, sauf ici à capter le json et le décoder (assez simplement ici car on prend la première série de 10 chiffres trouvée)

Merci pour ta réponse ça m'a bien avancé !

Je suis confronté à un autre problème plus loin dans mon travail : faire en sorte qu'avec cette suite de chiffre (ID unique Amazon), on puisse obtenir la data "Classement des meilleures ventes d'Amazon" qui se trouve sur la fiche du produit en question.

Par exemple pour le livre dont je parlais, "Faites votre Glucose Révolution", le classement des meilleures ventes est #9 (voir capture d'écran ci-jointe).

Ma question : comment afficher le nombre correspondant au Classement des meilleures ventes d'un produit donné en ayant son ID unique ?

Merci pour votre aide précieuse,

Erwan

capture d e cran 2022 07 13 a 09 42 13

comment accèdes-tu au détail du produit ?

peux-tu mettre l'url (utilise les balises </> au-dessus du cadre de réponse) ?

www. amazon. fr/ Faites-Glucose-Revolution-Jessie-Inchausp%C3%A9/dp/2221256778/ref=zg_bs_689215031_1/260-8755144-6626333?pd_rd_i=2221256778&psc=1

C'est le lien de la fiche produit du livre sur Amazon (j'ai mis quelques espaces au début car je n'ai pas le droit de poster de liens sur le forum, visiblement je suis trop récent). Les détails sur le produit sont directement sur la fiche, plus bas sur la page.

tu peux utiliser cet xpath

//ul[@class='a-unordered-list a-nostyle a-vertical a-spacing-none detail-bullet-list']/li[contains(.,'Classement')]

d'où

=importxml("https://www.amazon.fr/Faites-Glucose-Revolution-Jessie-Inchausp%C3%A9/dp/2221256778/ref=zg_bs_689215031_1/260-8755144-6626333?pd_rd_i=2221256778&psc=1";"//ul[@class='a-unordered-list a-nostyle a-vertical a-spacing-none detail-bullet-list']/li[contains(.,'Classement')]")

et si tu veux seulement la première valeur

=regexextract(importxml("https://www.amazon.fr/Faites-Glucose-Revolution-Jessie-Inchausp%C3%A9/dp/2221256778/ref=zg_bs_689215031_1/260-8755144-6626333?pd_rd_i=2221256778&psc=1";"//ul[@class='a-unordered-list a-nostyle a-vertical a-spacing-none detail-bullet-list']/li[contains(.,'Classement')]");"[0-9]+")
Rechercher des sujets similaires à "scraping data amazon"