ImportXML et meta tags d'URL

Bonjour,

J'espère que cette question n'est pas redondante avec une précédente, je n'ai pas trouvé de réponse sur le forum.

Dans Google Sheet, j'ai une colonne de 1000 URL, et je veux interroger automatiquement leurs métatags pour obtenir leur : "title"

| "description" | "keywords" | "logo" (et éventuellement d'autres informations utiles pour faire une fiche d'introduction de chaque URL).

=> La formule ImportXml ne renvoie pas tellement de résultats ; apparemment car chaque site web peut avoir une structure x-path différente de l'autre.

Existe-t-il une approche (script ?) à utiliser pour résoudre ce problème ?

Merci d'avance pour votre aide !

Bonjour,

Avez-vous un fichier d'exemple ?

Bonjour, merci de votre message.

Ci-dessous un exemple sur le meta tag "title", sachant que je rencontre le même problème pour les autres meta tags : "description" | "keywords" | "logo" (voire autres infos introduisant chaque URL).

=> Si c'est lié au fait qu'il existe différentes structures de x-path :
- quelle approche pour le gérer ?
- par ex., un script listant les "5" structures x-path les plus communes ?

https://docs.google.com/spreadsheets/d/1D_ckeMM_Z_IEttDe9RU6stW-zwgJx9nboAtyIzYvTaE/edit?usp=sharing

Le Xpath est parfois erroné : "//title" au lieu de "/html/head/title"

J'ai vérifié, si tu changes toutes tes requêtes par "/html/head/title" ça semble fonctionner

Merci. C'est étrange que cela fonctionne chez toi, car chez moi au contraire ça annule la plupart des "title" trouvés.

[edit] Et maintenant, même avec la précédente formule, ça n'affiche plus rien ....

image

J'ai dupliqué ton onglet, est-ce que ça fonctionne bien sur le 2nd onglet ?

Non, cela ne fonctionne pas non plus dans ton onglet

image

Sur un fichier m'apparentant, ça fonctionne :

screenshot 2023 03 10 12 15 56

Assez incroyable : j'ai refait l'exemple dans un nouveau classeur gSheet

- Au début ça fonctionne

- Je suis rentré dans une des cellules pour modifier une bidouille : ça ne fonctionne plus

=> Est-ce qu'ImportXml nécessite un format de cellule particulier tant pour sa colonne que la colonne source ?

Merci encore pour ton aide

Il doit en effet être plutôt simple de réaliser un script qui fasse une boucle sur les URL.

Toutefois, si ça peut fonctionner sans script, autant simplifier le fonctionnement et faire directement les opérations dans les cellules.

J'ai l'impression que c'est la formule SIERREUR qui pose problème.

C'est en effet ce que j'ai pensé, mais ça n'a pas résolu le problème.

Je ne comprends pas pourquoi cela marche de temps en temps, puis ne fonctionne plus dès que je fais une modification anodine dans la cellule.

En attendant, notre ami chatGpt me propose une formule qui teste différents x-path.

Exemple avec le metatag "description"

=IF(ISBLANK($B2); ""; SUBSTITUTE(SUBSTITUTE(SUBSTITUTE(IFERROR(IMPORTXML($B2;"//meta[@name='description']/@content"); IFERROR(IMPORTXML($B2;"//meta[@property='og:description']/@content"); IFERROR(IMPORTXML($B2;"//meta[@itemprop='description']/@content"); "-")))); CHAR(10); "-"); CHAR(13); "-"); CHAR(9); "-"))
Rechercher des sujets similaires à "importxml meta tags url"