Extraire du texte depuis des données JSON

Question

A partir de données au format JSON, j'ai récupéré un tableur mais j'aurais besoin de "nettoyer" le texte contenu dans certaines cellules pour faire disparaître le langage JSON. Par exemple, j'ai une cellule qui contient ce texte : {u'affiliations': &#91;u'Ecole Polythechnique F\xe9d\xe9rale de Lausanne'&#93;, u'name': u'P. Henry'} *** {u'affiliations': &#91;u'Hydroat S.p.A. Milan'&#93;, u'name': u'V. Zanetti'} *** {u'affiliations': &#91;u'Neyrpic Grenoble'&#93;, u'name': u'M. Wegner'} et j'aimerais pouvoir récupérer les noms d'auteurs, en l'occurrence : P. Henry, V. Zanetti, M. Wegner de même pour les affiliations : Ecole Polythechnique F\xe9d\xe9rale de Lausanne, Hydroat S.p.A. Milan, Neyrpic Grenoble (au passage, s'il y a moyen de corriger les erreurs liées aux accents, je suis preneuse) J'ai essayé la fonction SPLIT, qui fonctionne bien avec le séparateur *** mais je n'ai pas réussi avec le séparateur "u'name'". Je vous mets le lien vers le fichier test : https://docs.google.com/spreadsheets/d/18mqgcPDekW_p7IcQs8mWkvBl-fhR6LE9fuDhA05DrSY/edit?usp=sharing Merci beaucoup pour votre aide !! Déborah...

сталиевич · Answer

Pour moi, tes données ne sont pas en json "propre", donc difficile de parser ce json as-tu le json d'origine ? voici un code simple pour décoder tout un json let resultat = &#91;&#93;; function getAllDataJSON(url) { if (url.match(/http(s)?:\/\/?/g)){var data = JSON.parse(UrlFetchApp.fetch(url).getContentText())} else{var data = JSON.parse(url)} getAllData(1,eval(data),'data') return resultat } function getAllData(niv,obj,id) { const regex = new RegExp('&#91;^0-9&#93;+'); for (let p in obj) { var newid = (regex.test(p)) ? id + '.' + p : id + '&#91;' + p + '&#93;'; if (obj&#91;p&#93;!=null){ if (typeof obj&#91;p&#93; != 'object' && typeof obj&#91;p&#93; != 'function'){ resultat.push(&#91;niv, (newid), p, obj&#91;p&#93;&#93;); } if (typeof obj&#91;p&#93; == 'object') { if (obj&#91;p&#93;.length){ resultat.push(&#91;niv, (newid), p + '&#91;0-' +(obj&#91;p&#93;.length-1)+ '&#93;', 'tableau'&#93;); }else{ //resultat.push(&#91;niv, (newid), p, 'parent'&#93;); } niv+=1; getAllData(niv, obj&#91;p&#93;, newid ); niv-=1 } } } }...

Sébastien · Answer

Un début de solution en passant pour extraire les noms avec REGEXEXTRACT : =ARRAYFORMULA(REGEXEXTRACT(SPLIT(B2;"***";0);"name': u'(&#91;^'&#93;+)'")) Cordialement...

сталиевич · Answer

Voici un exemple complet d'extraction des données du json https://docs.google.com/spreadsheets/d/1UF31unCHqB910hr-8nqGPv82MBm6tAxLWPPwQWuzhTg/copy

Tu peux mettre en A1 soit le json, soit l'url du json.

On peut cibler quelques données et dans ce cas l'accès se fait (sauf particularité) par le code de la colonne B.

Je reprendrai le sujet dans la journée en ciblant un code sur quelques données.

сталиевич · Answer

On peut faire une fonction paramétrée, mais si tu as 5000 json à décoder, je pense qu'il faudrait plutôt faire un script pour éviter qu'à chaque ouverture de fichier la fonction se mette en route (et bloque par dépassement de temps côté serveur).

Donne les informations que tu souhaites retenir.

сталиевич · Answer

Ok Ce n'est pas une question de quantité, mais plus de présentation des résultat car il peut y avoir des occurrences multiples ... et des sous-occurrences multiples (plusieurs auteurs avec chacun potentiellement plusieurs affiliations) ... je vais te proposer quelque chose qui "rentre" dans un tableau à 2 dimensions. Mais une autre solution pour les affiliations serait de produire une autre feuille car elle ne sont pas liées au document mais à l'auteur lui-même...

сталиевич · Answer

Projet ... tu as un menu en haut à droite Les url ou données sont ici en B1, on verra pour ensuite multiplier les url ou données function onOpen() { var ui = SpreadsheetApp.getUi(); ui.createMenu('** MENU **') .addItem('Extraire les ifnormations', 'extraire') .addToUi(); } function extraire(){ var f=SpreadsheetApp.getActiveSpreadsheet().getSheetByName('extraire') var url=f.getRange('B1').getValue() if (url.match(/http(s)?://?/g)){ var data = JSON.parse(UrlFetchApp.fetch(url).getContentText()) } else{ var data = JSON.parse(url) } var donnees=f.getRange('A2:A10').getValues() var result=&#91;&#93; donnees.forEach(function(elem){ if (typeof eval(elem&#91;0&#93;)=='string'){ result.push(eval(elem&#91;0&#93;)) }else{ var txt='' eval(elem&#91;0&#93;).forEach(function(selem){ // partie spécifique if(selem.name!=null){ txt+=(selem.name) txt+= ' : ' + (selem.affiliations) + '
' }else{ txt+=(selem) + '
' } }) result.push(txt) } }) f.getRange(2,2,result.length,1).setValues(transpose(&#91;result&#93;)) } function transpose(a){ return Object.keys(a&#91;0&#93;).map(function (c) { return a.map(function (r) { return r&#91;c&#93;; }); }); } https://docs.google.com/spreadsheets/d/1Ma0ldWH_e5-OGMRnLNvKaFOWk0dENzEeadisNbricTQ/copy...

сталиевич · Answer

Merci pour ces réponses ... cela éclaircit la suite : oui, mais tu es consciente qu'il peut y avoir plusieurs noms, je les mets dans la même case ? et à côté les affiliations ? sans problème, j'y pensais justement est-ce que tu pars d'url ou de contenu textuel ...

сталиевич · Answer

Il y a une formule en K1 pour séparer les auteurs de leur affectations, je réfléchis pour séparer aussi les affectations mais cela me semble compliqué car le json admet plusieurs affectations pour le même auteur

Empile les différents json à compter de A2

https://docs.google.com/spreadsheets/d/1Ma0ldWH_e5-OGMRnLNvKaFOWk0dENzEeadisNbricTQ/copy

сталиевич · Answer

Mets soit l'url, soit les données json dans les cases en partant de A2 pour le premier json, A3 pour le second, A4 pour le suivant ... éventuellement donne moi 3 ou 4 json comme tu l'as fait pour le premier...

сталиевич · Answer

Peux-tu me passer (en mp si besoin) ton fichier Oui à condition de connaître les urls ou savoir de où ils proviennent...