Quelques statistiques sur le forum Excel VBA

Pour parler de tout et n'importe quoi
Avatar du membre
Ausecour
Passionné d'Excel
Passionné d'Excel
Messages : 3'118
Appréciations reçues : 346
Inscrit le : 31 mai 2018
Version d'Excel : 2010 FR, 2013 FR

Message par Ausecour » 25 septembre 2019, 21:22

Bonjour à vous :)

Voilà, je me suis mis un peu au web scraping qui permet d'absorber le contenu d'un site internet, et j'ai voulu commencer par le forum en me posant 2 questions: comment a évolué le nombre de sujets? et quel temps en moyenne on mettait à clore un sujet?

Du coup je voulais les partager avec vous :mrgreen:
evolution nombre de sujets par mois.png
Pour le nombre de sujets par mois, ce qu'on peut en dire c'est qu'il augmente progressivement d'années en années, et que chaque année, on voit une baisse des demandes vers août/septembre, on a atteint plus de 1400 messages en un mois en 2018 sur le premier trimestre :mrgreen:

Evolution du temps d'ouverture moyen.png
Pour le temps d'ouverture moyen (temps qui s'écoule entre la date de création et la date du dernier post du sujet, où j'estime qu'il est clôt), j'ai dû filtrer une partie des données, certains sujets avaient plus de 1000 jours de temps d'ouverture, comme on le sait, parfois certains sujets sont déterrés. Pour résoudre ce problème, j'ai appliqué un filtre sur les temps d'ouverture, en ne prenant que ceux étant inférieurs à 150 jours (plus de 98% des valeurs). Le résultat, on arrive à être constants dans le temps qu'on met à résoudre les problèmes des membres du forum, moins de 5 jours s'écoulent en moyenne pour que les problèmes soient résolus, et les membres satisfaits. On voit des pics pour 2005 et 2006, mais c'est normal, ces années là, le nombre de sujets était faible (moins de 100 sujets par mois), donc les sujets qui durent longtemps ont plus d'impact sur la moyenne.

En clair, malgré l'augmentation du nombre de sujets au fur et à mesure des années, on continue à être capables de répondre aux interrogations des membres dans un délai que je trouve assez court, félicitations :mrgreen: :clap:

Pour ceux qui seraient intéressés, j'ai codé en python et le code est:
SpoilerAfficher
import os
import csv
import requests
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup

#ouverture fichier texte
fichier = open("donnees - Copie.csv", "w", encoding="utf-8")
writer = csv.writer(fichier)
writer.writerow(["Titre sujet", "Date création","Date dernière réponse"])

#ouverture page avec selenium
url = 'https://forum.excel-pratique.com/viewforum.php?f=2'
driver = webdriver.Firefox(executable_path=r'C:\Python\Python37-32\drivers\geckodriver.exe')
driver.implicitly_wait(30)
driver.get(url)

while True:
	#réinitialisation des listes
	liste_titres = []
	liste_datesCreation = []
	liste_datesDerReponse = []
	textes = []

	#utilisation de beautifulSoup pour extraire le code de la page
	requete = requests.get(driver.current_url)
	page = requete.content
	soup = BeautifulSoup(page)
	titres = soup.findAll("a", {"class":"topictitle"})
	datesCreation = soup.findAll("div",{"class":"topic-poster responsive-hide left-box"})
	derPosts = soup.findAll("dd",{"class":"lastpost"})

	#titres
	for titre in titres:
		liste_titres.append(titre.string)

	#dates création
	for date in datesCreation:
		textes = date.findAll(text=True)
		texte = textes[len(textes)-1]
		liste_datesCreation.append(texte.replace('\n','').replace('\t',''))

	#dates dernière réponse
	for derPost in derPosts:
		datesDerReponse = derPost.find("span")
		textes = datesDerReponse.findAll(text=True)
		texte = textes[len(textes)-1]
		if (derPost.find('a') !=None):
			liste_datesDerReponse.append(texte.replace('\n','').replace('\t',''))

	#export en csv
	j = len(liste_titres)
	i = 1 #pas 0 car la première ligne ne m'intéresse pas
	while i < j:
		writer.writerow((liste_titres[i], liste_datesCreation[i], liste_datesDerReponse[i]))
		i+=1

	#cherche le bouton pour passer à la page suivante
	try:
		bouton = driver.find_element_by_class_name("icon.fa-chevron-right.fa-fw")
		bouton.click()
	except:
		break

driver.close()
J'aurais bien joint le fichier csv, mais il est trop volumineux pour le forum... :bof:
Modifié en dernier par Ausecour le 27 septembre 2019, 11:47, modifié 1 fois.
4 membres du forum aiment ce message.
Plus un sujet a un titre précis, des explications claires, et un fichier Excel bien préparé, plus il a de chances d'avoir une réponse qui répond au besoin, mettez toutes les chances de votre côté :bien:
"100% des gagnants auront tenté leur chance" :trfl:
Avatar du membre
Xmenpl
Membre impliqué
Membre impliqué
Messages : 2'758
Appréciations reçues : 193
Inscrit le : 16 mai 2018
Version d'Excel : 2003 à 2013

Message par Xmenpl » 26 septembre 2019, 09:26

Ausecour a écrit :
25 septembre 2019, 21:22
Bonjour à vous :)
Voilà, je me suis mis un peu au web scraping qui permet d'absorber le contenu d'un site internet, et j'ai voulu commencer par le forum en me posant 2 questions: comment a évolué le nombre de sujets? et quel temps en moyenne on mettait à clore un sujet?
Ha c'est pour çà que je me sentais comme aspiré hier. :?

Quoi qu'il en soit un bel exemple de statistiques .. bravo Ausecour pour le boulot ! :clap:
Avatar du membre
Pedro22
Passionné d'Excel
Passionné d'Excel
Messages : 3'934
Appréciations reçues : 401
Inscrit le : 26 janvier 2017
Version d'Excel : 2010 FR
Version de Sheets : FR
Téléchargements : Mes applications

Message par Pedro22 » 26 septembre 2019, 09:42

Bonjour tout le monde !

Très joli travail, c'est très intéressant !
Personnellement je me pose d'autres questions, mais qui risquent d'être compliquées à répondre...
- Quelle est la proportion de sujet résolus (pas forcément indiqués comme tels, mais dont une solution répondant à la problématique initiale a été apportée) ?
- Quelle type de question/sujet sont les plus fréquents ?
- Et la combinaison des deux : quel est le taux de résolution par type de sujet ?
Merci de prendre 30 sec pour lire la charte du forum.
Quelques conseils : ici
Avatar du membre
Ausecour
Passionné d'Excel
Passionné d'Excel
Messages : 3'118
Appréciations reçues : 346
Inscrit le : 31 mai 2018
Version d'Excel : 2010 FR, 2013 FR

Message par Ausecour » 26 septembre 2019, 11:56

Salut à vous :mrgreen:

@Pedro22
En effet le premier point est très compliqué à traiter, pour mes statistiques, je suis partis du principe que tous les sujets étaient résolus à un moment, et j'ai donc regardé le temps qu'il s'écoulait entre le premier et le dernier message du sujet :)
Malheureusement pour savoir si le sujet a réellement eu une réponse satisfaisante, j'ai du mal à voir comment je pourrais automatiser ça... encore, si tous le monde utiliser le bouton "résolu", je pourrais sûrement faire quelque chose avec les images, mais il y a de nombreux sujets résolus qui n'ont pas été marqués comme tels :lole:

Le type de question les plus fréquentes, ça je dois pouvoir plus ou moins le faire avec les titres des sujets, même si encore une fois, ils ne sont pas tous très explicites et que les sujets sont très divers, mais je dois pouvoir faire quelque chose en cherchant des mots clés comme "formule", "planning" etc... Après tout j'avais déjà fait une macro pour savoir quels mots revenaient le plus souvent dans une liste donnée :wink:
Si tu as une idée pour la résolution, je veux bien :mrgreen:
Après si par exemple, tu veux savoir le nombre de sujets qui ont été passés en résolu sur l'ensemble des sujets, je dois pouvoir trouver un moyen de faire ça :wink:
Parce que sinon pour le moment, pour faire ça vraiment bien, à part traiter à la main les plus de 100 000 sujets qui sont sortis depuis 2004... je ne vois pas trop comment on pourrait faire... Même chercher "Merci" dans les sujets ça ne suffirait pas, ce n'est pas un gage que le sujet soit résolu, et certains membres ne remercient pas non plus :lole:

@Xmenpl j'espère que tu n'es pas trop épuisé du coup :P
Plus un sujet a un titre précis, des explications claires, et un fichier Excel bien préparé, plus il a de chances d'avoir une réponse qui répond au besoin, mettez toutes les chances de votre côté :bien:
"100% des gagnants auront tenté leur chance" :trfl:
Avatar du membre
Pedro22
Passionné d'Excel
Passionné d'Excel
Messages : 3'934
Appréciations reçues : 401
Inscrit le : 26 janvier 2017
Version d'Excel : 2010 FR
Version de Sheets : FR
Téléchargements : Mes applications

Message par Pedro22 » 26 septembre 2019, 12:23

@Ausecour : pour la méthode, j'aurais du mal à te guider, étant donné que je maîtrise autant python que la physique quantique... :lol:

Après réflexion, je me dis que l'on doit pouvoir s'intéresser aux sujets qui sont correctement complétés. C'est à dire avec un titre explicite (inutile de s'intéresser à des sujet avec trop peu de caractères ou comportant seulement des termes génériques : "problème VBA", "Power Query", "Besoin d'aide"...). J'imagine que les statistiques obtenues sur la base de ces sujets sont généralisables à l'ensemble du forum.

Il serait intéressant par exemple de voir la proportion (sur le total des sujets "exploitables") qui traitent de (liste non-exhaustive de ce que j'ai en tête) :
- Copie conditionnelle (de lignes...)
- Mise en forme conditionnelle
- Userform
- Recherche à résultat multiple
- Recherche à critère multiple
- Format de Date/heure
...

PS :
Ausecour a écrit :
26 septembre 2019, 11:56
Parce que sinon pour le moment, pour faire ça vraiment bien, à part traiter à la main les plus de 100 000 sujets qui sont sortis depuis 2004... je ne vois pas trop comment on pourrait faire...
S'il y a suffisamment de contributeurs motivés, pourquoi pas !! :D
Merci de prendre 30 sec pour lire la charte du forum.
Quelques conseils : ici
Avatar du membre
Ausecour
Passionné d'Excel
Passionné d'Excel
Messages : 3'118
Appréciations reçues : 346
Inscrit le : 31 mai 2018
Version d'Excel : 2010 FR, 2013 FR

Message par Ausecour » 26 septembre 2019, 19:21

Me revoilà pour de nouvelles statistiques :)

Bon je ne suis pas encore totalement satisfait de mes catégories par contre...
proportion de sujets résolus.png
proportion de sujets résolus.png (8.9 Kio) Vu 797 fois
Pour la proportion de sujets résolus, j'ai fait par rapport aux personnes qui ont validé les sujets comme résolus, la proportion est donc largement sous évaluée ici, on remarque quand même malgré ça, que la proportion de sujets résolus est presque égale au nombre de sujets bien que légèrement inférieur. On peut imaginer que plus de 2/3 des sujets trouvent une réponse adéquate mais je n'ai pas vraiment de moyen rapide d'avoir une valeur plus représentative.

proportion sujets résolus par catégories.png
proportion sujets résolus par catégories.png (12.38 Kio) Vu 797 fois
à la suite de ça, j'ai donc regardé la proportion de sujets résolus par catégories, on voit qu'en général les catégories sont proches de la proportion précédente, 50%, sauf pour les sujets concernant les e-mail, les graphiques, les planning.

répartition sujets par catégories.png
répartition sujets par catégories.png (28.34 Kio) Vu 797 fois
Pour cette dernière statistique, c'est là où je suis le moins satisfait, certains groupes représentent seulement 1% de la population, et j'ai un gros "autre" qui prend 50%, avec ça, pour le moment j'ai en sujets principaux: VBA, formules, cellules (tout ce qui touche aux cellules), formulaire, pour 37% des sujets.

Comme je disais, je ne suis pas totalement satisfait de ça, à cause de la taille du groupe autre, du côté non représentatif de certaines catégories... Je vais voir pour améliorer ça :lole:
Modifié en dernier par Ausecour le 27 septembre 2019, 11:48, modifié 1 fois.
2 membres du forum aiment ce message.
Plus un sujet a un titre précis, des explications claires, et un fichier Excel bien préparé, plus il a de chances d'avoir une réponse qui répond au besoin, mettez toutes les chances de votre côté :bien:
"100% des gagnants auront tenté leur chance" :trfl:
Avatar du membre
Pedro22
Passionné d'Excel
Passionné d'Excel
Messages : 3'934
Appréciations reçues : 401
Inscrit le : 26 janvier 2017
Version d'Excel : 2010 FR
Version de Sheets : FR
Téléchargements : Mes applications

Message par Pedro22 » 27 septembre 2019, 09:07

Salut Ausecour, le forum !

Je trouve ça très intéressant, malgré la difficulté que ça représente et les limites que l'on connaît sur l'indication "résolu" par exemple ! Mes félicitations !

C'est une excellente base pour savoir dans quels domaines il faut que l'on renforce les ressources, cours... Et aussi imaginer des évolutions pour le forum.

:bien:
Merci de prendre 30 sec pour lire la charte du forum.
Quelques conseils : ici
Avatar du membre
Sébastien
Administrateur
Administrateur
Messages : 2'150
Appréciations reçues : 350
Inscrit le : 4 décembre 2004
Version d'Excel : 2016 FR
Version de Sheets : FR
Contact :
Téléchargements : Mes applications

Message par Sébastien » 27 septembre 2019, 09:18

Bonjour Ausecour,
Ausecour a écrit :
25 septembre 2019, 21:22
Voilà, je me suis mis un peu au web scraping qui permet d'absorber le contenu d'un site internet
Est-ce que tu te souviens de la date et l'heure à laquelle tu as lancé ton script ? Peut-être le 17 septembre vers 10h ?

Cordialement,
Sébastien
Avatar du membre
Ausecour
Passionné d'Excel
Passionné d'Excel
Messages : 3'118
Appréciations reçues : 346
Inscrit le : 31 mai 2018
Version d'Excel : 2010 FR, 2013 FR

Message par Ausecour » 27 septembre 2019, 11:45

Sébastien a écrit :
27 septembre 2019, 09:18
Bonjour Ausecour,
Ausecour a écrit :
25 septembre 2019, 21:22
Voilà, je me suis mis un peu au web scraping qui permet d'absorber le contenu d'un site internet
Est-ce que tu te souviens de la date et l'heure à laquelle tu as lancé ton script ? Peut-être le 17 septembre vers 10h ?

Cordialement,
Bonjour Sébastien,

Pour la date et l'heure je dirais... le 25/09/2019 en fin de journée, vers 18h00, et hier en début d'après midi vers 14h15, si tu as eu des problèmes au niveau du serveur le 17/09/2019, ce n'est pas moi malheureusement :bof:
Plus un sujet a un titre précis, des explications claires, et un fichier Excel bien préparé, plus il a de chances d'avoir une réponse qui répond au besoin, mettez toutes les chances de votre côté :bien:
"100% des gagnants auront tenté leur chance" :trfl:
Avatar du membre
waard
Contributeur
Contributeur
Messages : 434
Appréciations reçues : 15
Inscrit le : 9 février 2015
Version d'Excel : 2013, 2016, FR
Téléchargements : Mes applications

Message par waard » 27 septembre 2019, 12:02

:mrgreen: Tant de précisions dans la date et l'heure, cette expérience de stats aurait-elle plantée le site à ce moment ?
Et cette journée là, il y'a eu un article sur un fait divers étrange, à la lecture je pensai qu'il s'agissait d'un proprio de restaurant qui avait fait l'expérience d'un Cluedo réel, mais maintenant ... c'est vrai qu'il y'à serveur et serveur :lol:
Capture-4.jpg
Haha y'aura t'il dans les jours à venir, une dépêche AFP, parlant d'un homme pourchassé par un autre, les 2 criants
"Au secour à moi"
"Au secour tu va payer les frais horaires de réparation" :lol2:
2 membres du forum aiment ce message.
"One and yet a mass"
COHENNY Tristan - Projet MYRMIDON
Répondre
  • Sujets similaires
    Réponses
    Vues
    Dernier message