[Powerquery] - Regroupement de données

Question

J'ai un tableau qui sort d'un ERP, pas très bien structuré parfois des données sont présentes, parfois non, les joies de la saisie en entrée .... J'aimerai par PowerQuery avoir le résultat affiché en PJ. En soit j'ai quelque chose qui fonctionne mais un peu lent sur une grosse volumétrie. Je continue de plancher sur le sujet et entre temps si vous avez des propositions je prends Merci d'avance à tous @+ Edit : désolé je suis allé trop vite j'avais oublié les montants voici la version corrigée...

Zebulon2 · Accepted Answer

Est ce que la structure des données est constante ? Cordialement...

cousinhub · Accepted Answer

Pour essayer de faire avancer le schmilblick... Pas sûr que j'y arrive, mais si on essaie pas... Est-qu'il y a une norme dans l'écriture des différentes rubriques? - Ex : Projet commence toujours par "Projet", ID?, Rubrique (2 lettres?), Clef (numérique et point, numérique tout seul - qu'on pourrait confondre avec le montant?) Bonne journée...

cousinhub · Accepted Answer

Re-,

Un premier jet....

let
    Source = Excel.CurrentWorkbook(){[Name="tData"]}[Content],
    GroupBy = Table.Group(Source, {"Données_ERP"}, {{"Tbl", each _}} ,GroupKind.Local , (s,c) => Number.From(Text.StartsWith(Text.From(c[Données_ERP]), "Projet"))),
    AjoutRec = Table.AddColumn(GroupBy, "rec", each [a=[Tbl][Données_ERP],
                            Projet = List.First(List.Select(a, each Text.StartsWith(_,"Projet"))),
                            ID = List.First(List.Select(a, each Value.Is(_, type text) and Text.Length(_)=5)),
                            Date = Date.From(List.First(List.Select(a, each Value.Is(_, type datetime)))),
                            Rubrique = List.First(List.Select(a, each Value.Is(_, type text) and Text.Length(_)=2)),
                            Clef = List.First(List.Select(a, each Value.Is(_, type text) and Text.Contains(_,"."))),
                            Montant = List.First(List.Select(a, each Value.Is(_, type number)))])[[rec]],
    Expand = Table.ExpandRecordColumn(AjoutRec, "rec", {"Projet", "ID", "Date", "Rubrique", "Clef", "Montant"})
in
    Expand

Pas sûr pour l'ID, je l'ai limité à 5 caractères...

Edit, en me relisant, peut-être qu'un List.Buffer pour "a" serait bénéfique...

saboh12617 · Accepted Answer

Une approche IA, donc assez lourde, mais qui peut donner des pistes de résolution. J'ai supposé que la clé contient des "." pour éviter la confusion "montant/clef" car ça me semble un point de crise important : est-on bien sûr que les montants sont toujours entiers, où alors séparés par "," ? Car sinon entre la clé "1.1" et le montant "1.1" pas facile de faire la différence... EDIT : l'idée est la meme que celle de @cousinhub, passer par des tests & sauvegarde dans un Record. J'imagine qu'il faut tester sur le vrai jeu de données pour voir si les tests sont "suffisants" où à affiner. let Source = Excel.CurrentWorkbook(){&#91;Name="tData"&#93;}&#91;Content&#93;, Src = Table.TransformColumnTypes(Source,{{"Données_ERP", type any}}), // ***** Paramètres & Helpers ***** SourceTable = Src, ColName = Table.ColumnNames(SourceTable){0}, // 1ère (et unique) colonne AlphaList = List.Transform({65..90}, each Character.FromNumber(_)), // A..Z DigitList = List.Transform({48..57}, each Character.FromNumber(_)), // 0..9 IsTwoLetters = (txt as text) as logical =&gt; let s = Text.Upper(Text.Trim(txt)) in Text.Length(s) = 2 and Text.Length(Text.Remove(s, AlphaList)) = 0, IsClef = (txt as text) as logical =&gt; let s = Text.Trim(txt), parts = Text.Split(s, "."), valid = Text.Contains(s, ".") and List.Count(parts) &gt;= 2 and List.AllTrue( List.Transform(parts, each _ &lt;&gt; null and _ &lt;&gt; "" and Text.Length(Text.Remove(_, DigitList)) = 0) ) in valid, // Raccourci : prend la partie avant l'espace si le texte contient un " " (pour enlever l'heure) BeforeSpace = (s as text) as text =&gt; if Text.Contains(s, " ") then Text.BeforeDelimiter(s, " ") else s, IsDate_ddMMyyyy = (txt as text) as logical =&gt; let s0 = Text.Trim(txt), s = BeforeSpace(s0), parts = Text.Split(s, "/"), okLen = List.Count(parts) = 3 and Text.Length(parts{0}) = 2 and Text.Length(parts{1}) = 2 and Text.Length(parts{2}) = 4, // DigitList doit déjà être défini comme dans la version précédente allNum = okLen and Text.Length(Text.Remove(parts{0}, DigitList)) = 0 and Text.Length(Text.Remove(parts{1}, DigitList)) = 0 and Text.Length(Text.Remove(parts{2}, DigitList)) = 0 in // soit on reconnait le pattern 02/02/2025, soit un parse DateTime fonctionne allNum or (try Date.From(DateTime.FromText(s0, "fr-FR")) otherwise null) &lt;&gt; null, ToDate_fr = (txt as text) as nullable date =&gt; let s0 = Text.Trim(txt), s = BeforeSpace(s0), d1 = try Date.FromText(s, "fr-FR") otherwise null, d2 = if d1 &lt;&gt; null then d1 else (try Date.From(DateTime.FromText(s0, "fr-FR")) otherwise null) in d2, IsNumber_fr = (txt as text) as logical =&gt; let tryN = try Number.FromText(Text.Trim(txt), "fr-FR") otherwise null in tryN &lt;&gt; null, // ***** Nettoyage de base ***** Trimmed = Table.TransformColumns(SourceTable, {{ColName, each if _ = null then null else Text.Trim(Text.From(_)), type text}}), RemoveBlanks = Table.SelectRows(Trimmed, each _ &lt;&gt; null and _ &lt;&gt; ""), AddIndex = Table.AddIndexColumn(RemoveBlanks, "Index", 0, 1, Int64.Type), // ***** Détection des entêtes "Projet ..." ***** AddIsProject = Table.AddColumn(AddIndex, "IsProjectRow", each let s = Text.Lower(Text.Trim(Record.Field(_, ColName))) in Text.StartsWith(s, "projet"), type logical), AddProjectName = Table.AddColumn(AddIsProject, "Projet", each if &#91;IsProjectRow&#93; then Record.Field(_, ColName) else null, type text), FillProject = Table.FillDown(AddProjectName, {"Projet"}), KeepOnlyWithProj= Table.SelectRows(FillProject, each &#91;Projet&#93; &lt;&gt; null), // ***** On groupe par Projet, pour classer les lignes de données ***** Grouped = Table.Group( KeepOnlyWithProj, {"Projet"}, { {"Rows", each Table.Sort(_, {{"Index", Order.Ascending}}), type table &#91;Index=Int64.Type, #"IsProjectRow"=logical, Projet=text&#93;} , {"FirstIndex", each List.Min(&#91;Index&#93;), Int64.Type} } ), // ***** Parsing selon vos règles, par bloc de projet ***** Parsed = Table.AddColumn( Grouped, "Parsed", (grp) =&gt; let tbl = grp&#91;Rows&#93;, // Exclure la ligne d'en-tête "Projet ..." dataRows = Table.SelectRows(tbl, each &#91;IsProjectRow&#93; = false), values = if Table.RowCount(dataRows) = 0 then {} else Table.Column(dataRows, ColName), // Accumulateur : on prend la première occurrence par type accInit = &#91; ID=null, Date=null, Rubrique=null, Clef=null, Montant=null &#93;, accRes = List.Accumulate( values, accInit, (state, current) =&gt; let s = Text.Trim(Text.From(current)) in if state&#91;Date&#93; = null and IsDate_ddMMyyyy(s) then Record.TransformFields(state, {{"Date", (d)=&gt; ToDate_fr(s)}}) else if state&#91;Rubrique&#93; = null and IsTwoLetters(s) then Record.TransformFields(state, {{"Rubrique", (r)=&gt; s}}) else if state&#91;Clef&#93; = null and IsClef(s) then Record.TransformFields(state, {{"Clef", (c)=&gt; s}}) else if state&#91;Montant&#93; = null and IsNumber_fr(s) then Record.TransformFields(state, {{"Montant", (m)=&gt; Number.FromText(s, "fr-FR")}}) else if state&#91;ID&#93; = null and not IsDate_ddMMyyyy(s) and not IsTwoLetters(s) and not IsClef(s) and not IsNumber_fr(s) then Record.TransformFields(state, {{"ID", (i)=&gt; s}}) else state ), // Sortie sous forme d'enregistrement result = &#91; Projet = Text.Trim(grp&#91;Projet&#93;), ID = accRes&#91;ID&#93;, Date = accRes&#91;Date&#93;, Rubrique = accRes&#91;Rubrique&#93;, Clef = accRes&#91;Clef&#93;, Montant = accRes&#91;Montant&#93; &#93; in result ), #"Expanded Parsed" = Table.ExpandRecordColumn(Parsed, "Parsed", {"ID", "Date", "Rubrique", "Clef", "Montant"}, {"ID", "Date", "Rubrique", "Clef", "Montant"}), Sorted = Table.Sort(#"Expanded Parsed", {{"FirstIndex", Order.Ascending}}), RemovedAux = Table.RemoveColumns(Sorted, {"Rows","FirstIndex"}), // Types (culture FR) Typed = Table.TransformColumnTypes( RemovedAux, { {"Projet", type text}, {"ID", type text}, {"Date", type date}, {"Rubrique", type text}, {"Clef", type text}, {"Montant", type number} }, "fr-FR" ) in Typed...

saboh12617 · Accepted Answer

Très élégant le stockage des règles, j'aime bien. Bravo ...

JFL · Accepted Answer

Très largement après la bataille mais pour le "fun", une approche qui me semble véloce (test sur la source répétée 10.000 fois) ...

raccourcix · Accepted Answer

Une proposition à tester sans Table.Group mais avec Table.Pivot (en considérant que tous les projets ont un nom différent) comme cousinhub je suis preneur de la requête de JFL pour les tests de vélocité, merci d'avance let Source = Excel.CurrentWorkbook(){&#91;Name="tData"&#93;}&#91;Content&#93;, Projet = Table.AddColumn(Source, "Projet", each if &#91;Données_ERP&#93; is text and Text.StartsWith(&#91;Données_ERP&#93;, "Projet") then &#91;Données_ERP&#93; else null), Règles = Table.AddColumn(Projet, "Règles", each if &#91;Projet&#93;&lt;&gt;null then "Projet" else if &#91;Données_ERP&#93; is datetime then "Date" else if &#91;Données_ERP&#93; is number then "Montant" else if Text.Select(&#91;Données_ERP&#93;,".")&gt;"." then "Clef" else if Text.Length(&#91;Données_ERP&#93;)&gt;=5 then "ID" else "Rubrique"), FillDown = Table.FillDown(Règles,{"Projet"}), Pivot = Table.Pivot(FillDown, {"ID", "Date", "Rubrique","Clef", "Montant"}, "Règles", "Données_ERP") in Pivot Stéphane...

cousinhub · Answer

Re-, Possible d'obtenir cette petite merveille...

massari59264 · Answer

Je suis régulièrement les post en lien avec PQ, et effectivement je rejoins raccourcix et cousinhub, pourriez vous mettre à dispo le fichier permettant de calculer la vélocité d'une requête ?, Ce serait très pratique !! Merci d'avance, Cordialement...

JFL · Answer

Un petit tour ici ------&gt; Tutoriel Vélocité requêtes...