Comment convertir / re-expandre des set de donnees?

Bonjour a toutes et tous,

Je cherche un moyen de "re-expandre" un set de donnees qui se presente sou forme de sequences (=HAP) avec leur frequence relative (caracteres gras ici) en un set de 100 sequences representatives.

Par exemple, si je dispose au depart de 3 sequences:

>HAP1_0.75

ATGCATCGCCCTTAAA

>HAP2_0.13

ATTGGCCCCCAAAAC

>HAP3_0.12

TTTAAGGCCCCCAAA

Le resultat devrait inclure 75 identical sequences comme HAP1 ("ATGCATCGCCCTTAAA"), 13 sequences identiques à HAP2 et 12 sequences identiques à HAP3 soit un total de 100 lignes...

Est-ce ± clair?

Merci de vos conseils.

Cordialement,

A

Bonjour,

Est-ce ± clair?

±

Merci de mettre un fichier xls tel que se présente tes données (le nombre de données est-il fixe ?) ainsi qu'une présentation du début du résultat.

Est-ce que ça doit être aléatoire ou ordonné ?

eric

Merci de m'aiguiller pour obtenir la reponse la plus adaptee.

Le fichier de sortie comportera toujours 100 sequences mais le fichier d'entree peut comprendre 1 à plusieurs dizaines de sequences.

Initialement, ils se presentent avec une ligne debutant par ">" pour identifier la sequence avec sa freq relative suivi de la ligne correspondant aux donnees=sequence elle-meme. Il m'est possible de reorganiser les choses avec une colonne pour l'identifiant, une colonne pour la frequence et une colonne pour la sequence elle-meme.

Je vous attache un exemple de fichier initial tel qu'il peut se presenter. la frequence de chaque seq est representee par le dernier argument de la ligne separee par un underscore "_". Elle peut etre arrondie au centieme sans pb.

J'espere que cela est + clair desormais...

Cdt,

17essai.txt (2.22 Ko)

Je préfèrerai un copier-coller dans un fichier excel xls.

Là on ne sait pas si c'est ton traitement de texte qui a mis les retours à la ligne à 60 car ou non...

Et tu en profiteras pour dire sous quelle forme tu veux le résultat.

Concatener ?

Une colonne de 100 cellules ?

Elle peut etre arrondie au centieme sans pb

Donc on pourra avoir 99 ou 101 réponses. On fait quoi dans ce cas là ? On laisse ? On compense sur la dernière série ?

eric

Ca me semble une bonne option (la derniere sequence est toujours la moins "frequente" ou "representative")

Bon, tu ne réponds qu'à la moitié des questions, j'abandonne.

eric

DSL...

Je voulais dire que tu pouvais laisser 99 ou 101 occurrences san pb...

(je comprends ton agacement, c'est deja sympa d'avoir essaye de me comprendre)

Rechercher des sujets similaires à "comment convertir expandre set donnees"