Dernière modification : jeudi 26 février.
Détection des micro ARN chez l'humain
Modalités de remise
Ce devoir est le deuxième d'une série de 3 devoirs, dont les deux
meilleurs seront pris en comptes lors de la note finale (25%
chacun).
La date de remise est le 10 mars. Les documents à remettre
consistent en un rapport d'au plus une dizaine de pages, et en un
ensemble de fichier d'analyse, que vous pouvez me transmettre soit par
courriel, soit en les déposant sur votre compte Unix des machines du
labo du DESS.
Introduction au travail
Le but de ce travail est d'étudier le problème de la prédiction, chez
l'humain, d'une famille assez populaire(1) d'ARN non codants, les
micro-ARNs (en anglais miRNAs), et de se familiariser avec les
notions de repliement par minimisation d'énergie et de
recherche de motifs de structure secondaire.
Les miRNAs prennent la forme de séquences d'une vingtaine de
nucléotides que l'on retrouve en particulier dans des séquences
introniques de taille 70-100 nucléotides pouvant se replier en un
motif
stem-loop
(aussi appelé hairpin-like), que l'on appelle le
précurseur (pre-miRNA).
Une base de données dédiée aux miRNAs a été publiée récemment :
The miRNA Registry.
(1)
Tapez les mot miRNA ou microRNA dans
Entrez-PubMed
et vous aurez une idée de l'intérêt des chercheurs pour ces gènes.
Un bon article de revue aussi :
The microRNA world: small is
mighty.
Question 1.
Dans cette question, nous allons nous intéresser à quelques miRNAs
présents dans le génome humain, et aux propriétés de leur
repliement par minimisation d'énergie avec
MFOLD
(la version originale de ce programme, ainsi que plusieurs variantes,
est disponible en
RNA & DNA
Folding Applications).
Le travail demandé consiste à analyser le repliement d'une dizaine de
séquences de pre-miRNAs provenant de 2 chromosomes du génome humain.
Selon
The
miRNA Registry, les miRNAs se répartissent comme suit (je n'ai mis
qu'un sous-ensemble des chromosomes pour des raisons d'espace) :
-
chromosome 1 : 34, 181-b, 213, 214, 215.
-
chromosome 2 : 10-b, 26-b, 216, 217.
-
chromosome 3 : 16-3, 26-a, 28, 128-b.
-
chromosome 6 : 30, 133-b, 219.
-
chromosome 7 : 25, 29, 291b-2.
-
chromosome 9 : 7-1, 31, 32, 24-1, 199-b.
-
chromosome 13 : 15-a, 16, 17, 18, 19-a, 19-b-1, 20.
-
chromosome 17 : let-7a-1, let-7d, let-7f-1, 10-a, 33-b, 108-1, 212.
-
chromosome 19 : let-7e, 7-3, 23, 24-2, 27, 181-c.
-
chromosome 22 : let-7a-3, let-7b, 33, 130-b.
-
chromosome X : let-7f-2, 19-b-2, 106, 220, 221, 222, 223.
Le but est de faire une étude la plus complète possible de ces
repliements par minimisation d'énergie, pour la dizaine de pre-miRNAs que
vous aurez choisis, étant donné que vous
connaissez les vraies structures par
The
miRNA Registry. En particulier, les questions suivantes sont
intéressantes :
- quels types d'éléments structurels sont bien prédits ?
- quelle est la distribution des valeurs énergétiques ?
- tout ce que vous pourrez tirer de ces repliements et de MFOLD.
Remarque.
Envoyez-moi par courriel ou déposez sur votre compte Unix des machines
du labo du DESS les résultats de vos analyses de repliement.
CORRIGÉ.
Vous êtes tous arrivés à une conclusion
similaire.
-
Dans l'ensemble MFOLD prédit assez bien les structures
secondaires des pre-miRNAs.
-
Les principales erreurs correspondent à deux types de motifs de
structure secondaire :
-
les grandes boucles terminales, qui sont coupés en deux
boucles, comme par exemple le pre-miRNA hsa-let-7d, dont voici
l'entrée du
miRNA
Registry et la prédiction MFOLD
(structure et
décomposition
énergétique) ;
-
plus surprenant, un certain nombre de petites boucles internes
séparées par une paire de base sont fusionnées en
une seule boucle, comme par exemple chez hsa-mir-223 (
structure connue,
structure MFOLD,
décomposition énergétique,
-
La structure d'énergie minimum n'est pas toujours la plus
proche de la structure connue, comme par exemple avec
hsa-mir-130b,
dont voici la
structure optimale et la
seconde structure optimale.
-
Finalement, l;a distribution des paramètres
énergétiques ne montre pas de grande coorélation
avec la qualité de la prédiction de MFOLD, même si
on la pondère par la longueur des équences
considérées. On a une bonne illustration de ce fait en
examinant les ARN
hsa-mir-18, hsa-mir-19a, hsa-mir-15a, hsa-mir-16-1, hsa-mir-221 et
hsa-mir-222.
Question 2.
Dans cette courte question, j'aimerais que vous repreniez les
séquences des pre-miRNAs que vous avez étudiés et qu'à l'aide du
service
BLAST, vous
étudiiez la spécificité, en terme de similarité de séquence, de ces
pre-miRNAs vis-à-vis du clade des Mammifères.
Les résultats obtenus laissent-ils supposer qu'une analyse à base de
covariation (par exemple avec
MatrixPlot)
pourrait aider à prédire ces gènes ?
Les régions similaires que vous trouvez ainsi dans les autres génomes
de mammifères correspondent-elles en
général des pre-miRNAs ?
Remarque.
Envoyez-moi par courriel ou déposez sur votre compte Unix des machines
du labo du DESS les résultats de vos BLAST.
CORRIGÉ.
Là encore vous avez à peu près tous
remarqué les faits suivants :
-
On retrouve peu de hits BLAST vers des pre-miRNAs, et plutôt de
nombreux hits soit vers des séquences de miRNAs matures
(notamment humain et souris), soit vers des séquences dont
l'annotation ne mentionne aucun lien avec des miRNAs.
-
Les quelques hits intéressants que l'on retrouve ne
présentent pas assez de variabilité pour espérer
utiliser la technique d'analyse de covariation.
Par exemple, un Blast chez les mammifères avec les pre-miRNAs
hsa-mir-222 et hsa-let-7a-1 donnent les résultats suivants :
Or pour pouvoir effectuer une analyse de covariation, même pour un
seul pre-miRNA, il faudrait disposer des éléments suivants :
-
un ensemble suffisamment grand (au moins 6,7 séquences) de pre-miRNAs
de fonction similaire mais chez d'autres espèces (rat, souris, ...),
-
un alignement de ces séquences tenant compte des éléemnts de structure
secondaire et exhibant suffisamment de covariations (paires de bases
appareilléees variant ensemble).
Or, outre le fait que peu de hits Blast concernent des pre-miRNAs,
Blast n'intègre aucune information structurelle dans son
alignement. Une solution pour résoudre (peut-être) ce
problèmeconsisterait à essayer le programme
FoldAlign
(et son complément naturel
Slash) mais il faudrait
pour cela auparavant avoir un ensemble de séquences
reliées, ce qui ne paraît pas évident au vu de vos
résultats).
Par exemple, dans l'un de vos devoirs, les 10 pre-miRNAs testés ont
engendré 389 hits, dont 30 nouveaux miRNAs (dans ce cas, il faut aussi
récupérer la séquence précurseur) ou pre-miRNAs, mais une analyse de
l'alignement de ces séquences avec MatrixPlot n'a montré aucun
résultat intéressant du point de vue de la covariation. Pour
information, voici les résultats de ce devoir :
résultats Blast.
Question 3.
Le but de cette question est d'étudier la possibilité de repérer les
pre-miRNA à l'aide du programmes
PatSearch
de recherche de motifs de structures secondaires dans une séquence.
Votre travail consiste en deux étapes :
-
à partir des pre-miRNAs que vous avez étudiés jusque-là, essayez de
définir un (ou des) motif(s) (au sens de PatSearch) consensus pour leur structure
secondaire ;
-
rechercher ce motif sur les régions conservées des deux chromosomes du
génome humain que vous avez étudiés(2) :
-
retrouvez-vous toutes les occurrences des mi-RNAs dont on disposait au
début de l'étude ?
-
si non, est-ce parce que la séquence correspondante n'est pas présente
dans les fichiers que je vous fournis ou parceque votre (ou vos) motif(s) est trop
spécifique à un ou des pre-miRNAs?
-
trouvez-vous de nombreux autres miRNAs possibles dans ces deux
chromosomes avec votre recherche de motifs ?
CORRIGÉ.
Cette question a posé problème du fait des
défaillances du serveur PatSearch. Néammoins, vous avez
tous essayé diverses stratégies de mise au point de
motifs (allant de motifs très simples à des motifs plus
complexes), sans qu'aucune d'entre elle ne soit trè
efficace.
La meilleure stratégie que l'on retrouve consistait à
essayer de définir un motif pour une série de quelques
pre-miRNAs caractérisés par des décompositions en
suites de (petite boucle, hélice), avant la boucle terminale,
relativement similaire, ce motif étant rendu plus sensible par
l'utilisation de mismatchs (paramètres [x,y,z] des motifs).
(2)
Vous pouvez récupérer
ici un ensemble de fichiers FASTA (fournis par Mathieu
Blanchette) contenant les régions conservées des chromosomes qui nous
intéressent dans le dernier assemblage du génome humai
Ces données sont éclatées en fichiers d'au plus 2 MegaOctets chacun et
compressées avec gzip (on peut les décompresser avec gunzip).
Remarque.
Envoyez-moi par courriel ou déposez sur votre compte Unix des machines
du labo du DESS la description de votre motif et les résultats de
PatSearch.
Question Bonus.
La question sous-jacente à la Question 3 est en fait la suivante :
est-il possible de définir un seul motif consensus pour les pre-miRNAs
? À mon avis, la réponse est non, mais peut-être plusieurs motifs
permettraient-ils d'être plus efficaces : si vous avez le temps, vous
pouvez tester cette hypothèse.
Toujours pour la question 3, vous pouvez reprendre quelques une des
séquences obtenues par PatSearch et ne correspondant pas à des
pre-miRNAs et refaire l'expérience de la Question 2 : trouvez-vous des
séquences similaires chez le mammifères ? L'alignement que vous
obtenez ressemble-t'il aux alignements de pre-miRNAs ?