Quelques liens vers d'autres cours de bioinformatique:
A Stanford.
A Washigton.
A SUNY.
Voici l'examen final de la session Automne 2008.

Voici l'examen intra de la session Automne 2008.

Ateliers associés au cours Inf 4500 Bioinformatique.
Atelier 1: Où est mon génome ?
Atelier 2: Un gène, une protéine.
Atelier 3: Assemblons avec CAP3.
Atelier 4: Alignements simples et alignements multiples.
Atelier 5: BLAST !
Atelier 6: Réarrangements de gènes.
Atelier 7: Variations dans le génome.
Atelier 8: Phylogénies parfaites et imparfaites.
Atelier 9: Expression et épissage alternatif.
  • Atelier 2: Un gène, une protéine.

    A) Accédez à la base de données
    GenBank au NCBI.



    B) Accédez à la base de données EMBL-EBI.



    C) Quelles interfaces préférez-vous, NCBI ou EMBL-EBI ?

    D) Le gène "lacZ" figure dans le génome de plusieurs bactéries, dont Escherichia coli, trouvez la séquence de la protéine codée par ce gène. [Note: cet exercice est plus difficile que les précédents.]



  • Atelier 3: Assemblons avec CAP3.

    A) Exercice de réchauffement: une implémentation Web du logiciel d'assemblage CAP3 est disponible
    ici à l'Université de Lyon.



    B) La vraie chose: il est possible d'installer CAP3 sur votre ordinateur préféré via ce site à l'Iowa State University.





  • Atelier 4 : Alignements simples et alignements multiples.

    A) Alignements simples (protéines).



    B) Alignements simples (nucléotides).



    C) Alignements multiples (protéines).





  • Atelier 5 : Blast!.

    ATTENTION: vous êtes fortement encouragés, pour cet atelier, à vous rendre au laboratoire lundi le 6 octobre, où Lylen répondra à vos questions. La plupart des réponses sont disponibles, mais je vous conseille de ne les consulter qu'après avoir essayé les exercices: pour faire l'examen intra, vous aurez besoin des techniques que vous allez acquérir au cours de cet atelier.

    A) Réchauffement: accédez à la page d'accueil de
    Blast, et choisissez l'option 'nucleotide blast' dans le paragraphe 'Basic BLAST'.

    Dans l'interface, entrez le numéro d'accession U65534, l'immunoglobine gamma 1 de la souris, et choisissez la base de données 'Nucloeotide collection'. Appuyez sur le bouton 'BLAST' et attendez les résultats. C'est plus rapide dans les heures creuses (!).

    Par défaut, Blast va proposer une centaine d'alignements significatifs. La présentation des résultats est remplie de toutes sortes de boutons, explorez-en quelques-uns.



    B) Séquences aléatoires: un bon moyen d'explorer un logiciel. Dans l'interface de Blast, au bas de la page, ouvrez l'onglet 'Algorithm parameters'.



    C) Transcrits et séquence génomique. Faire une recherche blast avec la seequence d'ARN NM_005217 (Homo sapiens defensin, alpha 3) en utilisant la base de données 'Human genomic plus transcipts' et le programme 'megablast'.



    D) Blast protéines.



    E) Influenza. Servez-vous de Blast pour évaluer votre assemblage du virus d'Influenza.



  • Atelier 6: Réarrangements de gènes

    Le logiciel
    GRIMM permet de calculer les distances de réarrangement par inversions ou translocations de deux ou plusiers génomes. Lorsque plusieurs génomes sont soumis, le logiciel donne également un arbre qui permet de visualiser les relations entre les espèces.

    A) Soumettez au logiciel les génomes de l'homme et de la souris disponibles ici. Attention, vous devriez choisir le format en deux colonnes et l'option "Only affected chromosomes". Quelle est la distance entre ces deux génomes? Combien de fissions de chromosomes sont effectuees dans le scénario proposé ?

    B) [Travail à REMETTRE le 11 novembre 2010]
    La plupart du temps, les données ne sont pas formattées correctement pour le logiciel GRIMM, c'est le cas du fichier disponible ici, qui donne l'ordre des protéines de mitochondries pour 7 espèces d'animaux.






  • Atelier 7: Variations dans le génome

    A) Empreintes d'ADN

    Quelle est la séquence répétée du locus CSF1PO de CODIS, combien d'allèles différents sont présents chez l'humain? Consultez, par exemple, la page suivante:
    http://www.cstl.nist.gov/biotech/strbase/.

    Explorez le site suivant blackett2 qui donne les empreintes génétiques d'une famille pour les 13 locus de CODIS. Vous devriez etre en mesure, par exemple de faire les exercices sur les tests de paternité et les personnes disparues. (Le site donne les réponses des premiers exercices, donc il n'est pas nécessaire de tous les faire.)

    B) SNiPs

    Recherchez dans la base de données dbSNP l'entrée 'rs6311'. Note: dans la liste des bases de données du NCBI, cette base de donnée est parfois décrite par le nom "SNP".

    a. Quels sont les allèles connus de cette mutation?

    b. Quel groupe de population a le plus souvent le génotype {C, C}?

    Consultez également l'entrée 'rs3091244' qui est tri-allélique, et répondez aux mêmes questions.

    Que représentent les lettres 'rs' dans les clés utilisées par dnSNP?

    C) Outils de recherche de répétions

    Le lien suivant contient un outil de recherche de répétitions en tandem. Soumettez le génome du plasmide pXO2 de la bactérie Anthrax (NC_003981) au logiciel avec les paramètres par défaut. Quel est le motif de score maximal? Quel est le motif 'consensus' ? Combien de fois est-il répété?

    Pouvez-vous décrire l'algorithme de détection des motifs utilisé dans cet outil? (Oui, la réponse est sur le site.)




  • Atelier 8: Phylogénies parfaites et imparfaites

    A) L'arbre de la vie

    Le site
    Tree of life répertorie la plupart des informations phylogénétiques connues à date. Ce site est construit par des experts, les références sont souvent excellentes.

    L'arbre peut être exploré de la racine vers les branches, ou à partir de n'importe quelle espèce répertoriée. Commencez par la racine (Onglet: 'Root of the Tree"). Les experts s'entendent-ils sur les tous premiers embranchements de la vie sur terre? Etes-vous capable de retrouver l'humain à partir de la racine? Sinon, vous pouvez toujours remonter l'arbre en accédant directement à Homo sapiens.

    B) Séquencage du mammouth

    Un fort intéressant site de bioinformatique, par l'équipe qui séquence le mammouth, à Pennsylvania State University. L'onglet 'Research' est particulièrement bien fait, et vous y retrouver une phylogénie des éléphants. Consultez également la section "Did we sequence more than one kind of mammoth?" qui relie SNiPs et phylogénie.

    C) La quasi-extinction de la vie sur terre, il y a 500 millions d'années

    Explorez le site du Burgess shale. Deux des animaux assez remarquable sont l' Hallucigenia et l'Opabinia, qui, semble-t'il, aurait eu 5 yeux.

    Le 'Burgess shale' lui-même est difficile d'accès, mais le Tyrrell Royal Museum, en Alberta, a une bonne exposition sur le sujet. Avec en prime de vrais squelettes de dinausores, récoltés sur place.

    D) [Travail à REMETTRE le 8 décembre 2008]
    Implantez l'algorithme vu en classe qui construit un arbre de phylogénie parfaite à partir d'une matrice booléenne (Référence: D. Gusfield, Algorithms on Strings, Trees and Sequences, Section 17.3). Vous pouvez supposer que la matrice admet une phylogénie parfaite, et que l'arbre correspondant est un arbre binaire.

    Testez votre programme avec le fichier que vous trouverez ici.

    Donnez votre arbre sous une forme parenthésée, par exemple (((E1 E2) E3) (E4 E5)), où E1, E2, E3, E4 et E5 representent les espèces.




  • Atelier 9: Expression et épissage alternatif

    Le projet ENCODE
    http://genome.gov/10005107 a étudié en profondeur 1% de génome humain. C'est donc dans ces régions que l'on trouve la plus grande densité de gènes avec plusieurs transcrits alternatifs connus.

    Aller sur le navigateur de génome de ENCODE. Vous aurez, à gauche, la liste des 34 régions ENCODE. Choisissez la région EMm013. Configurez votre navigateur de facon à pouvoir voir les noms des gènes -- avec l'onglet 'UCSC Genes' par exemple -- et les événements d'épissage alternatifs -- l'onglet 'Alt Event' au niveau de résolution 'pack'. On constate que le gene STEAP2 a plusieurs événements de transcription alternatifs. La terminologie pour désigner ces événements est exotique. On y retrouve, par exemple, des 'cassette exons' et des 'bleeding exons'. Trouvez la définition de ces termes.

    Pour avoir des rensignements sur les divers transcrits de ce gène, on peut consulter la base de donnees ASTD, Alternative Splicing and Transcript Diversity. Cherchez le gène STEAP2. Examinez sa fiche en répondant aux questions suivantes (les réponses sont entre parenthèses):

    Combien STEAP2 a-t-il de transcrits? (Réponse: 6)

    Quel est le nombre d'exons pour chacun des transcrits ? (Réponses: 5, 7, 6, 6, 3 et 2)

    Allez-voir les details pour ENST00000287908. Quelles sont les adresses du début et de la fin du deuxième exon? (Réponses: 23365 et 23889)

    Allez-voir les details pour pour TRAN00000082685. Quelles sont les adresses du début et de la fin du deuxième exon? (Réponses: 14806 et 14918)

    Combien d'exons ces deux transcrits partagent-ils en entier? Partiellement? (Réponses: 3 et 1)