Dernière modification : mardi 3 février.

Étude phylogénétique des Rhizobia avec PAUP


Modalités de remise

Ce devoir est le premier d'une série de 3 devoirs, dont les deux meilleurs seront pris en comptes lors de la note finale (25% chacun).

La date de remise est le 16 février. Les documents à remettre sont :


Introduction au travail

Généralités. Le but de ce devoir est d'étudier la classification phylogénétique d'un groupe de Rhizobia (alpha-protéobactéries) en se basant sur deux gènes issus de l'opéron rrn, les gènes des ARNr 16S et 23S. L'hypothèse à tester concerne la qualité de la classification connue actuellement, qui repose essentiellement sur l'utilisation du gène 16S. On cherche notamment, en étudiant le gène 23S, à tester l'hypothèse d'un transfert latéral de gène chez ces organismes.

Données et modèle. Les 31 taxa considérés sont les suivants : Afipia felis Agrobacterium rhizogenes, Agrobacterium rubi, Agrobacterium tumefaciens, Agrobacterium vitis, Azorhizobium caulinodans, Blastobacter denitrificans, Bradyrhizobium elkanii, Bradyrhizobium japonicum, Bradyrhizobium japonicum USDA 110, Mesorhizobium amorphae, Mesorhizobium ciceri, Mesorhizobium huakuii, Mesorhizobium loti, Mycoplana dimorpha, Ochrobactrum anthropi, Phyllobacterium myrsinacearum, Rhizobium etli, Rhizobium galegae, Rhizobium gallicum, Rhizobium huautlense, Rhizobium leguminosarum, Rhizobium tropici, Rhodobacter sphaeroides, Rhodopseudomonas palustris, Sinorhizobium arboris, Sinorhizobium fredii, Sinorhizobium kostiense, Sinorhizobium meliloti, Sinorhizobium saheli, Sinorhizobium terangae.

Les données que votre biologiste préféré (moi en l'occurrence) vous a fourni sont les séquences d'acides nucléiques suivantes, au format FASTA : 16S.fasta et 23S.fasta. Le modèle d'évolution qu'il vous indique est un simple modèle Jukes-Cantor et on ne considère pas que l'horloge moléculaire s'applique.


Question 1.

En examinant le site du NCBI dédié à la classification taxonomique, NCBI Taxonomy Browser, décrivez la phylogenie que vous pouvez en déduire pour ces organismes, et dessinez la.

Question 2.

Dans cette question, vous allez vous concentrer sur l'analyse du fichier 16S.fasta, et essayer différentes méthodes pour en déduire une phylogénie.

ATTENTION. Comme vous devrez me faire parvenir la trace de votre analyse, n'oubliez pas de sauvegarder régulièrement votre analyse.

Alignement et conversion. Dans un premier temps, vous devrez aligner les séquences du fichier 16S.fasta à l'aide de Clustalw, puis convertir le fichier obtenu au format NEXUS (PAUP), par exemple avec Readseq.

Nettoyage de l'alignement. Vous pouvez maintenant charger vos données dans PAUP. Si votre alignement s'est bien passé, vous devriez remarquer que de nombreuses colonnes de votre alignement sont constantes ou non-informatives du point de vue phylogénétique (par exemple tous les taxa sauf un ont le même état pour une colonne donnée). Vous devez donc supprimer ces colonnes de l'alignement à l'aide de l'option de PAUP vous permettant de pondérer (weight) vos caractères.

Analyses. Effectuez les analyses suivantes, en calculant, pour chacun des arbres obtenus, son score de vraissemblance dans le cadre du modèle Jukes-Cantor et en affichant cet arbre après son calcul.

Remarque. Si vous décidez d'utiliser d'autres options que celles indiquées ci-dessus (et vous en avez le droit), annoncez-le clairement dans votre rapport et justifiez-le si nécessaire.

Commentaire. Commentez les résultats précédents, en vous intéressant à deux aspects :


Question 3.

Vous allez maintenant comparer les résultats obtenus avec les gènes de 16S et de 23S. Pour cela, vous allez uniquement utiliser une analyse de distance et une analyse de parcimonie, ainsi que le test de Shimodaira-Hasegawa qui permet d'évaluer la significativité de différences de topologies que vous allez observer.

Préliminaire. Alignez les séquences de 23S.fasta, puis convertissez ce fichier au format NEXUS et nettoyez l'alignement de 23S pour supprimer les caractères constants et ceux qui sont non-informatifs.

Analyse de distances. Calculez une phylogénie sur la matrice de distance obtenue à partir des données du gène 23S dans le cadre du modèle Jukes-Cantor, avec la commande BIONJ et 100 réplicats de bootstrap.

Calculez le score de vraissemblance des deux arbres (16S et 23S) et à l'aide du test de Shimodaira-Hasegawa (SH), avec 1000 réplicats de bootstrap (méthode RELL), une comparaison avec une distribution one-tailed et une P-value de 0.005, dites-si la différence de topologie entre les deux phylogénies est significative.

Analyse de parcimonie. Pour chacun des deux jeux de données (16S et 23S), effectuez une analyse classique de parcimonie, avec une recherche heuristique, des réarrangements NNI et pas de bootstrap, en conservant les arbres optimaux que vous avez obtenus. Répétez le test SH tel que décrit précédemment, en ajoutant le calcul de la différence moyenne (en termes de score SH) entre chacun des deux ensembles d'arbres et l'arbre le meilleur sur ces deux ensembles.

Commentaire. Commentez les résultats précédents, en vous intéressant aux signaux phylogénétiques de ces différents arbres.


Questions Bonus.

Les plus motivés peuvent essayer de s'attaquer à l'une des questions suivantes.

Le modèle Jukes-Cantor est-il le meilleur pour ces jeux de données ? Justifiez votre réponse par l'utilisation de tests statistiques ou du programme Modeltest.

Quelle est l'influence de l'utilisation d'une distribution Gamma dans les analyses de maximum de vraissemblance ? Plus généralement, étudiez l'influence des différences de taux de variations sur l'analyse phylogénétique.

Que donne l'utilisation des méthodes bayésiennes, comme MrBayes ou BAMBE ?

L'utilisation de T-REX permet-elle de détecter un transfert latéral de gènes.

Que sait-on du transfert latéral de gènes, notamment chez les bactéries, et de la façon de le prendre en compte dans les analyses phylogénétiques ?

Toute autre question que vous avez envie d'explorer, que ce soit au niveau des méthodes ou du jeu de données particulier que vous avez étudié, ou du transfert latéral de gènes.