Dernière modification : samedi 28 février.

Étude phylogénétique des Rhizobia avec PAUP


Modalités de remise

Ce devoir est le premier d'une série de 3 devoirs, dont les deux meilleurs seront pris en comptes lors de la note finale (25% chacun).

La date de remise est le 16 février. Les documents à remettre sont :


Introduction au travail

Généralités. Le but de ce devoir est d'étudier la classification phylogénétique d'un groupe de Rhizobia (alpha-protéobactéries) en se basant sur deux gènes issus de l'opéron rrn, les gènes des ARNr 16S et 23S. L'hypothèse à tester concerne la qualité de la classification connue actuellement, qui repose essentiellement sur l'utilisation du gène 16S. On cherche notamment, en étudiant le gène 23S, à tester l'hypothèse d'un transfert latéral de gène chez ces organismes.

Données et modèle. Les 31 taxa considérés sont les suivants : Afipia felis Agrobacterium rhizogenes, Agrobacterium rubi, Agrobacterium tumefaciens, Agrobacterium vitis, Azorhizobium caulinodans, Blastobacter denitrificans, Bradyrhizobium elkanii, Bradyrhizobium japonicum, Bradyrhizobium japonicum USDA 110, Mesorhizobium amorphae, Mesorhizobium ciceri, Mesorhizobium huakuii, Mesorhizobium loti, Mycoplana dimorpha, Ochrobactrum anthropi, Phyllobacterium myrsinacearum, Rhizobium etli, Rhizobium galegae, Rhizobium gallicum, Rhizobium huautlense, Rhizobium leguminosarum, Rhizobium tropici, Rhodobacter sphaeroides, Rhodopseudomonas palustris, Sinorhizobium arboris, Sinorhizobium fredii, Sinorhizobium kostiense, Sinorhizobium meliloti, Sinorhizobium saheli, Sinorhizobium terangae.


CORRIGÉ.

Voici la référence utilisée pour préparer ce devoir : Discordant Phylogenies within the rrn Loci of Rhizobia (Peter van Berkum, Zewdu Terefework, Lars Paulin, Sini Suomalainen, Kristina Lindström, et Bertrand D. Eardly, JOURNAL OF BACTERIOLOGY, vol 185 No 10, May 2003, p. 2988­-2998).

Les données que votre biologiste préféré (moi en l'occurrence) vous a fourni sont les séquences d'acides nucléiques suivantes, au format FASTA : 16S.fasta et 23S.fasta. Le modèle d'évolution qu'il vous indique est un simple modèle Jukes-Cantor et on ne considère pas que l'horloge moléculaire s'applique.


CORRIGÉ.

Voici les fichiers corrigés, avec les mêmes noms numéros pour les taxa : 16S et 23S. Les erreurs provenaient du fait que dans le NCBI, certains organismes sont identifiés par différents noms.

Question 1.

En examinant le site du NCBI dédié à la classification taxonomique, NCBI Taxonomy Browser, décrivez la phylogenie que vous pouvez en déduire pour ces organismes, et dessinez la.

CORRIGÉ.

Voici un fichier décrivant cette phylogénie : AlphaProtéoBactéries.

Question 2.

Dans cette question, vous allez vous concentrer sur l'analyse du fichier 16S.fasta, et essayer différentes méthodes pour en déduire une phylogénie.

ATTENTION. Comme vous devrez me faire parvenir la trace de votre analyse, n'oubliez pas de sauvegarder régulièrement votre analyse.

Alignement et conversion. Dans un premier temps, vous devrez aligner les séquences du fichier 16S.fasta à l'aide de Clustalw, puis convertir le fichier obtenu au format NEXUS (PAUP), par exemple avec Readseq.


CORRIGÉ.

Voici les résultats obtenus : 16S au format MSF et 16S au format NEXUS.

Nettoyage de l'alignement. Vous pouvez maintenant charger vos données dans PAUP. Si votre alignement s'est bien passé, vous devriez remarquer que de nombreuses colonnes de votre alignement sont constantes ou non-informatives du point de vue phylogénétique (par exemple tous les taxa sauf un ont le même état pour une colonne donnée). Vous devez donc supprimer ces colonnes de l'alignement à l'aide de l'option de PAUP vous permettant de pondérer (weight) vos caractères.

Analyses. Effectuez les analyses suivantes, en calculant, pour chacun des arbres obtenus, son score de vraissemblance dans le cadre du modèle Jukes-Cantor et en affichant cet arbre après son calcul.

Remarque. Si vous décidez d'utiliser d'autres options que celles indiquées ci-dessus (et vous en avez le droit), annoncez-le clairement dans votre rapport et justifiez-le si nécessaire.


CORRIGÉ.

Voici les résultats de mes analyses sur PAUP 4.0b10 sur MacOSX

Une erreur courante dans vos copies : l'oubli de l'outgroup. Cela fausse assez fortement les analyses.

Une autre erreur courante consiste, lors du calcul des scores de vraissemblance, à ne pas mettre à jour les paramètres pour utiliser le modèle JC (le taux transversions / transisitions doit être de 1 par exemple).


Commentaire. Commentez les résultats précédents, en vous intéressant à deux aspects :


CORRIGÉ.

Sur l'arbre NJ (score de vraissemblance de 3828), on peut faire les observations suivantes : Sur l'arbre des moindres carrés (score de 3810), le groupe des Rhizobiaceae en deux sous-groupes n'est même plus soutenue : les Sinorhizobium/Ensifer sont joints aux Phyllobacteriaceae (avec un boostrap faible de 63 cependant) et la séparation des Rhizobiaceae est soutenue par un score de bootstrap de 96 pour le groupe ne contenant pas Sinorhizobium/Ensifer. Autrement, à l'intérieur des groupes, on peut noter le faible score (58) du groupe contenant 10 et 11 (qui ne sont pas à leur place) mais le fort score (100) du groupe contenant 12 (qui n'est pas à sa place aussi). Cela amène à se questionner sur ce taxon 12.

Sur l'arbre de parcimonie (score de 3856), on peut notamment remarquer la séparation entre Bradyrhizobiaceae et les autres groupes, ainsi que la dispartion du groupe Rhizobiaceae, ses deux sous-groupes (Rizhobium/Agrobacterium et Sinorhizobium/Ensifer) se retrouvant au même niveau que Bradyrhizobiaceae. On a aussi disparition du groupe Brucellaceae (6, 27). Au niveau du groupe Bradyrhizobiaceae, sa résolution interne est assez faible, tout comme celle de Rizhobium/Agrobacterium (encore l'influence de 10, 11, 12). Par contre le groupe Phyllobacteriaceae est bien décrit et soutenu (séparation entre [22, 23, 24, 25] et 26).

L'arbre des quartets (score de 3834) est relativement mal soutenu.

L'arbre de maximum de vraissemblance (score de 3879) est très similaire à l'arbre NJ. Et comme par hasard, ce sont les deux arbres ayant les meilleurs scores de vraissemblance.



Question 3.

Vous allez maintenant comparer les résultats obtenus avec les gènes de 16S et de 23S. Pour cela, vous allez uniquement utiliser une analyse de distance et une analyse de parcimonie, ainsi que le test de Shimodaira-Hasegawa qui permet d'évaluer la significativité de différences de topologies que vous allez observer.

Préliminaire. Alignez les séquences de 23S.fasta, puis convertissez ce fichier au format NEXUS et nettoyez l'alignement de 23S pour supprimer les caractères constants et ceux qui sont non-informatifs.


CORRIGÉ.

Voici les résultats obtenus : 23S au format MSF et 23S au format NEXUS.

Analyse de distances. Calculez une phylogénie sur la matrice de distance obtenue à partir des données du gène 23S dans le cadre du modèle Jukes-Cantor, avec la commande BIONJ et 100 réplicats de bootstrap.

Calculez le score de vraissemblance des deux arbres (16S et 23S) et à l'aide du test de Shimodaira-Hasegawa (SH), avec 1000 réplicats de bootstrap (méthode RELL), une comparaison avec une distribution one-tailed et une P-value de 0.005, dites-si la différence de topologie entre les deux phylogénies est significative.


CORRIGÉ.

Dans cette analyse, j'ai d'abord calculé l'arbre NJ pour le jeu de données 23S (arbre NJ 23S), puis j'ai effectué le test SH dans deux conditions différentes, à savoir en calculant les scores de vraissemblance avec l'alignement 23S, puis avec l'alignement 23S. Voici mes résultats : session PAUP.

La structure de l'arbre obtenu est assez différente de l'arbre NJ avec le gène 16S. Par exemple, mis à part l'intrusion du taxon 31, le groupe Bradyrhizobiaceae est très bien résolu et soutenu. L'autre groupe bien résolu est celui des Sinorhizobium/Ensifer. Par contre les autres groupes sont assez mal résolus (26 est séparé de [22, 23, 24, 25]), notamment Rizhobium/Agrobacterium. On a quelques informations pertinentes, souvent liées à des informations douteuses vis-à-vis de ce que l'on sait : le regroupement entre 13 et 14 est correct, mais cette information est contrebalancée par le lien de 12 avec ces deux taxa. De même avec 15 et 16, mais ils sont mal groupés avec 16, 17, 18 et 19, etc.

Pour le test SH, dans les deux cas, l'arbre correspondant au jeu de données utilisé est le meilleur, ce qui n'est pas surprenant. Mais ce qui est intéressant (et c'est à cela que sert un test comme SH), c'est de noter que dans les deux cas, la différence de topologie est considérée comme significative (et c'est bien cela que l'on attendait).


Analyse de parcimonie. Pour chacun des deux jeux de données (16S et 23S), effectuez une analyse classique de parcimonie, avec une recherche heuristique, des réarrangements NNI et pas de bootstrap, en conservant les arbres optimaux que vous avez obtenus. Répétez le test SH tel que décrit précédemment, en ajoutant le calcul de la différence moyenne (en termes de score SH) entre chacun des deux ensembles d'arbres et l'arbre le meilleur sur ces deux ensembles.


CORRIGÉ.

Là encore, après avoirn calculé les arbres par parcimonie (arbre 16S et arbre 23S), j'ai effectué le test SH dans deux conditions différentes, à savoir en calculant les scores de vraissemblance avec l'alignement 23S, puis avec l'alignement 23S. Voici mes résultats : session PAUP. On peut en tirer les mêmes conclusions que pour l'analyse de distance.

Commentaire. Commentez les résultats précédents, en vous intéressant aux signaux phylogénétiques de ces différents arbres.


CORRIGÉ.

La principale conclusion que l'on peut tirer de ces expériences est que le signal phylogénétique entre les deux jeux de deonnées est différent. Le fait que quel que soit le jeu de données de référence les différences de topologies entre les arbres produits soient significatives en est une bonne illustration.

Questions Bonus.

Les plus motivés peuvent essayer de s'attaquer à l'une des questions suivantes.

Le modèle Jukes-Cantor est-il le meilleur pour ces jeux de données ? Justifiez votre réponse par l'utilisation de tests statistiques ou du programme Modeltest.

Quelle est l'influence de l'utilisation d'une distribution Gamma dans les analyses de maximum de vraissemblance ? Plus généralement, étudiez l'influence des différences de taux de variations sur l'analyse phylogénétique.

Que donne l'utilisation des méthodes bayésiennes, comme MrBayes ou BAMBE ?

L'utilisation de T-REX permet-elle de détecter un transfert latéral de gènes.

Que sait-on du transfert latéral de gènes, notamment chez les bactéries, et de la façon de le prendre en compte dans les analyses phylogénétiques ?

Toute autre question que vous avez envie d'explorer, que ce soit au niveau des méthodes ou du jeu de données particulier que vous avez étudié, ou du transfert latéral de gènes.