Informations

Existe-t-il une base de données des taux de mutation pour les loci mitochondriaux ?


Je me demande s'il existe une base de données des taux de mutation (transitions et transversions) pour les deux loci mitochondriaux (tels que la sous-unité I de la cytochrome c oxydase (COI)).

En raison de l'utilisation de COI comme code-barres ADN pour identifier les espèces animales, ce gène a un taux de mutation relativement élevé bien qu'il soit assez conservé dans les principaux groupes taxonomiques. Ainsi, on s'attend à ce que les substitutions dans la COI deviennent un diagnostic d'espèces beaucoup plus rapidement (également en raison de la taille effective de la population 4 fois inférieure à celle des marqueurs nucléaires).

La raison pour laquelle je pose la question est que je développe un algorithme de simulation permettant à un utilisateur de générer des séquences d'ADN aléatoires sous un modèle d'évolution de nucléotides spécifié (par exemple, Jukes-Cantor, Kimura-2-Parameter). J'aimerais pouvoir spécifier des taux de mutation réalistes des transitions et des transversions afin de refléter étroitement les taux de substitution réels dans le COI.

Toute opinion serait très appréciée


Génétique des populations

Génétique des populations est un sous-domaine de la génétique qui traite des différences génétiques au sein et entre les populations, et fait partie de la biologie évolutive. Les études dans cette branche de la biologie examinent des phénomènes tels que l'adaptation, la spéciation et la structure de la population. [1]

La génétique des populations a été un ingrédient essentiel dans l'émergence de la synthèse évolutive moderne. Ses principaux fondateurs étaient Sewall Wright, J. B. S. Haldane et Ronald Fisher, qui ont également jeté les bases de la discipline connexe de la génétique quantitative. Traditionnellement une discipline hautement mathématique, la génétique des populations moderne englobe des travaux théoriques, en laboratoire et sur le terrain. Les modèles génétiques des populations sont utilisés à la fois pour l'inférence statistique à partir des données de séquences d'ADN et pour la preuve/refus de concept. [2]

Ce qui distingue la génétique des populations des approches plus récentes et plus phénotypiques de la modélisation de l'évolution, telles que la théorie des jeux évolutifs et la dynamique adaptative, est l'accent mis sur des phénomènes génétiques tels que la dominance, l'épistasie, le degré auquel la recombinaison génétique rompt le déséquilibre de liaison et les phénomènes aléatoires. de mutation et de dérive génétique. Cela le rend approprié pour la comparaison avec les données de génomique des populations.


Résumé

L'ADN mitochondrial (ADNmt) est utile pour aider à l'identification de la source d'un échantillon biologique, ou pour confirmer la parenté matrilinéaire. Bien que le génome autosomique soit beaucoup plus volumineux, l'ADNmt présente un avantage pour les applications médico-légales du nombre de copies multiples par cellule, permettant une meilleure récupération des informations de séquence à partir d'échantillons dégradés. De plus, les échantillons biologiques tels que les ongles, les vieux os, les dents et les cheveux contiennent de l'ADNmt mais peu ou pas d'ADN autosomique. Le taux de mutation relativement faible du génome mitochondrial (mitogénome) signifie qu'il peut y avoir de grands ensembles d'individus apparentés au matrilinéaire partageant un mitogénome commun. Nous présentons ici le logiciel de simulation de mitoline que nous utilisons pour décrire la distribution du nombre de mitogénomes dans une population qui correspondent à un mitogénome donné, et étudier sa dépendance à la taille de la population et au taux de croissance, ainsi qu'à un nombre de base de données du mitogénome. De plus, nous rapportons la distribution du nombre de méioses séparant des paires d'individus avec un mitogénome correspondant. Nos résultats ont des implications importantes pour évaluer le poids des preuves du profil de l'ADNmt dans la science médico-légale, mais l'analyse de l'ADNmt a de nombreuses applications non humaines, par exemple dans le suivi de la source de l'ivoire. Nos méthodes et logiciels peuvent également être utilisés pour des simulations afin d'aider à valider des modèles d'histoire de population dans des populations humaines ou non humaines.


Résultats

Listes de variantes et d'haplogroupes d'ADNmt haute résolution dans la population japonaise

Nous avons ré-analysé les données WGS précédemment rapportées de la population japonaise (m = 1928) 18 . Nous avons réaligné les lectures WGS sur le génome humain de référence GRCh37, qui comprend la séquence de référence Cambridge révisée (rCRS, NC_012920.1) comme génome mitochondrial humain de référence. Le rCRS a été largement utilisé dans les analyses du génome mitochondrial, y compris chez les individus japonais. Nous n'avons utilisé que les lectures cartographiées de manière unique sur la région mitochondriale pour éviter la contamination des copies nucléaires du génome mitochondrial (nuMTs) 19 . Dans cette étude, nous nous sommes concentrés sur les analyses de l'homoplasmie. Ensuite, nous avons identifié 2023 sites variants, dont 63 sites étaient multialléliques (la profondeur moyenne = 1488 données supplémentaires 1). Parmi ceux-ci, 516 variantes (25,5%) ont été nouvellement identifiées dans nos données WGS. Les spectres de fréquence des allèles mineurs (MAF) ont indiqué que la majorité des variantes identifiées étaient rares dans les variantes rares japonaises (MAF < 0,5%), les variantes à basse fréquence (0,5% ≤ MAF < 5%) et les variantes courantes (MAF ≥ 5% ) représentaient 79,3 %, 16,4 % et 4,3 %, respectivement (Fig. 1 supplémentaire). Nous avons observé des concordances claires des fréquences alléliques alternatives avec celles des deux bases de données japonaises précédemment rapportées (1507 et 1025 variantes avec 3.5KJPN [m = 3552] et Giib-JST mtSNP [m = 672], respectivement Fig. supplémentaire 2) 7,20,21 . Comme indiqué précédemment 22,23, le spectre mutationnel indiquait un rapport élevé de transition à transversion (Ti/Tv) de 16,44 (Fig. 3 supplémentaire).

Ensuite, chaque individu a été classé dans l'haplogroupe d'ADNmt sur la base d'une liste de variantes détectées par le WGS à l'aide de HaploGrep (v2.1.14) 24 . Les haplogroupes sont des classifications des haplotypes d'ADNmt définis selon un ensemble de variantes d'ADNmt spécifiques. Comme l'ADNmt est un génome haploïde, les variantes détectées pourraient être directement utilisées pour la classification des haplogroupes sans phasage. La nomenclature de chaque haplogroupe est définie hiérarchiquement en fonction du nombre de lettres (de un à neuf), qui a été divisée en sous-haplogroupes (par exemple, « D4b » en trois lettres). Le nombre d'haplogroupes a augmenté de façon monotone à partir du macrohaplogroupe (m = 11 à une lettre) aux sous-haplogroupes avec un plus grand nombre de lettres (m = 310 à neuf lettres Données supplémentaires 2). Les incréments du nombre d'haplogroupes sont devenus limités de sept à neuf lettres (Fig. 1a, b).

Les distributions détaillées des haplogroupes basées sur les données WGS japonaises (m = 1928). une Spectres de fréquence cumulés des haplogroupes du macrohaplogroupe (une lettre) aux sous-haplogroupes (neuf lettres). b Comptes cumulatifs des haplogroupes du macrohaplogroupe (une lettre) au sous-haplogroupe (neuf lettres). c Diagrammes à barres empilées des fréquences des macrohaplogroupes dans les régions géographiques du Japon et des sous-populations à partir de 1 kg. Les régions géographiques du Japon sont définies comme Hokkaido, Tohoku, Kanto-Koshinetsu, Chubu-Hokuriku, Kinki, Kyushu et Okinawa du nord-est au sud-ouest du Japon, comme décrit ailleurs 42 .

La distribution de fréquence de chaque haplogroupe a été obtenue en fonction des régions géographiques du Japon (telles que définies par le projet BioBank Japan : Hokkaido, Tohoku, Kanto-Koshinetsu, Chubu-Hokuriku, Kinki, Kyushu et Okinawa du nord-est au sud-ouest du Japon Fig. 4) 18 et toutes les populations de la phase 3 du projet 1000 génomes (1KG, m = 2504 Fig. 1c) 25 . Dans la population japonaise, les macrohaplogroupes A, B, D, M et N avaient plus de 1% de fréquences dans toutes les régions. Dans les régions d'Hokkaido à Kyushu, le macrohaplogroupe D était le plus répandu (>28%), suivi de M et B. En revanche, le spectre différent a été observé à Okinawa (la région insulaire la plus au sud-ouest du Japon), où M et B étaient plus fréquents (37,5 % et 25 %, respectivement) que D (18,8 %). De plus, bien que les haplogroupes D4a et D4b aient été répandus d'Hokkaido à Kyushu, l'haplogroupe D4c était répandu à Okinawa (Fig. 5 supplémentaire). Bien que les spectres d'haplogroupe chez les Asiatiques de l'Est (EAS) 1KG soient relativement similaires à ceux des Japonais, R était plus enrichi chez les EAS 1KG, et D, G et M étaient plus fréquents chez les Japonais. Les populations de 1KG autres que l'EAS ont montré des modèles d'haplogroupes distincts de la population japonaise. M, A, H et L étaient les plus fréquents chez les Sud-Asiatiques, les Américains, les Européens et les Africains (AFR) de 1 kg, respectivement. En particulier, 1KG AFR a montré la moindre diversité au sein des macrohaplogroupes, dont le macrohaplogroupe L spécifique à l'Afrique représentait >90% des fréquences.

Le ML non supervisé aborde les modèles de classification d'ADNmt déconvolués

Pour évaluer comment les haplogroupes définis reflètent la diversité de l'ADNmt au sein d'une population, nous avons effectué un regroupement non supervisé des sujets sur la base des variantes de l'ADNmt et évalué les concordances avec les affectations des haplogroupes. Nous avons adopté trois approches de classification ML non supervisées d'approche phylogénétique, d'analyse en composantes principales (ACP) et d'approximation et de projection de variétés uniformes pour la réduction de la dimensionnalité (UMAP).

Nous avons d'abord construit l'arbre phylogénétique des individus WGS, qui a été illustré comme un type d'arbre non enraciné (Fig. 2a). La branche de l'arbre était principalement divisée en deux lignées principales à la base de la racine, connues sous le nom de groupes "M" et "N". Chaque lignée principale a été divisée en sous-lignées correspondant aux sous-haplogroupes. Ensuite, nous avons appliqué la technique de réduction de dimensionnalité linéaire de l'ACP et examiné jusqu'à 20 PC. Les écarts expliqués étaient de 12,6 % pour les 20 premiers PC. Comme le tracé bidimensionnel des PC1 et PC2 était difficile à saisir pleinement des classifications en grappes (Fig. 6 supplémentaire), nous avons adopté le tracé tridimensionnel composé des trois premiers PC (Fig. 2b). Les principaux groupes M et N ont également été illustrés en tant que groupes distincts dans le graphique PCA. Contrairement au cluster M, le cluster N a été divisé en sous-haplogroupes, tels que A5a, B4a, B4b, B4c, B5 * , F1a, F1b, N9a et N9b.

Les trois classifications de la méthode ML non supervisées ont été effectuées sur les données de variantes WGS de la population japonaise (m = 1928). une L'arbre phylogénétique non enraciné utilisant la méthode du maximum de parcimonie. b Le tracé 3D des trois principaux composants de l'ACP. c L'intrigue des deux composantes de l'UMAP. Chaque couleur et chaque marqueur représentent des haplogroupes. La distinction entre les groupes d'haplogroupes M et N est affichée avec des lignes pointillées dans chaque panneau.

UMAP est un algorithme de réduction de dimensionnalité non linéaire récemment développé, qui a le mérite de préserver la topologie de la structure locale et globale 26 . Bien qu'UMAP ait déjà été appliqué à des données biologiques de grande dimension telles que le séquençage d'ARN monocellulaire 27, nous l'avons appliqué ici aux données génomiques des variantes d'ADNmt. Une application d'UMAP pourrait classer les sujets en groupes >20, ce qui était concordant avec les sous-haplogroupes prédéfinis avec trois lettres (Fig. 2c). UMAP pourrait différencier plus en détail les sous-haplogroupes appartenant au même macrohaplogroupe (par exemple, D4a, D4b1, D4b2, D4c, D4e et D4g appartenant à D). D'autre part, nous n'avons pas trouvé la délimitation claire entre les clusters M et N, qui a été observée dans l'approche phylogénétique et l'ACP. Plusieurs sous-haplogroupes avec de petites tailles d'échantillons ont été regroupés étroitement avec d'autres macrohaplogroupes (par exemple, M7c regroupés avec le macrohaplogroupe D). Ces observations pourraient être les limites potentielles de l'UMAP. Comme chaque méthode de classification ML présentait des avantages uniques pour classer les variations de l'ADNmt, nous proposerions l'intérêt d'appliquer plusieurs méthodes ML pour visualiser de manière exhaustive la diversité des haplogroupes au sein d'une population.

Caractéristiques distinctes de la structure du variant de l'ADNmt à partir de l'ADNn

En raison du manque de recombinaison et d'un taux de mutation plus élevé, la structure de la LD et la distribution des variantes de l'étiquette dans l'ADNmt sont considérées comme distinctes de celles de l'ADNn, alors que les détails n'étaient pas clairs, en particulier chez les non-européens. Ainsi, nous avons effectué une évaluation complète de ces caractéristiques en japonais en utilisant les données WGS. En plus de calculer les corrélations haplotypes (r 2 ) entre les paires de variantes d'ADNmt communes (MAF ≥ 5%, m = 80), nous avons estimé ceux obtenus à partir des haplotypes autosomiques phasés sélectionnés au hasard avec ajustement sur les différences de position des variantes (± 8,3 kpb). Les fractions des paires de variantes avec des corrélations élevées étaient relativement plus petites dans l'ADNmt que dans l'ADNn (2,4% et 20,2% des paires de variantes avec r 2 0,9 dans l'ADNmt et l'ADNn, respectivement Fig. 3a).

Structure LD des variantes communes d'ADNmt identifiées par WGS. une Distributions des corrélations haplotypes (r 2 ) et b La décroissance LD dépendante de la distance dans les variantes d'ADNmt et d'ADNn est illustrée en parallèle. Le calcul de la LD des paires de variants d'ADNn a été ajusté pour la distance correspondant à la longueur de l'ADNmt (± 8,3 kpb, P = 0.21 [R = 0,022] et P = 1.0 × 10 −7 [R = -0,092] pour l'ADNmt et l'ADNn, respectivement). La décroissance LD dépendante de la distance dans l'ADNn est surlignée en rouge. c Distributions du nombre de variantes de balises (r 2 0,5) par une variante commune. Matrice LD par paire parmi les variantes courantes d'ADNmt (MAF 5 %). Dans le panneau supérieur, le r Les 2 valeurs sont colorées selon la légende. Dans le panneau inférieur, les variantes sans variantes de balise sont surlignées en gris, tandis que les variantes incluses dans les haplotypes communs couvrant l'ensemble de l'ADNmt sont colorées séparément comme dans la légende. Les positions des gènes mitochondriaux dans l'ADNmt sont indiquées dans la légende.

Lorsque nous avons vérifié la décroissance dépendante de la distance de la LD, nous avons observé une nette décroissance de la LD dans les paires de variantes d'ADNn en fonction des distances physiques entre les paires de variantes, ce qui refléterait les blocs LD (R = −0.092, P = 1,0 × 10 −7 , comme souligné en rouge Fig. 3b). Cependant, le variant d'ADNmt n'a montré aucune décroissance LD dépendante de la distance (R = 0.022, P = 0,21). Bien qu'il existait des discussions controversées 16,28, nos résultats n'ont pas soutenu l'hypothèse d'événements de recombinaison potentiels dans l'ADNmt. L'absence de recombinaison et la LD relativement faible dans l'ADNmt devraient suggérer que les variantes communes de l'ADNmt sont peu marquées par les polymorphismes mononucléotidiques environnants (SNP) par rapport à l'ADNn. Le nombre de variantes d'étiquettes par variante commune était plus petit dans l'ADNmt que dans l'ADNn, même lorsque les distances des variantes étaient ajustées (Fig. 3c). Jusqu'à 13,8% des variantes communes d'ADNmt n'avaient aucune variante de balise avec r 2 0,5, alors que seulement 5,0% dans l'ADNn.

La visualisation systématique des modèles LD par paires a révélé que les variants d'ADNmt ne constituaient pas des blocs LD parmi les variants voisins (Fig. 3d). D'autre part, nous avons observé plusieurs haplotypes communs couvrant l'ensemble de l'ADNmt (m = 8), ce qui pourrait être la conséquence d'un manque de recombinaison et d'une absence de décroissance LD dépendante de la distance. Fait intéressant, les variantes de l'ADNmt sans aucune variante d'étiquette ont été principalement identifiées dans la région de la boucle D, l'une des régions non codantes mais fonctionnelles de l'ADNmt. En utilisant les données WGS, nous avons mis en évidence les caractéristiques des variantes d'ADNmt 28, qui étaient (i) aucune décroissance LD dépendante de la distance (c'est-à-dire l'absence de blocs LD) et (ii) un marquage clairsemé des variantes communes, dans la population non européenne . De plus, nous avons récemment pu détecter l'existence d'haplotypes communs couvrant l'ensemble de l'ADNmt.

Aucune preuve d'association génotype ADNmt-ADNn

La fonction mitochondriale est régulée non seulement par les gènes codés dans l'ADNmt mais aussi par ceux de l'ADNn. Comme ces deux types de gènes confèrent des fonctions biologiques synergiques 6 , la co-évolution des variants génétiques intégrés en leur sein 5 , à savoir « l'association génotype ADNmt-ADNn », a été suggérée 17 . Ainsi, nous avons testé l'hypothèse qu'il pourrait exister une transmission préférentielle entre l'ADNn et l'ADNmt au niveau du génotype. Pour explorer les empreintes de l'association génotype ADNmt-ADNn, nous avons effectué une analyse à l'échelle du génome pour évaluer la dépendance de la distribution du génotype entre les variantes de l'ADNmt et de l'ADNn à l'aide des données WGS. Nous avons étudié 86 ADNmt communs (MAF ≥ 5 %) et les 7 124 343 variants d'ADNn à l'échelle du génome (MAF ≥ 1 %), mais il n'y avait pas d'association génotype ADNmt-ADNn significative lorsque des comparaisons multiples ont été prises en compte (P = 5,0 × 10 −8 /86 = 5,8 × 10 −10 Fig. 4a). Même lorsque nous nous sommes concentrés sur les variantes situées à ± 10 kpb des gènes mitochondriaux de l'ADNn précédemment définis (m = 1105) 29 , nous n'avons toujours pas détecté d'association significative. De plus, nous avons étudié les associations en utilisant les données GWAS imputées (m = 141 552 voir les détails dans la section suivante). Nous avons analysé l'association entre les 8 variantes d'ADNmt (MAF 5 %) et les 7 402 102 variantes d'ADNn (Rsq ≥ 0,7 et MAF 1 %), mais aucun signal significatif n'a été détecté (P = 5,0 × 10 -8 /8 = 6,3 × 10 -9 ). Nous n'avons pas non plus observé l'enrichissement des signaux d'association dans les variants de gènes liés aux mitochondries dans l'ADNn (Fig. 4b).

Le tracé P-la valeur est l'association P-valeur pour chaque analyse. Dans chaque panneau, un graphique de Manhattan et un graphique quantile-quantile (QQ) sont indiqués. Les oui-axes des parcelles de Manhattan en une et b indiquer −log10(le minimum P) à chaque variant d'ADNn extrait des résultats pour tous les variants d'ADNmt testés. Les lignes grises horizontales représentent le seuil significatif à l'échelle de l'étude (P < 5,8 × 10 −10 , 6,3 × 10 −9 et 5,0 × 10 −8 pour une, b, et c, respectivement). Dans le tracé QQ, les points bleus indiquent toutes les variantes et les points rouges sont les variantes à ± 10 000 pb des 1105 gènes liés aux mitochondries dans l'ADNn. une Les associations de génotypes ADNmt-ADNn à l'échelle du génome obtenues à partir des données WGS (m = 1928, variantes d'ADNmt = 86 [MAF ≥ 5 %] et variantes d'ADNn = 7 124 343 [MAF ≥ 1 %]). b Les associations de génotypes ADNmt-ADNn à l'échelle du génome obtenues à partir des données GWAS imputées (m = 141 552, variantes d'ADNmt = 8 [MAF ≥ 5 %] et variantes d'ADNn = 7 402 102 [Rsq ≥ 0,7 et MAF ≥ 1 %]). c Les associations mtCN–nDNA à l'échelle du génome obtenues à partir des données WGS (m = 1928, variantes d'ADNn = 7 124 343 [MAF ≥ 1 %]).

Comme le mtCN des individus est connu pour être corrélé aux fonctions mitochondriales régulées par les gènes ADNn 3,4, nous avons également étudié l'association génotype mtCN-ADNn. Chaque mtCN de l'individu a été estimé par la profondeur WGS. Nous n'avons détecté aucune association satisfaisant au seuil de signification à l'échelle du génome (P < 5,0 × 10 -8 ) et aucun enrichissement des signaux d'association n'a été observé lorsque nous nous sommes concentrés sur les variants de gènes liés aux mitochondries dans l'ADNn (Fig. 4c). Bien que notre étude WGS ait eu une taille d'échantillon relativement plus grande que les précédentes, nous n'avons pas trouvé de preuve d'association de génotype ADNmt- (ou mtCN-) . L'association mtCN-nDNA dans TFAM gène (rs11006126) a été signalé 3 . Nous avons observé une association nominale avec le même effet directionnel (P = 0.018).

Le PheWAS mitochondrial a identifié d'abondantes associations de traits de variantes d'ADNmt

Pour décrire le paysage phénotypique des variantes de l'ADNmt sur le trait complexe humain, PheWAS utilisant une biobanque à grande échelle avec des données de génotype et de phénotype profondes est nécessaire. À cette fin, nous avons mené mtDNA PheWAS en utilisant le projet BioBank Japan, l'une des plus grandes biobanques d'ascendance non européenne 30,31,32,33. Après une application de filtres de contrôle de qualité stricts (voir les détails dans la méthode), nous avons obtenu les 44 variantes d'ADNmt (MAF ≥ s0,5 %) à partir des données de typage GWAS pour les 147 437 individus japonais. De plus, nous avons construit un panel de référence d'imputation des variants d'ADNmt sur la base de nos données WGS (m = 1928). Nous avons confirmé l'exactitude de l'imputation du panel de référence en utilisant l'approche de validation croisée (99,8 % de concordance lors de l'imputation a retiré au hasard 50 % des génotypes) 34 . Nous avons également calculé la concordance des allèles mineurs pour chaque bin MAF (0

50%, respectivement). Les concordances médianes étaient de 1,00 pour tous les groupes et les moyennes étaient de 0,84, 0,96, 0,93, 0,95, 1,00 et 0,98 pour chaque groupe. Nous avons ensuite imputé les variantes d'ADNmt des individus avec les données GWAS. Après une application d'un filtrage rigoureux des variantes post-imputation (MAF ≥ 0,5% et info sur le score d'imputation 0,7), nous avons obtenu des dosages de génotypes de 206 variantes d'ADNmt. En utilisant les doses imputées des individus GWAS, nous avons mené des PheWAS mitochondriales pour révéler de manière exhaustive l'association entre le génotype et 99 phénotypes (46 maladies complexes, 49 traits quantitatifs (loci de traits quantitatifs) et 4 habitudes de consommation d'alcool et de tabac Données supplémentaires 3) avec un ajustement robuste pour la stratification potentielle de la population en incluant les régions géographiques des participants et les 20 principaux CP comme covariables.

Nous avons observé une association significative du variant de l'ADNmt avec l'un des traits quantitatifs biochimiques, la créatine kinase, qui satisfaisait au seuil de signification à l'échelle de l'étude compte tenu des comparaisons multiples du nombre de variants et de phénotypes (P < 0,05/206/99 = 2,5 × 10 −6 Tableau 1 et Fig. 5). La variante basse fréquence dans la région de la boucle D, MT:16168:C:T, a montré l'association la plus significative (MAF = 0,007, P = 1,7 × 10 -12 ). Cette variante était en forte LD avec trois autres variantes, qui ont montré des associations similaires (MT:5127:A:G à MT-ND2, et MT:6332:A:G et MT:7389:T:C à MT-CO1 r 2 > 0,86, || = 1), et ces quatre variantes à basse fréquence correspondaient au sous-haplogroupe B4f.

Graphiques d'association régionale de l'ensemble de l'ADNmt illustrant les associations génotype-phénotype identifiées par le PheWAS mitochondrial dans la population japonaise (m = 147,310). Oui-axes représentent -log10(P) des associations des variantes et X-les axes représentent les positions des paires de bases dans l'ADNmt. Une barre horizontale supérieure dans chaque graphique représente le seuil de signification à l'échelle de l'étude de P = 2,5 × 10 −6 , en considérant de multiples comparaisons à la fois du nombre de variants et de phénotypes. Une barre horizontale inférieure dans chaque graphique représente le seuil de signification à l'échelle de l'étude de P = 2,4 × 10 −4 , en considérant des comparaisons multiples du nombre de variantes. Les positions des gènes mitochondriaux sont indiquées dans le panneau inférieur.

Des signaux d'association satisfaisant le seuil significatif compte tenu des comparaisons multiples des nombres de variantes ont été observés dans quatre phénotypes supplémentaires (P < 0,05/206 = 2,4 × 10 -4 ). MT:7389:A:G à MT-CO1 (et trois autres variantes de la LD forte comme mentionné ci-dessus) ont montré des associations avec les mesures de la fonction rénale de la créatinine sérique (P = 4,2 × 10 −5 ) et le taux de filtration glomérulaire estimé (P = 7,7 × 10 -5 ). Ces variantes représentées par B4f ont également montré des associations pléiotropes avec la mesure de la fonction hépatique de l'aspartate aminotransférase (MT:7389:T:C à MT-CO1, P = 2,2 × 10 -5 ). En outre, nous avons identifié des associations avec des traits liés au système immunitaire tels que la maladie de Graves, une thyroïdite auto-immune avec hyperthyroïdie (MT:3497:C:T à MT-ND1, P = 1,1 × 10 -4 ). Bien que MT:3497:C:T soit une variante à basse fréquence dans les EAS japonais et 1KG (MAF = 0,036 et 0,016, respectivement), cette variante n'a pas été observée dans les autres populations de 1KG, suggérant le risque de maladie spécifique aux populations d'Asie de l'Est. Ces résultats ont clairement démontré d'abondantes associations génotype-phénotype intégrées dans l'ADNmt.

Des études antérieures suggéraient un risque génétique de l'ADNmt sur les phénotypes cliniques humains d'apparition tardive 15,17,35. En plus de la validation des associations suggérées précédemment avec les fonctions rénales, notre étude a fourni de nouvelles associations phénotypiques dans la créatine kinase, une maladie liée au système immunitaire et un trait lié à la fonction hépatique. La créatine kinase est une enzyme fortement exprimée dans les tissus qui consomment rapidement de l'énergie tels que les muscles squelettiques et le cerveau, qui sont fréquemment affectés dans les maladies mitochondriales. La créatine kinase est suggérée comme biomarqueur potentiel pour refléter le dysfonctionnement mitochondrial 36, pour lequel le lien génétique et phénotypique avec les mitochondries devrait fournir de nouvelles connaissances biologiques. Les patients atteints de maladies mitochondriales confèrent souvent un dysfonctionnement endocrinien, y compris les hormones thyroïdiennes 37 , alors que le lien biologique avec un trait lié à la fonction hépatique est insaisissable. Notre étude fournirait de nouvelles informations sur le risque génétique des variantes de l'ADNmt sur les maladies complexes humaines.


Recherche sur les acides nucléiques

1 Centre de génomique intégrative, Université de Lausanne Suisse 2 Département de génétique et pathologie, Laboratoire Rudbeck, Université d'Uppsala Uppsala, Suède

* À qui la correspondance doit être adressée. Tél : +41 21 692 3962 Fax : +46 18 471 4931 E-mail : [email protected]

Reçu le 9 août 2005. Révisé le 12 septembre 2005. Accepté le 12 septembre 2005.

ABSTRAIT
HAUT
ABSTRAIT
INTRODUCTION
CONCLUSIONS
LES RÉFÉRENCES

Le génome mitochondrial, contenu dans le réseau mitochondrial subcellulaire, code un petit nombre de peptides essentiels à la production d'énergie cellulaire. Les gènes mitochondriaux sont hautement polymorphes et le catalogage des variations existantes présente un intérêt pour les scientifiques médicaux impliqués dans l'identification des mutations provoquant un dysfonctionnement mitochondrial, ainsi que pour les études de génétique des populations. La base de données du génome mitochondrial humain (mtDB) (https://www.genpat.uu.se/mtDB) fournit une base de données complète des génomes mitochondriaux humains complets depuis le début des années 2000. À cette époque, en raison d'une augmentation du nombre de publications complètes séquences du génome mitochondrial humain, il est devenu nécessaire de fournir une base de données en ligne du génome entier humain et des séquences complètes des régions codantes. En août 2005, cette base de données contenait 2104 séquences (1544 génomes complets et 560 régions codantes) disponibles au téléchargement ou à la recherche de polymorphismes spécifiques. Une liste complète des (actuellement 3311) polymorphismes mitochondriaux parmi ces séquences présente un intérêt particulier pour les chercheurs en médecine et les généticiens des populations évaluant des positions spécifiques. Les extensions récentes des capacités de mtDB incluent une fonction de recherche d'haplotypes et la possibilité d'identifier et de télécharger des séquences portant des variantes particulières.

INTRODUCTION
HAUT
ABSTRAIT
INTRODUCTION
CONCLUSIONS
LES RÉFÉRENCES

Le génome mitochondrial fournit des parties de la machinerie protéique nécessaires à la phosphorylation oxydative (OXPHOS), en utilisant une série de cinq enzymes à sous-unités multiples situées dans la membrane interne mitochondriale. Les constituants complexes sont codés par des gènes nucléaires et mitochondriaux. Un défaut génétique pourrait donc être dû à des mutations dans les gènes de l'un ou l'autre système. Étant donné que de nouvelles mutations sont introduites plus fréquemment dans le génome mitochondrial, une proportion plus élevée de dysfonctionnement mitochondrial est due à des mutations de l'ADN mitochondrial (ADNmt). Il a été démontré qu'un certain nombre de maladies humaines sont causées par des mutations mitochondriales, telles que la neuropathie optique héréditaire de Leber (LHON) (1) et la faiblesse musculaire neurogénétique, l'ataxie et la rétinite pigmentaire (NARP) (2). Dans l'évaluation d'un effet fonctionnel possible d'un variant mitochondrial trouvé dans un groupe de patients, des données de fréquence de population fiables pour le variant à l'étude sont nécessaires. La base de données du génome mitochondrial humain (mtDB) fournit une telle compilation d'informations disponibles sur les séquences du génome à cette fin.

L'ADNmt de la plupart des espèces de métazoaires (y compris les humains) est principalement hérité de la mère (3). Cet héritage clonal couplé à un taux de substitution qui chez les vertébrés est généralement de 5 à 10 fois celui de l'ADN nucléaire (4) a fait des mitochondries une source attrayante de données sur le polymorphisme de l'ADN pour les études de génétique des populations dans un large éventail d'espèces. L'absence de recombinaison entre les génomes mitochondriaux maternels et paternels permet de tracer une lignée génétique directe où tout polymorphisme est dû à une mutation et le taux de substitution élevé permet d'étudier la variation entre des individus étroitement apparentés (c'est-à-dire au sein des espèces). Les séquences d'ADNmt ont été l'outil principal dans un grand nombre d'études sur l'évolution humaine. La base de données du génome mitochondrial humain (mtDB) est un référentiel pour ces séquences et fournira aux scientifiques un accès à une ressource commune pour les futures études dans ce domaine.

Depuis 2000, avec la publication de la première étude complète sur les séquences complètes du génome mitochondrial humain (5), la quantité de données disponibles sur les génomes mitochondriaux a augmenté rapidement. Cependant, les informations de polymorphisme à partir de ces données prennent de plus en plus de temps à produire. La mtDB fournit une ressource unique aux chercheurs en génétique des populations médicales et humaines. Ici, les séquences publiées du génome mitochondrial sont collectées auprès de GenBank et d'autres sources (toutes les séquences ne sont pas soumises à GenBank) et mises à disposition pour téléchargement. De plus, des informations détaillées sur le polymorphisme de l'ensemble de données complet sont facilement accessibles.

Contenu de la base de données
La base de données mtDB contient trois principaux types de contenu pour les chercheurs :

  1. Téléchargement de toutes les séquences mitochondriales en tant qu'individus ou ensembles de population. Les séquences sont regroupées en 10 grandes régions géographiques en fonction de l'origine de la population du donneur (tableau 1). Dans les cas où l'origine géographique du donneur est différente de son contexte historique supposé, les séquences sont répertoriées sous la rubrique qui correspond le mieux à l'ascendance de leurs donneurs. Par exemple, les séquences afro-américaines, européennes-américaines et asiatiques-américaines ne sont pas répertoriées sous Amérique du Nord mais sous les en-têtes Afrique, Europe et Asie, respectivement. De grands ensembles de la même population sont disponibles sous forme de lots de fichiers individuels. Toutes les séquences sont référencées à leurs publications originales et aux numéros d'accession GenBank, lorsqu'ils sont disponibles. Il existe actuellement 2104 séquences mitochondriales à mtDB.
  2. Une liste de toutes les positions variables [numérotées comme dans Cambridge Reference Sequence, CRS (6)] parmi les séquences mitochondriales complètes ou presque complètes (Figure 1). Actuellement, 3311 sites polymorphes sont identifiés et caractérisés sous forme tabulée. Ce tableau comprend une ligne distincte pour chaque site variable avec le nombre de séquences contenant chaque variant nucléotidique particulier sur ce site, l'emplacement génique de ce site, le numéro et la position du codon et les détails des changements d'acides aminés. Un chercheur intéressé peut cliquer sur le numéro d'une variante particulière pour obtenir une liste de toutes les séquences qui contiennent cette variante particulière. Ces séquences peuvent ensuite être téléchargées à partir de la liste. Toutes les insertions relatives à CRS ont été supprimées.
  3. Une fonction de recherche d'haplotypes mitochondriaux. Cela va au-delà de la liste des positions variables en ce sens que les séquences portant des haplotypes spécifiques peuvent être récupérées en entrant la position et le nucléotide pour un maximum de 10 loci. Seules les séquences correspondant à tous ces critères seront renvoyées. Encore une fois, ces séquences peuvent ensuite être téléchargées à partir de la base de données.

Interface de base de données
Pour faciliter la mise à jour facile de mtDB, toutes les pages de données sont produites dynamiquement par des scripts PHP. PHP est un langage de script facile à utiliser qui s'intègre bien avec HTML. Les données sont analysées sur la machine serveur et une sortie HTML est envoyée au client. Ceci est indépendant du système d'exploitation du client, du navigateur et des options installées. La seule exception à cela est la liste des sites polymorphes, des variantes nucléotidiques et des états d'acides aminés qui est produite par un script séparé et la sortie HTML enregistrée pour éviter un long temps de traitement pour les demandes individuelles. La base de données principale est un fichier texte de séquences alignées. De nouvelles séquences peuvent être simplement collées dans cette liste et sont ensuite incluses dans les recherches.


Démêler les rôles entrelacés de la mutation, de la sélection et de la dérive dans le génome mitochondrial

Comprendre et quantifier les taux de changement dans le génome mitochondrial est une composante majeure de nombreux domaines de la recherche biologique, de la phylogénétique à la santé humaine. Un paramètre critique dans la compréhension des taux de changement est l'estimation du taux de mutation mitochondriale (ADNmt MR). Bien que les premières estimations directes des MR d'ADNmt aient été rapportées il y a près de 20 ans, le nombre d'estimations n'a pas augmenté de façon marquée depuis cette époque. Ceci est largement dû aux défis associés aux expériences d'accumulation de mutations (AM) exigeantes en temps et en main-d'œuvre. Mais même les expériences MA ne résolvent pas un problème majeur avec l'estimation des MR d'ADNmt - le défi de démêler le rôle de la mutation des autres forces évolutives agissant au sein de la cellule. Maintenant qu'il est largement admis que tout allèle mutant nouvellement généré dans les mitochondries sera initialement à très basse fréquence (1/N, où N est le nombre de molécules d'ADNmt dans la cellule), l'importance de comprendre la taille effective de la population (Ne) de l'ADNmt et la taille des goulots d'étranglement génétiques au cours de la gamétogenèse et du développement a été mise en évidence. En plus de ces facteurs régulant le rôle de la dérive génétique, les progrès dans notre compréhension de la réplication et du renouvellement mitochondriaux nous permettent d'envisager plus facilement comment la sélection naturelle au sein de la cellule pourrait favoriser ou purger les mutations dans les génomes organellaires multicopies. Ici, nous passons en revue les caractéristiques uniques du génome mitochondrial qui posent un défi pour une estimation précise de l'IRM et discutons des moyens de surmonter ces défis. Les estimations des MR de l'ADNmt restent l'un des paramètres les plus largement utilisés en biologie, donc une quantification précise et une meilleure compréhension de comment et pourquoi ils peuvent varier au sein et entre les individus, les populations et les espèces est un objectif important.

Cet article fait partie du numéro thématique « Lier le génotype mitochondrial au phénotype : une entreprise complexe ».

1. L'importance d'estimer les taux de mutation de l'ADNmt et l'état actuel des connaissances

Connaître le taux de mutation dans le génome mitochondrial (ADNmt) des eucaryotes est un paramètre clé de la recherche biologique, pour un éventail de questions fondamentales et appliquées. À une extrémité du spectre, les taux de mutation de l'ADNmt (MR) sont, par exemple, des éléments essentiels des efforts visant à étudier les modèles d'évolution moléculaire (par exemple, l'étalonnage des horloges moléculaires [1]). À l'autre extrémité du spectre, les MR de l'ADNmt sont importantes pour estimer le risque de maladie, les taux de vieillissement et la probabilité d'une adaptation rapide à un climat changeant [2–4]. Quelle que soit la question à laquelle les taux sont appliqués, l'idée générale est que connaître le taux de mutation peut donner un aperçu de la quantité de variation génétique introduite dans une population, sur laquelle les forces évolutives pourraient alors agir. Sans une estimation du MR, des questions plus larges sur les taux de diversification, l'importance des régions hautement conservées du génome et l'évolution des populations sont difficiles à poursuivre.

La plupart des estimations des MR d'ADNmt sont basées sur les méthodes dites indirectes ou phylogénétiques, où le nombre de différences de nucléotides dans les régions (putativement) neutres du génome est compté dans deux lignées avec un temps de divergence connu. Le nombre de changements observés est ensuite divisé par le nombre de loci possibles et le temps (soit le temps absolu, soit le nombre de générations) afin de calculer un taux. Il ne s'agit pas, en fait, d'une estimation du MR, mais plutôt d'une estimation du taux de substitution—mais la distinction est rarement faite dans la littérature scientifique générale. Alors que le taux de substitution peut être une bonne approximation du MR si les substitutions sont neutres, peut-être sans surprise, le taux de substitution peut être très différent du MR en fonction de la sélection d'impact sur les mutations générées par une fonction polymérase défectueuse ou des dommages à l'ADN non réparés. Dans les cas où les taux de substitution et les MR ont tous deux été estimés pour la même espèce, les taux de substitution ont tendance à être bien inférieurs aux MR, probablement parce que le nombre de mutations perdues à cause de la sélection naturelle n'est pas pris en compte par les méthodes indirectes [5].

Contrairement aux méthodes indirectes, les méthodes directes d'estimation de l'IRM dépendent soit d'études d'accumulation de mutations (MA) soit de séquençage en trio [6,7]. La différence entre les estimations des méthodes indirectes et directes est l'accent mis sur l'élimination de la sélection. Les deux méthodes supposent que la sélection a été minimisée d'une manière ou d'une autre. Minimiser la sélection avec un goulot d'étranglement génétique d'un individu à chaque génération signifie que, même si les mutations qui se produisent sont délétères, elles peuvent être transmises à la génération suivante et peuvent faire partie d'un décompte utilisé pour estimer le MR. Dans les taxons où les études MA et les méthodes indirectes ont toutes deux été utilisées, par exemple, Caenorhabditis elegans, les différences dans les estimations de taux sont au moins d'un ordre de grandeur plus élevées lorsqu'elles sont observées directement [8].

Depuis que les premières estimations directes des MR mitochondriales ont été rapportées, seules quelques autres espèces ont été étudiées (voir [9] pour une revue récente). Cette rareté des estimations MR d'ADNmt est due, en grande partie, aux contraintes pratiques et éthiques auxquelles les taxons peuvent être soumis à l'AMM et au séquençage du génome entier, mais il y aura probablement une augmentation des données disponibles à mesure que le prix du séquençage se poursuit. laisser tomber. Il semble donc que nous ayons maintenant une occasion en or d'effectuer ce type d'études et d'acquérir une compréhension plus approfondie de ce paramètre critique. Cependant, une énigme reste non résolue. Malheureusement, même les estimations dites directes des MR d'ADNmt ne parviennent pas à minimiser la sélection au sein de la cellule (revue dans [10]). En effet, l'ADNmt existe en plusieurs copies par mitochondrie et il existe plusieurs mitochondries par cellule (figure 1une).En conséquence, les estimations de l'ADNmt MR ne sont pas démêlées de l'impact de la dérive génétique et de la sélection naturelle agissant sur les mutations qui se produisent, apparaissant initialement dans une seule copie de l'ADNmt (fréquence de 1/N, où N est le nombre de génomes d'ADNmt qui seront transmis à la génération suivante, dans le cas des MR germinales et à la cellule suivante dans le cas des MR somatiques). Ainsi, si deux taxons semblent avoir des MR différents (figure 1b), cela pourrait simplement être le résultat d'un goulot d'étranglement génétique de taille différente entre les espèces ou de différents régimes de sélection intracellulaire (figure 1c).

Figure 1. (une) Photo d'un fibroblaste humain. Le noyau (bleu) est entouré par la matrice mitochondriale (rouge) qui contient les nombreux nucléoïdes d'ADNmt (colorés en vert, mais apparaissent en jaune à cause de la superposition). L'hétéroplasmie (plus d'une version de l'ADNmt dans une cellule particulière) peut être le résultat d'une mutation (réplication défectueuse de l'ADN ou dommages à l'ADN non réparés) ou d'un héritage biparental de l'ADNmt. Crédit photo : Amanda Bess/Joel Meyer. (b) Les estimations du taux de mutation, qui peuvent différer selon les génotypes, les populations et les espèces, sont basées sur le séquençage du génome et le comptage de la fréquence des nouveaux allèles d'ADNmt mutants dans les lignées d'accumulation de mutations ou les trios parent-progéniture. (c) Bien que les différences apparentes dans les MR d'ADNmt illustrées dans (b) pourrait s'expliquer par des différences dans les MR (cercle supérieur bleu), les changements dans les fréquences des allèles de l'ADNmt au fil du temps peuvent également être le résultat de la dérive génétique et de la sélection intracellulaire - deux forces évolutives inversement corrélées (cercle inférieur rouge et vert) - qui peuvent également façonner fréquences alléliques dans les lignées hétéroplasmiques et obscurcir l'estimation du MR.

2. Règles et exceptions : caractéristiques uniques de l'ADNmt et son mode d'héritage

Malgré les représentations dessinées dans les manuels de mitochondries sous forme d'ovales isolés, la structure dynamique de cet organite en tant que réseau et sa capacité à subir une fission et une fusion sont beaucoup mieux comprises aujourd'hui qu'il y a dix ans [11]. Des études non seulement chez la levure, mais aussi bien chez les plantes [11] que chez les animaux [12], ont permis d'élargir notre compréhension de la morphologie non seulement de la mitochondrie, mais aussi de l'ADNmt qu'elle contient [13]. On sait maintenant qu'une ou plusieurs copies des génomes de l'ADNmt sont complexées avec des protéines et dispersées dans toute la matrice (dans des structures appelées nucléoïdes) qui servent de sites de réplication et de transcription de l'ADN pour l'organite. Bien que le nombre de génomes d'ADNmt par nucléoïde et nombre de nucléoïdes ait été quantifié dans quelques systèmes modèles et lignées cellulaires (examinés dans [14]), le nombre d'études est extrêmement faible et le niveau de variation entre les cellules, les types de tissus, les individus, les populations et les espèces n'ont pas encore été caractérisées. Souvent, les mêmes quelques estimations sont utilisées à plusieurs reprises dans la littérature (sans citation) pour les calculs au dos de l'enveloppe, mais comme nous le verrons ci-dessous, le nombre réel d'ADNmt dans la cellule et leur tendance à former des grappes sont d'une importance critique. importance pour comprendre comment la force relative de la sélection et de la dérive agissent sur les nouvelles mutations lorsqu'elles se produisent.

La réplication de l'ADNmt n'est pas liée à la réplication de l'ADNn et n'est pas limitée à une copie par génome. De plus, il est maintenant connu que les cellules peuvent cibler certains chromosomes d'ADNmt pour la destruction s'ils ne fonctionnent pas correctement (« mitophagie » [14]). Ainsi, le nombre de génomes d'ADNmt peut non seulement varier d'une cellule à l'autre, mais au sein d'une cellule donnée peut varier dans le temps. Alors que nous démystifions les mythes courants, il convient de mentionner que les génomes de l'ADNmt peuvent et se recombinent (malgré le dogme contraire [15-17]) et que leur capacité de réparation de l'ADN n'est pas minimale, comme on le pensait auparavant [18,19]. Le renversement de ces piliers erronés de la sagesse conventionnelle parmi les biologistes est important en général, mais surtout pour la question de l'estimation de l'IRM dans l'ADNmt étant donné que la recombinaison et la réparation de l'ADN représentent des mécanismes par lesquels les mutations peuvent être contrées. Un autre mythe pertinent à propos de l'ADNmt est un héritage uniparental strict. Bien que l'héritage uniparental soit, en effet, typique dans certains systèmes, des épisodes de fuite paternelle (par exemple [20,21]) et la découverte d'un héritage doublement uniparental (examiné dans [22]) sont maintenant rapportés. Si l'on considère la possibilité d'un héritage biparental (même occasionnel) comme similaire à l'impact de la migration sur le flux de gènes entre les populations, alors les cas de fuite paternelle régulière peuvent avoir un impact non négligeable sur la variation génétique de la « population » d'ADNmt dans la cellule. Alors que toute hétéroplasmie (la présence de plus d'un allèle (ou version) du génome mitochondrial dans une cellule ou un individu donné) est initialement due à une mutation, les fluctuations du niveau d'hétéroplasmie peuvent être expliquées non seulement par la mutation, mais aussi par la migration, la sélection et la dérive. agissant également au sein de la cellule.

3. Pourquoi estimer les « taux de mutation » de l'ADNmt est un tel défi

L'existence de génomes d'ADNmt en plusieurs copies au sein de chaque cellule (hétéroplasmie) signifie que l'estimation des « MR » dans l'ADNmt nécessite de calculer les taux d'occurrence de très faible fréquence (1/N) nouveaux allèles mutants. Les changements ultérieurs de la fréquence de ces allèles mutants dans la cellule au fil du temps, qui sont considérés comme faisant partie de la RM, dépendent en fait de autre forces évolutives, pas mutation. Ainsi, mesurer un « MR » sans pour autant les effets influents de la migration (fuite, discuté ci-dessus), la sélection et la dérive sont un défi, et la partition de la partie du « MR » qui est observée à ces différentes forces a rarement été discutée, pas moins abordée. La taille effective de la population (Ne) de l'ADNmt détermine l'efficacité de la sélection au sein de la cellule (figure 2une), et la taille du goulot d'étranglement génétique au cours de la gamétogenèse et du développement régule le pouvoir de dérive (figure 2b). À la suite du goulot d'étranglement génétique qui se produit pendant la gamétogenèse, d'autres goulots d'étranglement génétiques peuvent se produire dans les tissus somatiques, influençant également le nombre et la composition de la population d'ADNmt dans les cellules plus tard au cours du développement (figure 2c).

Figure 2. Bande dessinée simplifiée de cellules (violet) illustrant les niveaux changeants d'hétéroplasmie d'ADNmt (illustrée par la présence d'anneaux de couleurs différentes) à plusieurs stades. (une) L'hétéroplasmie dans une cellule germinale d'un organisme parent (représentée par des anneaux bleus et jaunes) peut être due à une mutation ou à un héritage biparental de l'ADNmt de la génération précédente. (b) Au cours de la gamétogenèse (illustrée par la flèche pleine), les fréquences alléliques peuvent changer en raison de la mutation (anneau orange), de la sélection intracellulaire parmi les variantes ou du hasard (dérive génétique) en raison du goulot d'étranglement génétique qui se produit lors de la formation des gamètes. (c) Au cours du développement (illustré par la flèche en pointillés), les fréquences alléliques dans les cellules germinales (violet) ou somatiques (bleu) peuvent également changer en raison d'une mutation (anneau vert), d'une sélection intracellulaire ou du hasard.

L'avènement des plates-formes de séquençage à lecture courte/haute couverture a permis de séquencer l'ADNmt à une profondeur suffisante pour détecter même des variants à basse fréquence, mais étant donné le nombre d'ADNmt par nucléoïde, le nombre de nucléoïdes par cellule et le nombre de cellules par individu, notre capacité à détecter réellement de nouvelles mutations est encore extrêmement limitée. Cela rend difficile la distinction entre les variantes à basse fréquence qui pourraient déjà exister dans la «population» et les nouveaux allèles mutants. Les progrès technologiques qui permettent un séquençage profond encore plus abordable peuvent résoudre ce problème, mais étant donné qu'il n'est pas possible d'étrangler complètement le nombre de génomes d'ADNmt dans la cellule (pour m = 1), nous ne pouvons pas éliminer la sélection intracellulaire et maximiser la dérive. Ainsi, les estimations de l'ADNmt MR ne refléteront jamais les «vrais» taux de mutation en raison de défauts de polymérase non réparés et de dommages à l'ADN, mais sont reléguées à la nature interactive combinée de plusieurs forces évolutives.

Au lieu de pouvoir mesurer le taux de mutation dans l'ADNmt, considérons la possibilité de mesurer les autres facteurs contribuant à la variation de cette métrique composite (la fuite est discutée ci-dessus, donc l'accent sera mis sur la sélection et la dérive, ici). Compte tenu du corpus croissant de connaissances sur la structure et la fonction de la matrice mitochondriale, il peut être possible d'estimer empiriquement les facteurs qui contribuent à la variation de la force et de l'efficacité de la sélection, y compris le nombre de copies d'ADNmt, les taux de renouvellement dus à l'autophagie ou les taux de recombinaison. 23,24]. En effet, le regroupement d'allèles mutants dans la mitochondrie a été invoqué comme mécanisme pour renforcer le pouvoir de sélection au sein de la cellule (c'est-à-dire que les nucléoïdes contenant des mutations pourraient être facilement ciblés pour la destruction [25]). Alternativement, des lignées cellulaires avec un nombre de copies d'ADNmt différent pourraient être utilisées pour établir des lignées MA ou il peut être possible d'effectuer des expériences de sélection pour générer des lignées qui varient en nombre de copies d'ADNmt (et peu d'autre). Des comparaisons des différences de MR dans les lignées avec différents nombres de copies d'ADNmt pourraient faire la lumière sur les pressions sélectives variables auxquelles sont confrontés les nouveaux allèles mutants dans les cellules. Ce ne sera toujours pas facile pour quantifier le rôle de la sélection sur les MR d'ADNmt, mais il pourrait être possible d'étudier empiriquement.

Parmi les forces évolutives se combinant pour déterminer le taux de mutation perçu, l'impact de la dérive est probablement le plus facilement quantifiable, cependant, il existe deux quantités d'intérêt à mesurer qui ne sont souvent pas distinguées dans la littérature. Le premier est la taille effective de la population (Ne) de l'ADNmt, qui dépend non seulement du nombre de copies du génome dans la cellule, mais aussi des niveaux de diversité allélique (lorsqu'elle est présente) et des effets de la sélection sur des loci étroitement liés. La deuxième caractéristique de la cellule qui régule le pouvoir de dérive génétique est les goulots d'étranglement génétiques qui se produisent lors de la division cellulaire (soit dans la lignée germinale (figure 2b) ou le soma (figure 2c)). Tandis que le Ne de l'ADNmt détermine l'efficacité de la sélection pendant la majeure partie du cycle cellulaire, la taille du goulot d'étranglement génétique détermine la probabilité de fixation ou de perte de nouvelles mutations entre les générations ou d'une cellule à l'autre. Les Ne de l'ADNmt dans une cellule mature et la taille du goulot d'étranglement génétique au cours de la division cellulaire sont souvent confondus et sont rarement mesurés directement, bien qu'ils puissent utiliser des méthodes de séquençage en profondeur (avec des protocoles de normalisation pour déterminer le nombre de copies) pour le premier et les techniques d'imagerie cellulaire pour le dernier.

Même si un goulot d'étranglement génétique complet au niveau de l'ADNmt (m = 1) n'est pas possible, des expériences comparant les MR parmi les lignées connaissant des goulots d'étranglement de différentes tailles au niveau de l'organisme (Ne = 1, 10 et 100) montrent une tendance à une fréquence plus élevée de mutations de l'ADNmt avec une taille de population effective réduite [26]. Des études sur les éléments génétiques égoïstes cytoplasmiques (SGE), en particulier, ont montré une augmentation de la fréquence des SGE lorsque la sélection au niveau de l'organisme est réduite via de petites tailles de population, mais la sélection au sein de la cellule parmi les molécules d'ADNmt demeure (c'est-à-dire [27]). Dans ces études, les auteurs sont en mesure de conclure quelque chose sur l'impact sélectif relatif de diverses mutations, compte tenu de leur fréquence d'occurrence, un autre paramètre essentiel pour comprendre l'impact de la dérive et de la sélection sur les MR d'ADNmt. La distribution des effets de fitness des nouvelles mutations a été mesurée empiriquement dans l'ADNmt [28] mais est difficile à analyser en raison des liens étroits entre les mutations et de la présence de régions codantes et non codantes dans les ADNmt des plantes [29]. Le problème du démêlage de la mutation, de la sélection et de la dérive pour estimer les MR d'ADNmt peut ainsi être relégué pour le moment au monde de la modélisation et des simulations (e.g. [30]), tandis que les empiristes se contentent d'estimations composites qui n'isolent pas le MR, en soi, mais fournissent une estimation plus précise que les taux de substitution classiques calculés sur la base des seules comparaisons de séquences.

4. Est-il possible d'estimer plus précisément les taux de mutation de l'ADNmt ?

Bien que les expériences MA puissent nous fournir des estimations de MR pour l'ADNn chez les eucaryotes diploïdes sans se soucier des niveaux variables d'influence de la sélection intracellulaire et de la dérive, elles ne peuvent pas surmonter les défis décrits ci-dessus pour les MR d'ADNmt. Comment surmonter ces obstacles ? Haag-Liautard et al. [31] ont décrit une méthode utilisant la distribution de fréquence des allèles (AFD) de nouveaux allèles mutants pour estimer Ne cependant la méthode est limitée au départ par la sensibilité des techniques utilisées pour détecter de telles mutations (même avec un séquençage profond, il est difficile de détecter les allèles mutants lorsqu'ils surviennent pour la première fois et sont à 1/N la fréquence). L'idée de base est d'utiliser l'AFD pour quantifier le degré d'hétéroplasmie et, à son tour, d'estimer la Ne de l'ADNmt. Ces auteurs n'utilisent que les données des lignées où de nouvelles mutations ont été détectées, mais en principe, tout la fluctuation des fréquences des allèles hétéroplasmiques (même dans les cas où aucune nouvelle mutation ne se produit) pourrait être utilisée pour aider à estimer Ne. Le problème, cependant, est que les changements de l'AFD au fil du temps pourraient être dus à des forces autres que la mutation. Par exemple, considérons le cas d'un organisme dans lequel une nouvelle mutation s'est produite à une position particulière qui était, initialement, observée comme étant G dans toutes les copies de l'ADNmt, mais maintenant une copie a un T. Si, après trois générations, la fréquence de l'allèle mutant porteur de T est plus élevée, il est impossible de savoir si cela est dû à une fuite paternelle, une dérive génétique, une sélection intracellulaire ou parce qu'il y a eu des événements de mutation G → T supplémentaires à ce locus. Les événements de conversion génique ont également le potentiel de contrer les effets de la mutation, et cela est particulièrement vrai dans la mitochondrie. Les avantages des génomes à copies multiples dans (i) la protection contre l'impact sélectif des mutations, (ii) la réduction des chances de fixation de nouvelles mutations et (iii) la fourniture de davantage de modèles pour la recombinaison ou la conversion génique doivent encore être pleinement explorés, théoriquement ou empiriquement. Ces problèmes, combinés au problème de sensibilité mentionné ci-dessus, rendent les estimations actuelles de Ne basé uniquement sur des changements dans l'AFD sur lesquels il est difficile de s'appuyer.

Les simulations seraient une première étape utile pour modéliser l'importance relative de ces facteurs influençant les MR d'ADNmt (par exemple [30,32]). On pourrait tester une gamme de nombres de copies d'ADNmt, des coefficients sélectifs pour les nouvelles mutations d'ADNmt, des tailles de goulot d'étranglement et même incorporer des paramètres pratiques, tels que la profondeur de séquençage pour détecter de nouvelles variantes et des taux d'erreur de séquençage. Une approche de génomique comparative pourrait également être utile pour tester les prédictions sur les modèles de variation MR de l'ADNmt à travers les lignées et les espèces (par exemple [7,33-35]). Les différences de résonance magnétique largement connues entre l'ADNmt animal et végétal [36], par exemple, sont basées sur des estimations de seulement quelques études de plantes qui ont probablement peint une image trompeuse de la dynamique de mutation de l'ADNmt qui a découragé les études de suivi (mais voir [37] ). Des comparaisons intraspécifiques supplémentaires pourraient éclairer des questions persistantes, telles que les taux d'ADNmt varient-ils entre les lignées sexuées et asexuées de la même espèce ou entre différents niveaux de ploïdie ? En théorie, le mode de reproduction devrait avoir peu d'impact sur la dynamique de mutation de l'ADN organellaire, mais cela doit encore être testé empiriquement avec des techniques de séquençage profond (mais voir [38]). Étant donné le nombre croissant d'exceptions aux « règles » précédemment acceptées de l'hérédité de l'ADNmt, il peut être possible d'identifier des cas où les pressions de mutation favorisent ou défavorisent l'évolution de certaines caractéristiques du génome de l'ADNmt, telles que sa taille, le contenu du génome et l'évolution de la taille du goulot d'étranglement génétique qui se produit entre les générations (par exemple [39]).

Un autre domaine d'enquête utile serait d'examiner les différences dans les taux d'ADNmt entre les cellules somatiques échantillonnées à partir de types de tissus avec des différences connues dans le nombre moyen d'ADNmt ou la taille du goulot d'étranglement (par exemple [30, 40, 41]). Les progrès des techniques de séquençage unicellulaire et de biologie cellulaire pour isoler les composants organellaires pourraient en faire une stratégie abordable pour le séquençage en profondeur des génomes de l'ADNmt (tout en excluant les génomes nucléaires) pour les cellules répliquées avec diverses teneurs en ADNmt et/ou différentes tailles de goulot d'étranglement pendant la division cellulaire [42] . Étant donné que la différenciation des tissus germinaux et somatiques est distinctive parmi les lignées eucaryotes (le plus évident entre les plantes et les animaux, mais il existe également des différences remarquables au sein de ces grands groupes), des études comparatives de la mutation germinale et somatique de l'ADNmt pourraient être très révélatrices. L'étude des MR dans d'autres types de génomes organellaires (par exemple, le génome du chloroplaste) serait également éclairante, étant donné que les quelques études existantes suggèrent qu'il existe une variation sauvage dans les profils de mutation, par exemple, des génomes mitochondriaux et ceux du chloroplaste sur la base des taux de substitution [ 43,44]. Des estimations empiriques supplémentaires non seulement des « MR » de l'ADNmt, mais aussi du nombre de copies d'ADNmt et de la variation de la taille des goulots d'étranglement génétiques au cours de la division cellulaire, seront essentielles pour démêler les effets interactifs de la mutation, de la sélection et de la dérive sur les taux de changement dans le génome mitochondrial [45].

5. Conclusion

Le taux de mutation dans l'ADNmt est un paramètre fondamental en biologie. Bien qu'en principe, les MR d'ADNmt ne dépendent que du taux d'erreurs de réplication et de dommages à l'ADN non réparés, le fait qu'il existe plusieurs copies du génome d'ADNmt par mitochondrie et plusieurs mitochondries par cellule signifie que le sort d'une mutation donnée dans la cellule dépend de son coefficient sélectif et de l'efficacité de la sélection à agir sur cette mutation, par rapport à la probabilité qu'elle soit perdue ou fixée par dérive génétique. Ainsi, afin de mesurer avec précision les taux d'ADNmt, il faut adopter une vision synthétique de ce paramètre et relever le défi d'estimer ses composantes. En outre, il est essentiel que nous obtenions non seulement des estimations pour un seul génotype à partir de quelques espèces modèles, mais que nous élargissions nos tests empiriques pour inclure des organismes non modèles et plusieurs génotypes par taxon, afin de comprendre comment les MR d'ADNmt évoluent. Enfin, l'étude des IRM germinales et somatiques de l'ADNmt représente une frontière actuelle dans le domaine. Alors que l'avènement du séquençage à haut débit a fait des estimations directes des MR d'ADNn à l'aide de MA un objectif réalisable, les technologies de séquençage unicellulaire (et même de séquençage de mitochondrie unique [42]) devraient étendre ce pouvoir à l'estimation de l'IRM d'ADNmt.Connaître le taux de changement dans le génome de l'ADNmt n'est pas seulement un élément essentiel pour comprendre la fonction et le dysfonctionnement de la mitochondrie [46], cela a un large éventail d'autres conséquences. Dans un sens appliqué, les taux de changement de l'ADNmt peuvent être corrélés avec le risque de cancer et la probabilité d'autres maladies mitochondriales [2,47,48]. En termes de biologie fondamentale, la connaissance de tels taux peut éclairer notre compréhension de l'évolution à plusieurs niveaux : la dynamique de coévolution entre les protéines codées dans différents compartiments de la cellule [49], l'évolution des types cellulaires (y compris les différences germinales et somatiques [39]) , et l'évolution des différences entre les espèces dans l'histoire de la vie [50], le mode de reproduction [51] ou les modèles d'hérédité [52,53].


LES GRANDEURS DES TAUX DE MUTATION

Terminologie: Le tableau 1 décrit les abréviations et les paramètres que nous utiliserons pour décrire le processus de mutation. Notez que la taille effective du génome ge est similaire à la taille totale du génome g dans les microbes, alors que ge < g chez les eucaryotes supérieurs. Les estimations les plus fiables des paramètres mutationnels proviennent de microbes dont les gènes sont codés par l'ADN (« microbes à base d'ADN »), comme nous le disions, des incertitudes considérables sont attachées aux estimations des virus à ARN et des eucaryotes supérieurs.

Taux de mutation dans les virus à ARN lytiques : Peu de chercheurs sur la génétique des virus à ARN se sont concentrés spécifiquement sur la mutation les taux, bien que mutant fréquences sont souvent notés comme étant élevés par rapport à ceux observés chez les microbes avec des chromosomes à ADN. Dans une étude récente (Drake 1993a), la plupart des taux de mutation qui pouvaient être calculés étaient nécessairement basés sur des résultats obtenus avec des cibles mutationnelles très petites et donc potentiellement non représentatives, et contenaient d'autres incertitudes expérimentales et de calcul. Ces incertitudes comprenaient le manque d'informations sur la proportion de réplication du virus lytique qui est linéaire (copie répétée de la même matrice) et ce qui est binaire (comme dans la plupart des réplications d'ADN), ainsi que le manque d'informations sur les contributions relatives de la transcription et de la transcription inverse. aux taux de mutation rétrovirale. (J.W.D. souhaite corriger une erreur typographique dans son rapport de 1993a : les signes moins n'ont pas leur place dans les équations 2 et 3.)

Paramètres utilisés pour décrire le processus de mutation

Beaucoup (mais pas tous) des calculs de taux de mutation pour ces virus ont été effectués en transformant une fréquence mutante F en un taux de mutation , où F a été mesurée dans de grandes populations qui avaient accumulé des mutants en l'absence présumée de sélection. Pour la réplication linéaire,ligne = F quelle que soit l'ampleur de la croissance. Pour la réplication binaire,poubelle = (FF0)/ln(N/N0) où N0 est l'initiale et N est la taille finale de la population. [Cela vaut pour N0 > 1/μpoubelle pour N0 < 1/μpoubelle,poubelle = F/ln(N??poubelle).] Comme les nombres relatifs de réplications binaires et linéaires sont inconnus, D rake (1993a) a simplement fait la moyenne de μligne etpoubelle obtenirm. ??ligne était au plus d'un ordre de grandeur supérieur à μpoubelle pour quem était un peu moins que μligne/2 et environ six fois plus grand que μpoubelle (plage de 2,2 à 9,6 fois). En plus de ces incertitudes, les fidélités relatives de la réplication de l'ARN binaire et linéaire restent à déterminer, et des différences de quelques fois ne seraient pas surprenantes. De plus, les incertitudes de calcul étaient à peu près similaires en amplitude aux incertitudes expérimentales. Les résultats de D rake (1993a) sont résumés dans le tableau 2. Pour les virus à ARN lytiques,g ≈ 1 mais avec une dispersion considérable. Valeurs deg > 2 sont probablement surestimés car de telles valeurs tendraient à éteindre l'espèce.

Parce qu'un virus lytique se réplique à plusieurs reprises dans chaque cycle infectieux, une cellule infectée produit un virus porteur de plusieurs nouvelles mutations par particule. La plupart d'entre eux seront délétères. Le taux de mutation élevé de ces virus peut fortement contribuer à leur faible infectivité spécifique caractéristique (particules infectieuses par particule physique). (Un autre facteur contribuant à la faible activité spécifique est la labilité inhérente du squelette de l'ARN.) De telles populations virales sont extrêmement vulnérables à des taux de mutation accrus, voire à une multiplication par trois conduisant à l'extinction (H ollande et al. 1990).

Taux de mutation par génome par réplication dans les virus à ARN lytiques

En plus des entrées dans le tableau 2, deux rapports sont apparus dans lesquels une cible mutationnelle d'origine étrangère a été insérée dans un virus à ARN lytique qui a ensuite été soumis à de nombreux passages et finalement dépisté pour les mutations accumulées. Dans le premier cas (Kearney et al. 1993), la cible résidait dans le virus de la mosaïque du tabac qui a été transmis en série dix fois à travers les plantes, chaque passage élargissant un inoculum de

10 3 unités infectieuses (ui) à

10 15 ui. Après le passage final, la séquence cible a été rétro-transcrite et amplifiée par la réaction en chaîne par polymérase (PCR) à partir d'un certain nombre d'isolats, puis séquencée. Les fréquences de mutants étaient de 26/16158 b séquencés (16,1 × 10 -4 ) après le passage, et 8/8208 = 9,7 × 10 -4 avant le passage, ce dernier étant raisonnablement attribuable aux erreurs de transcription inverse (RT) et de PCR. Bien que cette différence ne soit pas significative, si elle est prise à sa valeur nominale, elle donne un résultat net F =ligne ≈ 6,3 × 10 −4 par b. Si l'on considère que la population est passée de 10 3 à 10 15×10 ui,poubelle 2 × 10 −6 . Alorsm ≈ 3 × 10 −4 par b et, pour g = 6395 b (G oelet et al. 1982),g ≈ 2. Cette valeur est typique des virus à ARN lytiques. Cependant, parce que μlignepoubelle > 300, ce calcul n'est pas robuste μg pourrait approcher 0,01 si les réplications binaires prédominaient. Un autre facteur de confusion est la possibilité de goulots d'étranglement. Une taille cible d'environ 200 b, un inoculum d'environ 1000 et un moment F de 10 -4 assurerait la transmission d'environ 20 mutants préexistants au passage. Cependant, si une petite fraction de l'inoculum contribuait fortement au rendement de la plante entière, des goulots d'étranglement pourraient encore se produire et le taux de mutation serait sous-estimé.

Dans le second cas (S chnell et al. 1996), la cible résidait dans le virus de la stomatite vésiculeuse (VSV) qui a été passé en série à travers des cellules cultivées 15 fois. Chaque inoculum d'environ 105 unités formatrices de plages (pfu) (appliqué à environ 107 cellules) a été étendu à environ 1011 pfu. La cible de six isolats a ensuite été rétro-transcrite, amplifiée par PCR et séquencée. La fréquence des mutants était de 2/2400 b sans estimation de la contribution des erreurs RT et PCR. Ici F =ligne ≈ 8,3 × 10 −4 et, avec N0 = 10 6 et N = 10 15×6 ,poubelle 4,3 × 10 −6 alors μm ≈ 4,2 × 10 −4 par b et μg 4,7, un résultat impossible à distinguer des valeurs de 2,8 et 4,3 répertoriées dans D rake (1993a). Cependant, parce que μlignepoubelle ≈ 200, le calcul n'est pas encore robuste et μg pourrait approcher 0,05 si les réplications binaires prédominaient. Ici, une taille cible de 400 b, un inoculum d'environ 10 5 et un F d'aussi peu que 10 -4 assurerait la transmission d'environ 4000 mutants préexistants au passage, évitant ainsi les goulots d'étranglement. Une possibilité plus obscure est que la séquence cible, un gène bactérien codant pour la chloramphénicol acétyltransférase, a fourni un avantage sélectif inattendu lorsqu'il est fonctionnel, cela pourrait être facilement mesuré. En fin de compte, cependant, une compréhension plus approfondie de ces nombres nécessitera une analyse beaucoup plus approfondie du nombre et de l'ordre relatifs des événements de réplication linéaires et binaires, y compris la composante supra-binaire résultant de plusieurs cycles cellulaires par passage.

Taux de mutation dans les rétro-éléments : Contrairement aux virus à ARN lytique, un rétrovirus ou un rétrotransposon chromosome se réplique précisément trois fois par cycle infectieux. La transcription par l'ARN polymérase hôte produit un génome à ARN. La transcriptase inverse catalyse ensuite deux réplications pour générer un chromosome à base d'ADN qui s'intègre dans le chromosome hôte (d'une cellule différente dans le cas d'un rétrovirus emballé, ou de la même cellule dans le cas d'un rétrotransposon) et assume ensuite une taux de mutation. La fréquence de mutation résultante est la somme des taux de mutation des trois étapes, dont les amplitudes n'ont pas encore été factorisées. Le tableau 3 énumère les taux décrits dans Drake (1993a) qui étaient basés sur de grandes cibles mutationnelles, ainsi que plusieurs mesures rapportées depuis 1993, dont une pour un rétrotransposon à répétition à long terme. Ces taux de rétroéléments sont approximativement inférieurs d'un ordre de grandeur aux taux de virus à ARN répertoriés dans le tableau 2. En raison des grandes tailles de cibles mutationnelles utilisées, les différences de taux entre ces virus peuvent être réelles. (Le taux n'est pas corrélé avec l'origine rétrovirale ou artificielle de la séquence cible mutationnelle.) Par rapport aux virus lytiques, les taux de mutation rétrovirale peuvent ne pas réduire sensiblement l'infectiosité spécifique. Le virus de la nécrose de la rate est légèrement plus résistant à des taux de mutation accrus que les virus à ARN lytique, n'étant effacé qu'après une augmentation d'environ 13 fois (P athak et T emin 1992).

Taux de mutation dans les microbes à base d'ADN : Les taux de mutation spontanée dans cette classe d'organismes ont été étudiés pour la dernière fois dans Drake (1991) et sont résumés dans le tableau 4 en utilisant quelques valeurs mises à jour pour la taille du génome. Contrairement aux limites expérimentales et théoriques de l'exactitude des valeurs ARN-virus, les valeurs ADN-microbe ont été déterminées dans des systèmes bien étudiés à l'aide de calculs robustes, et les valeurs individuelles sont susceptibles d'être précises au double. Le tableau 4 montre queb et g varient inversement et régulièrement sur près de quatre ordres de grandeur tandis que μg reste constant. Compte tenu de la rareté des valeurs générales et constantes dans les processus évolutifs, cette constante particulière est étonnamment robuste.

La chaleur favorise une variété de réactions de perte de base et de modification de base et peut être fortement mutagène. L'archéon Sulfobolus acidocaldarius la croissance à 75° produit bûcher et pyrF mutations à 2,8 ± 0,7 et 1,5 ± 0,6 pour 10 7 divisions cellulaires, respectivement (J acobs et Grogan 1997). Bien que la taille du génome, la taille de la cible mutationnelle et l'efficacité de la détection des mutations ne soient pas encore mesurées dans ce système, bûcher les gènes contiennent 600-720 b et pyrF les gènes contiennent 700–1200 b dans plusieurs bactéries et eucaryotes, et g = (2–3) × 10 6 pour les bactéries apparentées (D. W. G rogan , communication personnelle). En utilisant un type C valeur de 3,12 pour corriger l'efficacité de la détection des mutations (Drake 1991), μg = 0,0005–0,005 en utilisant les valeurs moyennes pour les paramètres ci-dessus,g 0,002. Ainsi, bien que des mesures soigneuses restent à effectuer dans ce système, l'amplitude de μg semble susceptible d'être conservé même dans un environnement potentiellement hypermutagène.

Taux de mutation par génome par réplication en rétroéléments

Comme indiqué précédemment, les populations de virus à ARN et de rétrovirus sont susceptibles de s'éteindre lorsque leurs taux de mutation sont multipliés par quelques fois par rapport à 1. Pour être également menacés, les microbes du tableau 4 devraient subir des augmentations de taux de mutation de l'ordre de 10 3 fois. Cependant, ils sont dans une certaine mesure protégés contre l'extinction immédiate de deux manières. Premièrement, une fraction substantielle de leurs gènes ne sont que rarement nécessaires à la croissance, en particulier dans des conditions de laboratoire. Deuxièmement, la diploïdie, lorsqu'elle survient, protégera pendant un certain temps contre les effets des mutations récessives. Comme décrit dans D rake (1991), Escherichia coli peut survivreg ≈ 10 pendant au moins 10 générations (bien que de telles cultures contiennent de nombreuses cellules mortes), et Saccharomyces cerevisiae peut survivreg ≈ 60 pendant au moins neuf générations alors que diploïde, bien que les ségrégants haploïdes soient inviables, les haploïdes peuvent survivre μg ≈ 2, bien que la plupart des cellules se développent mal.

Taux de mutation par génome par réplication dans les microbes avec des chromosomes d'ADN

Les E. coli Le plasmide F se réplique normalement au même rythme que le chromosome hôte, utilise la plupart des mêmes enzymes et a le mêmeb comme hôte (W illetts et S kurray 1987 Drake 1991). K unz et G lickman (1983) et C hristensen et al. (1985) ont rapporté que le taux de mutation F augmente pendant la conjugaison, et T addei et al. (1995) ont suggéré que cela pourrait être un exemple de la μg règle implicite dans le tableau 4. À cet égard, F ressemblerait au phage , qui affiche le taux de mutation de l'hôte comme un prophage mais le taux convenablement plus élevé lors de la réplication par voie lytique. Malheureusement, alors que les données de K unz et G lickman (1983) suggèrent que le spectre change de façon marquée au cours de la conjugaison, aucune étude F ne fournit le spectre mutationnel nécessaire pour calculerb. En utilisant soit les calculs des auteurs, soit des calculs basés sur les méthodes décrites dans D rake (1991) et en notant que les substitutions de paires de bases semblent se produire préférentiellement au cours de la conjugaison (K unz et G lickman 1983), le taux de mutation F conjugationnelle semble être approximativement cinq fois à peut-être 20 fois plus élevé que le taux standard. Les E. coli le génome est environ 47 fois plus grand que le génome F (W illetts et S kurray 1987). Ainsi, des mesures supplémentaires sont nécessaires pour déterminer si F suit ce μg régner.

Deux prédictions : Une parcelle de bûche μb par rapport au journal g (Drake 1991) révèle un écart entre les entrées virales et cellulaires. Le génome de 578 kb de Mycoplasme génital (P eterson et al. 1995) se situe au milieu de cet écart. Une interpolation du tableau 4 prédit μb = 5,9 × 10 9 pour cet organisme.

Les taux de mutation dans le bactériophage T4 et le virus de l'herpès simplex de type 1 (HSV) présentent une relation intrigante qui suggère qu'au moins une souche de HSV peut héberger une mutation mutante. Ces deux virus ont des tailles de génome et des modes de réplication de l'ADN similaires. Dans les stocks de HSV passés de petit inoculum à N = 10 8 –10 9 ui, la fréquence de l'herpèsvirus tk mutants est d'environ 6,2 × 10 4 (H all et al. 1984). Les tk gène a environ 1150 b (M c K night 1980) et g = 152 260 b (M c G eoch et al. 1988). Aucun spectre mutationnel approprié n'est disponible, donc C doit être deviné en prenant la moyenne des valeurs répertoriées dans D rake (1991) puis C = 3,12,b 1,7 × 10 7 et μg 0,026. Ceg est environ huit fois plus élevée que les valeurs du tableau 4. Considérons ensuite les mutations antimutatrices qui surviennent dans le gène de l'ADN polymérase du phage T4. Ceux-ci réduisent les taux de certaines voies seulement, tout en augmentant les taux d'autres dans l'ensemble, ils ne pas réduireb (Drake 1993b). Un antimutateur général fort est probablement difficile ou impossible à obtenir en une ou quelques étapes mutationnelles (Drake 1993b), à l'exception de l'inversion d'une mutation mutante qui elle-même est apparue par une seule mutation. Les mutants de l'ADN polymérase du HSV sélectionnés pour leur résistance à l'acide phosphonoacétique (PPA) sont parfois des antimutants. Ceux-ci réduisent la fréquence des tk des mutants de toutes sortes vraisemblablement (H all et al. 1984), et donc vraisemblablement faire réduireb la réduction est d'environ 45 fois, ce qui donne μg ≈ 0,0006 (environ cinq fois plus faible que les valeurs du tableau 4). En revanche, le phage T4 de type sauvage est résistant au PPA, cependant, les mutations du mutateur de l'ADN polymérase T4 sont sensibles au PPA. Lorsque la sélection est ensuite appliquée pour la résistance au PPA dans ces souches mutantes, le résultat est des mutations antimutatrices de la polymérase qui annulent les phénotypes mutateurs (R eha -K rantz et al. 1993). Ces résultats suggèrent que cet isolat de HSV peut porter une mutation mutante naturelle. Les résultats décrits ci-après révèlent qu'il s'agit d'une conjecture raisonnable.

Hypermutation microbienne : Les taux de mutations microbiennes peuvent augmenter sur de courtes périodes pour des raisons physiologiques ou réglementaires, ou de manière plus permanente par l'action de mutations mutantes. De plus, des parties particulières du génome peuvent être maintenues intrinsèquement hypervariables grâce à des mécanismes locaux spécifiques tels que la commutation de cassette qui médie la variation de phase chez les bactéries et autres agents pathogènes et le type d'accouplement chez les levures et les champignons (Moxon et al. 1994 S asaki 1994).

Les taux de mutation microbienne peuvent augmenter physiologiquement de plusieurs manières. N inio (1991) a suggéré que les erreurs de transcription, de traduction et de ségrégation moléculaire créeraient des mutants transitoires qui, selon son estimation, contribueraient modestement à des mutations uniques mais fortement à de multiples mutations par génome par réplication. Dans Neurospora crassa (A uerbach 1959) et le phage T4 (D rake 1966 D rake et Ripley 1994) (et probablement dans tous les organismes à différents moments), les génomes au repos mutent d'une manière dépendante du temps et indépendante de la réplication parce qu'ils accumulent des dommages spontanés à l'ADN qui engendre des mutations lorsque la réplication de l'ADN reprend, et cela peut même altérer la transcription pour produire un phénotype mutant avant la réplication. Les bactéries affamées mutent également en fonction du temps, ce qui implique probablement une synthèse immédiate d'ADN (par exemple., F oster 1997 T orkelson et al. 1997). De plus, les dommages à l'ADN provoquent parfois le processus de pontage translésionnel, dans lequel l'extension d'amorce d'ADN passe une lésion non réparée. Parmi les microbes, ce processus peut aller de totalement constitutif, comme dans le phage T4 (Drake et Ripley 1994), à fortement inductible, comme dans le E. coli Réponse SOS (Walker 1984). La réponse SOS augmente les taux de mutation pour environ une génération de cellules, même dans les parties non endommagées du génome (W alker 1984). Étant donné que les dommages à l'ADN sont un sous-produit de processus endogènes ordinaires tels que la dépurination et la désamination des bases, les dommages aux bases causés par les sous-produits du métabolisme de l'oxygène et du méthyle, etc., quelques cellules dans n'importe quelle population sont induites par le SOS à tout moment. La fraction du changement évolutif entraîné par une telle hypermutabilité transitoire reste inconnue.

Pour les bactéries, les chémostats ou les transferts en série quotidiens constituent des environnements extraterrestres au sein desquels une adaptation rapide et complexe se produit par mutation et sélection. Parce qu'au moins 10 gènes peuvent générer des mutations mutantes, E. coli les populations génèrent environ 10 −6 –10 −5 mutants mutants par réplication. Cependant, les mutants puissants sont délétères (Q uiñones et Piechocki 1985) et n'accumulent pas un E. coli la culture accumule <10 -5 mutants mutants (M au et al. 1997). D'autre part, les mutants peuvent être fortement sélectionnés lorsque leur fréquence et leur force sont suffisamment élevées pour qu'ils génèrent plus de mutations bénéfiques que les non-mutateurs dans la même population (C hao et C ox 1983 M ao et al. 1997) les mutateurs délétères sont sélectionnés indirectement avec la mutation adaptative.

Contrairement aux cultures de laboratoire fraîchement cultivées, les mutants mutants sont trouvés à des fréquences pouvant dépasser 10 -2 parmi les isolats hospitaliers de E. coli et Salmonella enterica (J yssum 1960 G ross et S iegel 1981 L e C lerc et al. 1996), ou après de nombreux passages en série en laboratoire (S niegowski et al. 1997). Les mutations mutantes sont courantes parmi les souches commensales ainsi que les souches pathogènes, et peuvent augmenter les taux de mutation soit fortement, soit faiblement (M atic et al. 1997). Ainsi, les adaptations continuelles se produisant lors des invasions bactériennes de nouveaux hôtes ou des conditions de culture suffisent à augmenter la fréquence des mutants d'au moins 1000 fois, bien que les effets délétères ultérieurs des mutations du mutateur puissent empêcher le remplacement total parmi les hôtes ou les lignées transférées en série. Afin de comprendre les rôles des mutations mutantes dans les adaptations transitoires et l'évolution à long terme, il sera important de déterminer les fréquences des mutateurs dans les populations naturelles dans des environnements stables et fortement fluctuants. Théorie décrivant les conditions dans lesquelles les mutateurs peuvent accélérer l'adaptation chez les microbes asexués (L eigh 1970 T addei et al. 1997) encourage de telles enquêtes.

Taux de mutation chez les eucaryotes supérieurs basés sur des loci spécifiques : Les plantes et les animaux contrastent avec les organismes des tableaux 2, 3 et 4 de plusieurs manières. Une différence frappante réside dans la quantité d'ADN. g est un à plusieurs ordres de grandeur plus élevé chez les plantes et les animaux que chez les eucaryotes microbiens. La majeure partie de l'augmentation n'est pas dans les gènes fonctionnels mais plutôt dans les introns et les régions intergéniques, de sorte que ge << G. Une deuxième différence est que les eucaryotes supérieurs peuvent afficher des effets importants de l'âge et du sexe. Comme nous le discutons ci-dessous, chez les mammifères (et en particulier chez l'homme), le taux de mutation génique par génération est beaucoup plus élevé chez les mâles et en particulier les mâles plus âgés, principalement en raison du nombre beaucoup plus important de divisions cellulaires germinales ancestrales à un spermatozoïde que de un œuf. Une troisième différence est que les taux de mutation chez les animaux (et les plantes) sont souvent assimilés à la fréquence des mutants par gamète (ou, occasionnellement, par diploïde). Parfois, cependant, les mutants apparaissent en grappes qui reflètent l'expansion préméiotique d'un seul événement (M uller 1952 W oodruff et al. 1997). Les clusters non reconnus ne sont pas un problème, car un cluster augmente proportionnellement la probabilité de trouver la mutation. Lorsqu'un cluster est observé, chaque individu mutant du cluster doit être compté comme une mutation lors du calcul du taux de mutation par génération sexuelle. Une quatrième différence est que les mécanismes évolutifs d'ajustement des taux de mutation peuvent être très différents chez les eucaryotes sexuels que chez les microbes rarement sexués car, au moins chez les espèces sexuelles exogames, le processus de méiose découple les mutations régulatrices des mutations qu'elles engendrent (Leigh 1970, 1973). De plus, la reproduction sexuée permet à la population de se débarrasser des mutations délétères plus efficacement que cela n'est possible dans les systèmes asexués (K imura et Maruyama 1966 K ondrashov 1984, 1988).

Dans les espèces dont nous discutons, les données sur les taux de mutation chez les mâles sont souvent plus complètes et fiables que celles concernant les taux chez les femelles, de sorte que nos calculs doivent fréquemment se concentrer sur les données des mâles. Dans toutes ces espèces, les mutations avec de petits effets ont tendance à ne pas être comptées. Contrairement à la situation des microbes, où les spectres mutationnels prédisent l'efficacité de la détection, les valeurs actuelles sont toutes des estimations minimales non corrigées pour les types de mutations mal détectés.

Zea mays : Les plantes ont produit remarquablement peu d'estimations des taux de mutation. Chez les plantes telles que le maïs où les méthodes génétiques sont bien établies, les taux de mutation sont relativement faciles à estimer par des croisements avec des souches homozygotes pour les mutations provoquant des phénotypes visibles. Il existe une grande variation d'un locus à l'autre, avec une moyenne de 7,7 × 10 −5 et une plage de <0,1 × 10 −5 (cireux) à 49,2 × 10 −5 (R) mutations par gamète pour huit loci de maïs (S tadler 1930). Il existe peu de données comparables sur d'autres plantes, à part des preuves de taux inférieurs chez les polyploïdes (S tadler 1929). Le manque d'informations supplémentaires entrave les tentatives d'extrapolation à l'ensemble du génome.

Caenorhabditis elegans : Il y a environ 8,2 divisions cellulaires ancestrales au sperme et environ 10,0 aux ovules (K imble et Ward 1988), nous utiliserons donc la moyenne, 9,1. Les taux de mutation et le nombre de codons ont été déterminés pour cinq loci. En prenant les tailles des gènes comme trois fois le nombre de codons plus 100 b pour les séquences régulatrices et d'épissage, en utilisant une moyenne C = 3,12 pour corriger l'efficacité de détection des mutations (Drake 1991) et en divisant par les 9,1 divisions cellulaires par génération sexuée, nous obtenons μb(unc-22) = 1,17 × 10 −11 ,b(unc-54) = 1,68 × 10 −11 ,b(unc-93) = 52,4 × 10 −11 ,b(unc-105) = 4,54 × 10 −11 , etb(sup-10) = 52,6 × 10 −11 (G reenwald et H orvitz 1980 K arn et al. 1983 E ide et A nderson 1985 B enian et al. 1989 L evin et H orvitz 1992 L iu et al. 1996 C. White et P. Anderson, numéro d'accession GenBank. U43891) la moyenneb = 2,25 × 10 -10 . La taille totale du génome g = 8 × 10 7 (S ulston et B renner 1974). Il y a environ 1,78 × 10 4 gènes (B ird 1995) en supposant qu'une moyenne de 10 3 b par gène donne ge = 1,78 × 10 7 . Alorsg = 8 × 10 7 × 2,25 × 10 −10 = 0,018 etpar exemple = 1,78 × 10 7 × 2,25 × 10 -10 = 0,0040. Ces valeurs sont affichées dans le tableau 5.

Drosophila melanogaster : S chalet (1960) a détecté 51 mutations visibles sur 490 118 X chromosomes à 13 loci spécifiques, ce qui donne un taux de 8,0 × 10 −6 par locus par génération. La fraction de celles-ci dues à des substitutions de paires de bases est inconnue étant donné la preuve qu'une grande partie des mutations visibles chez la drosophile sont causées par des insertions d'éléments transposables (F innegan et F awcett 1986), il est probable qu'au moins la moitié des mutations de Schalet étaient de cette nature. M ukai et C ockerham (1977) ont enrichi la fréquence des mutations en accumulant des mutations d'isoenzymes dans 1000 chromosomes abrités par hétérozygotie dans un système létal équilibré pendant près de 175 générations. Dans 1 658 308 générations de locus, ils ont trouvé trois mutations de mobilité électrophorétique (déplacement de bande) et 17 mutations nulles (perte de bande). Cependant, ces souches présentaient un taux élevé de casse chromosomique, probablement à cause d'un transposon actif (Y amaguchi et M ukai 1974) il est donc probablement plus réaliste d'ignorer les nuls, une procédure également justifiée par le rapport moyen élevé de substitutions de paires de bases à d'autres mutations chez les microbes (Drake 1991). M ukai et Cockerham (1977) ont estimé qu'environ 0,3 de tous les changements d'acides aminés étaient détectables sous forme de décalages de bande. De plus, seulement environ 2/3 des substitutions de paires de bases modifient un acide aminé. Ainsi, le taux de mutation par locus par génération est (3/1 658 308)/(0,3)(2/3) = 9,0 × 10 −6 . En faisant la moyenne des deux études, nous prenons 8,5 × 10 −6 comme taux représentatif. Les protéines étudiées par M ukai et C ockerham (1977) étaient codées par une moyenne de 973 b et certaines séquences régulatrices devaient également être présentes, donc une division par 10 3 donne 8,5 × 10 -9 mutations par b par génération. Le nombre de divisions cellulaires ancestrales d'un spermatozoïde chez la drosophile est d'environ 25 pour les jeunes mâles typiquement utilisés dans les expériences de laboratoire (L indsley et T okuyasu 1980 D rost et L ee 1995 J. M. M ason , communication personnelle), donc diviser par 25 donne μb = 3,4 × 10 −10 . Chez la drosophile, g 1,7 × 10 8 b (A shburner 1989). Nous prendrons comme ge la quantité d'ADN dans 1,6 × 10 4 gènes, chacun de longueur 10 3 b (B ird 1995), cela donne ge = 1,6 × 10 7 b. Ces valeurs et les valeurs dérivées sont données dans le tableau 5.

Taux de mutation estimés à partir de loci spécifiques chez les eucaryotes supérieurs

Mus musculus : Les données sur les souris proviennent des contrôles des vastes expériences de rayonnement réalisées à Oak Ridge, Harwell et Neuherberg, et résumées par R ussell et R ussell (1996). Un total de 1 485 036 descendants abritaient 69 mutations visibles sur sept loci pour un taux de 6,6 × 10 −6 par locus par génération. En plus des mutations complètes, environ 4,8 × 10 −5 mutations mosaïques ont été détectées sur cinq loci, ces mutations avaient tendance à produire environ 50 % de mosaïcisme de la lignée germinale, de sorte que le taux de mosaïque ajusté est de (4,8 × 10 −5 )(0,5) /5 = 4,8 × 10 -6 . Ainsi, le taux de mutation total était d'environ 1,1 × 10 −5 par locus par génération. En supposant 10 3 b par locus, nous obtenons 1,1 × 10 −8 mutations par b par génération. Enfin, en divisant par 62, le nombre estimé de divisions cellulaires avant un spermatozoïde (D rost et L ee 1995), donne μb = 1,8 × 10 -10 mutations par b par division cellulaire. Prise g = 2,7 × 10 9 b (L aird 1971) et ge car la quantité d'ADN requise pour 8 × 10 4 gènes (B ird 1995) de longueur 10 3 pb génère les valeurs supplémentaires énumérées dans le tableau 5.

Il est surprenant que les mosaïques de lignées germinales soient responsables de près de 40 % du taux total. Celles-ci semblent survenir soit sous forme de mutations qui se produisent dans les réplications de l'ADN directement avant ou après la méiose chez le parent mâle ("après" indiquant la première réplication zygotique) ou dans un seul brin d'ADN non réplicatif (qui peut inclure des mutations survenant lors de la recombinaison ou de la réparation de l'ADN ). Ainsi, presque autant de mutations peuvent se produire dans ou entre une ou deux réplications spéciales d'ADN que dans les 60 autres. Cette possibilité présente un défi majeur à la fois pour les expérimentateurs et les théoriciens (W oodruff et al. 1997).

Le taux de mutation d'importance évolutive est bien entendu la moyenne sur les deux sexes. Les taux estimés par génération chez les souris mâles et femelles ne sont pas très différents, mais la valeur des femelles est basée sur de très petits nombres et est compliquée par un grand groupe. L'ajout du taux mosaïque de 4,8 × 10 -6 au taux féminin de 1,6 × 10 -6 donne un taux de 6,4 × 10 -6 , soit environ la moitié du taux masculin. Alternativement, nous notons que le nombre estimé de divisions cellulaires avant le gamète est de 25 chez les femelles et 62 chez les mâles, donc le taux de femelles est de 25/62 = 0,40. En moyenne, le taux féminin est de 0,45 du taux masculin. Le mâle murin μpar exemple est de 0,55, donc la moyenne des deux sexes est d'environ 0,4. Un résultat similaire est obtenu chez l'homme (voir ci-dessous).

Homo sapiens : Les données humaines sont moins fiables que les C. elegans, données sur la drosophile et la souris. Un certain nombre de taux de mutations dominantes ont été déduits de la fréquence des enfants affectés de parents normaux, et parfois confirmés par des estimations d'équilibre pour les dominants avec des effets graves. Ces valeurs vont de 10 -4 à 10 -6 , avec une moyenne approximative de 10 -5 (V ogel et M otulsky 1997). Pour les gènes de taille 10 3 b, cela correspond à un taux de 10 -8 par b par génération. Une estimation basée sur des changements spécifiques dans la molécule d'hémoglobine a donné 0,74 × 10 -8 par b par génération (V ogel et Motulsky 1997), mais il s'agit clairement d'une sous-estimation car d'autres types de changements ne sont pas inclus. Une troisième estimation, tout à fait indépendante, est basée sur les taux d'évolution des pseudogènes dans l'ascendance humaine, qui sont probablement identiques aux taux de mutation (K imura 1983a). Cela donne environ 2 × 10 −8 par b par génération (Crow 1993, 1995). Nous prendrons 10 −8 comme valeur représentative. Cependant, étant donné que l'écrasante majorité des mutations humaines se produisent chez les hommes (voir ci-dessous), le taux masculin doit être environ le double du taux moyen, soit 2 × 10 -8 . Le nombre de divisions cellulaires avant la formation du sperme chez un homme de 30 ans est d'environ 400 (D rost et L ee 1995, Vogel et M otulsky 1997). Ainsi,b 2 × 10 −8 /400 = 5 × 10 −11 . Pour 8 × 10 7 gènes (B ird 1995) de taille moyenne 10 3 b,par exemple 0,004 etpar exemple ≈ 1.6.

Une méthode alternative pour estimerpar exemple a été proposé par K ondrashov et Crow (1993) sur la base de l'idée que des séquences purement neutres telles que les pseudogènes peuvent être utilisées comme référence pour identifier des sites qui montrent clairement des contraintes sélectives. Si l'abondance de tels sites peut être déterminée de cette manière, la taille effective du génome et son taux de mutation peuvent être estimés uniquement à partir des taux d'évolution des séquences d'ADN. Cette méthode n'a pas encore été appliquée à de grandes quantités de données de séquence. Pour les gènes de l'hémoglobine, environ 15 % des bases semblent être sous le contrôle effectif de la sélection, ce qui peut être dans la moyenne pour les gènes codant pour des protéines pour un traitement plus sophistiqué, voir Kimura (1983b).

Avec 6,4 × 10 9 paires de bases dans le génome diploïde, un taux de mutation de 10 -8 signifie qu'un zygote a 64 nouvelles mutations. Il est difficile d'imaginer qu'autant de nouvelles mutations délétères à chaque génération soient compatibles avec la vie, même avec un mécanisme efficace d'élimination des mutations. Ainsi, la grande majorité des mutations dans l'ADN non codant doit être neutre.

Effets du sexe et de l'âge chez l'homme : Les données sur les taux de mutation chez les femmes sont moins nombreuses et moins fiables que les données sur les taux chez les hommes. Pour les substitutions de paires de bases humaines, il existe un taux de mutation énormément plus élevé chez les hommes que chez les femmes, ainsi qu'un fort effet de l'âge paternel. Les hommes plus âgés ont un taux plus élevé que les hommes plus jeunes, et l'augmentation est plus importante que si la mutation était simplement dépendante de la division cellulaire (Crow 1993, 1997), mais la composante de la fidélité de réplication qui diminue chez les hommes plus âgés reste inconnue. Les mutations s'accumulent également avec les divisions cellulaires dans les tissus somatiques (A kiyama et al. 1995), bien que l'on ne sache pas si le taux est proportionnel au nombre de divisions.

L'énorme différence entre les taux de mutation chez l'homme et la femme est bien documentée pour les quelques loci pour lesquels il existe des données adéquates. Pour trois affections, le syndrome d'Apert, la néoplasie endocrinienne multiple de type B (MEN2B) et de type A (MEN2A), un total de 92 nouvelles mutations ont été signalées dans lesquelles, par analyse de liaison, il est possible de déterminer le parent d'origine. Étonnamment, tous les 92 étaient paternels. Ce sont toutes des mutations de substitution de base. Le syndrome d'Apert a également été étudié pour l'effet de l'âge paternel et, comme prévu, montre une forte augmentation avec l'âge paternel (C row 1997). Le fait qu'un si grand nombre de ces mutations se trouvent sur les sites CpG offre un certain soutien à ceux qui soutiennent que quelque chose d'associé à la méthylation est responsable du taux élevé chez les mâles (S apienza 1994 M c V ean et H urst 1997).

En revanche, certaines mutations ne sont pas fortement associées à l'âge paternel. Deux exemples sont la neurofibromatose et la dystrophie musculaire de Duchenne. Dans ces deux maladies, la plupart des mutations sont de petites délétions et d'autres changements cytogénétiques dans d'énormes gènes. Ainsi, la généralisation semble être que les substitutions de bases sont dépendantes de la réplication, mais pas les modifications cytogénétiques. Diverses maladies humaines présentent un continuum allant d'un effet d'âge paternel très fort à très faible (R isch et al. 1987), reflétant vraisemblablement les proportions relatives de substitutions de bases et de changements cytogénétiques.

Effet de l'hémizygotie : Les mutations délétères au niveau des loci liés au sexe sont fortement exprimées à l'état hémizygote dans le sexe hétérogamétique et sont donc soumises à une contre-sélection plus forte que les mutations délétères dans les gènes autosomiques (sauf lorsqu'elles sont fortement dominantes) (H aldane 1927). En conséquence, il y a une pression de sélection plus forte pour réduire les taux de mutation à Xloci liés qu'aux loci autosomiques (M c V ean et H urst 1997). Les données sur l'évolution des séquences d'ADN des mammifères suggèrent que la X Le chromosome peut en effet connaître un taux de mutation plus faible que les autosomes (M c V ean et H urst 1997), bien que cela puisse être confondu avec un taux de mutation plus élevé chez les mâles que chez les femelles, en particulier chez les mammifères à longue durée de vie.

Point chaud mutationnel : Certaines des mutations humaines les mieux comprises surviennent dans le gène de l'achondroplasie, ce qui semble être une bonne source pour une estimation du taux de mutation. Le taux de mutation moyen pour le phénotype, déterminé directement dans plusieurs études et étayé par des calculs indirects, est de 10 -5 (V ogel et M otulsky 1997). Cependant, l'analyse moléculaire (S hiang et al. 1994) a révélé que 15 des 16 mutations étaient GGG → AGG et l'autre était GGG → CGG sur le même codon, remplaçant la glycine par l'arginine. Ainsi, la totalité du taux de mutation observé semble provenir d'un seul codon. Des points chauds CpG similaires étaient responsables de toutes les mutations causant le syndrome d'Apert. Bien que les données soient rares, ces deux exemples suggèrent qu'une fraction majeure des mutations génétiques humaines est due à des points chauds mutationnels, comme cela est également typique chez les microbes (par exemple., Benzer 1961). Nous avons grandement besoin de plus de données sur les taux de mutation par locus accompagnées d'analyses moléculaires montrant les sites mutants et le parent d'origine.

Taux de mutations somatiques versus germinales : Le taux de lignée germinale (mammifère mâle) peut être inférieur au taux somatique. En utilisant des souris portant une cible rapporteur de mutations chromosomiques, le mutant typique des cellules somatiques la fréquence s'est avéré être d'environ 1,7 × 10 −5 dans une variété de tissus, mais d'environ 0,6 × 10 −5 dans les préparations de sperme (K ohler et al. 1991). (Cette différence de trois fois est probablement sous-estimée, car les préparations de cellules germinales utilisées dans ces expériences étaient probablement contaminées par des cellules somatiques.) Parce que le nombre de divisions cellulaires antérieures à ces tissus n'était pas notablement plus faible dans les cellules germinales que dans les cellules somatiques. , ce résultat suggère une mutation taux par division cellulaire (ou unité de temps) au moins trois fois plus faible dans les cellules germinales que dans les cellules somatiques. À son tour, cette conclusion suggère que les pressions évolutives sur les taux de mutation se concentrent principalement sur la lignée germinale, le soma étant soumis à moins de pression, peut-être à cause de la diploïdie (O rr 1995).

Taux de mutation des allèles délétères issus d'expériences d'accumulation de mutations : Les mesures des taux de mutation basées sur des loci spécifiques offrent la possibilité de marquer tous les événements mutationnels dans une cible moléculairement bien définie. Ceci a été réalisé dans plusieurs systèmes microbiens, mais encore imparfaitement chez les eucaryotes supérieurs. Un inconvénient de la méthode du locus spécifique est que seul un ou quelques gènes, éventuellement non représentatifs, peuvent avoir été examinés. Une approche alternative consiste à accumuler des mutations avec des effets de fitness délétères sur de nombreuses générations. Bien que cette méthode ignore les mutations sans effets sur la forme physique, elle peut dépister des fractions assez importantes du génome. Les mutations avec des effets de fitness très faibles (de l'ordre de 10 -3 ou moins) ne sont pas susceptibles de contribuer aux estimations de taux de mutation obtenues de cette manière, à moins qu'elles soient improbablement nombreuses, nous distinguons donc conceptuellement ces estimations des taux de mutation par génome effectif. discuté ci-dessus.Étant donné que les résultats de locus spécifiques pour les organismes supérieurs dépendent en grande partie de la détection de mutations ayant des effets phénotypiques majeurs, les estimations ci-dessus des taux de mutations effectives du génome devraient en pratique être assez similaires aux estimations des taux de mutations délétères.

Méthodes de mutation-accumulation : Cette procédure combine l'utilisation de Muller (1928) de chromosomes marqués supprimant les croisements pour détecter des mutations n'importe où le long d'un chromosome qui a été séquestré pendant plusieurs générations, et la proposition de B ateman (1959) d'utiliser la variance entre les répétitions pour estimer la taux de mutation et effet moyen. L'approche a été affinée par M ukai et ses collègues (M ukai 1964 M ukai et al. 1972), et nous l'appellerons méthode Bateman-Muller-Mukai.

L'idée basique est la suivante. Un ensemble de lignées initialement génétiquement identiques est établi à partir d'une base isogénique. Les lignées sont maintenues indépendamment et les mutations peuvent s'accumuler. Étant donné que le système d'accouplement garantit que les chromosomes accumulant les mutations ne résident que chez les mâles hétérozygotes et qu'un seul mâle est utilisé comme parent à chaque génération, la sélection est minimisée. En supposant que le nombre de mutations par lignée après un certain nombre de générations soit une variable aléatoire, différentes lignées accumuleront différents nombres de mutations. Ainsi, la variance entre les lignées pour un trait de fitness quantitatif tel que la viabilité augmentera avec le temps. Compte tenu de la nature délétère de la plupart des mutations, la valeur moyenne du trait de fitness devrait diminuer avec le temps. Soit le nombre moyen de mutations délétères qui surviennent par génération U (Uc pour le taux pour un chromosome particulier, Uh pour le taux génomique haploïde, U pour le taux génomique diploïde), et la réduction moyenne de la valeur du trait d'une seule mutation lorsque homozygote (par rapport à une valeur de 1 pour le type sauvage) est s ¯ . ( s ¯ est une moyenne pondérée, dans laquelle les effets des mutations au niveau des loci individuels sont pondérés par les taux de mutation aux loci.)M) et augmentation de la variance entre les droites (ΔV) sont donnés par Δ M = U c s ‒ (1a) et Δ V = U c ( s ‒ 2 + V s ) , (1b) où Vs est la variance entre les sites dans les effets des mutations (là encore avec une pondération par les taux de mutation). Celles-ci donnent les expressions U c ≥ Δ M 2 ∕ Δ V (2a) et s ‒ ≤ Δ V ∕ Δ M . (2b)

Ceux-ci sont égalités seulement si toutes les mutations ont des effets égaux sur le trait. Cependant, étant donné des estimations fiables de la baisse de la moyenne et de l'augmentation de la variance, une limite inférieure utile sur le taux de mutation délétère par génome peut être obtenue à partir de l'expression 2a. Les vraies valeurs des paramètres peuvent être très différentes de ces limites. Par exemple, si les effets de la mutation ont une distribution exponentielle, alors l'estimation de Uc est doublé et celui de s est divisé par deux (C row et S immons 1983). Sous des hypothèses spécifiques concernant la forme de la distribution des effets mutationnels, comme une distribution gamma, les méthodes du maximum de vraisemblance peuvent être utilisées pour estimer les paramètres de la distribution et la valeur de Uc (Keightley 1994, 1996). En principe, ces méthodes devraient fournir des estimations plus précises de U, sable Vs que les méthodes plus simples de M ukai et al. (1972) à condition que les hypothèses du modèle statistique soient respectées.

Il y a deux difficultés à appliquer cette méthode d'estimation U chez les espèces autres que la drosophile. Le premier est le problème d'empêcher l'opération de sélection, qui s'oppose évidemment à l'accumulation de mutations délétères. Ceci peut être réalisé assez facilement en maintenant chaque lignée avec des tailles de population effectives minimales, car une mutation est effectivement neutre lorsque le produit de la taille effective de la population et du coefficient de sélection est inférieur à un (F isher 1930). Dans les organismes clonaux ou autofécondants, la propagation de chaque lignée à travers un seul individu à chaque génération garantit que même les mutations très délétères se comporteront comme des allèles neutres (K Eightley et C aballero 1997). Même pour les diploïdes avec des sexes séparés, seuls les allèles fortement délétères seront efficacement éliminés par sélection, car une taille de population effective de deux pour chaque lignée est possible avec l'accouplement de pleins frères. De telles expériences fournissent donc des estimations du taux de mutation vers les allèles les plus nuisibles, c'est à dire., mutations qui réduisent la fitness de moins d'environ 50 % lorsqu'elles sont homozygotes.

Taux de mutation d'allèles nuisibles à partir d'expériences d'accumulation de mutations

La principale difficulté de cette méthode est que les lignées accumulant un grand nombre de mutations deviennent de plus en plus vulnérables à la perte en raison d'une faible valeur adaptative, introduisant un biais à la baisse dans les deux ΔM etV. Dans D. melanogaster, l'utilisation de chromosomes balanciers marqués signifie que les mutations peuvent s'accumuler sur un seul autosome qui se propage à travers un seul mâle hétérozygote dans chaque lignée (M ukai 1964), alors la taille effective de la population est de moitié. Compte tenu de la récessivité considérable des mutations les plus fortement délétères (C row et S immons 1983), le risque de perte d'une lignée est fortement réduit par cette procédure en fait, dans les expériences de Mukai, seule une très petite fraction des mâles s'accouplaient seuls étaient stériles. , et ces cultures ont été remplacées par des clans afin qu'aucune lignée ne soit perdue (M ukai et al. 1972). Les chromosomes accumulant les mutations peuvent être rendus homozygotes lorsque cela est souhaité, et leurs effets sur les composants de fitness analysés.

Le taux de mutation pour les létals récessifs peut également être estimé par la technique des chromosomes d'équilibre, et est d'environ 0,01 par génome haploïde par génération dans D. melanogaster (Crow et S immons 1983). Cela semble n'être qu'une petite fraction du taux de mutation total en allèles délétères (voir tableau 6). Des informations plus limitées sur C. elegans suggère un taux de mutation létale légèrement inférieur d'environ 0,007 par génome haploïde par génération (R osenbluth et al. 1983 Clark et al. 1988). Cependant, l'intervalle de confiance supérieur à 95 % pour cette estimation chevauche la valeur pour la drosophile. Chez les plantes, des estimations directes peuvent être obtenues pour les mutations nucléaires dues à une carence en chlorophylle (semis albinos et jaunes). Celles-ci ne sont qu'une composante de toutes les mutations létales, et fournissent donc une sous-estimation du taux de mutation des allèles létaux (K lekowski 1988). Il existe également des informations sur les fougères, dans lesquelles des létaux nouvellement apparus affectant le stade haploïde peuvent être détectés en recherchant des spores inviables à partir de sporophytes diploïdes individuels (qui doivent nécessairement provenir d'haploïdes exempts de létals de la génération précédente). K lekowski (1973) a trouvé des taux d'environ 0,01 à 0,015 par génome haploïde pour trois espèces de fougères, valeurs remarquablement similaires à la C. elegans et les estimations de la drosophile.

Un problème plus sérieux concerne le contrôle approprié pour l'estimation de ΔM, car les composantes de la fitness sont notoirement sensibles aux effets environnementaux (H oule 1992). Ainsi, les lignées d'accumulation de mutations devraient idéalement être mesurées en même temps qu'un contrôle qui n'a pas eu l'opportunité d'accumuler des mutations. Un stock isogénique qui a initialement la même composition génétique que les lignées de mutation-accumulation ne pas fournir un contrôle approprié, même s'il est maintenu comme un stock d'élevage aléatoire avec une grande taille de population effective comme dans certaines expériences (Fernandez et L opez -F anjul 1996). Cela est dû au fait que la plupart des mutations délétères n'ont que de faibles effets sur la valeur adaptative lorsqu'elles sont hétérozygotes, et peuvent donc persister dans la population pendant de nombreuses générations avant l'élimination (Crow et S immons 1983). Le taux de déclin de la fitness moyenne d'une population initialement isogénique au fur et à mesure de l'apparition de nouvelles mutations sera d'abord à peu près le même que pour les lignées d'accumulation, et n'approchera de zéro qu'après plusieurs dizaines de générations.

Ce problème d'un contrôle approprié peut être surmonté avec des organismes qui peuvent bien se remettre du gel, tels que E. coli et C. elegans des méthodes appropriées ne sont disponibles que récemment pour la drosophile (S tepkonkus et C aldwell 1993). Mukai et ses collègues (M ukai 1964 M ukai et al. 1972) et Ohnishi (1977) n'ont utilisé aucun contrôle ou ont utilisé les valeurs des lignées présumées sans mutation car elles conservaient une fitness maximale. Ces procédures ont conduit à critiquer les valeurs de ces expériences (K Eightley 1996).

La grandeur de U : Les estimations des taux minimaux de mutations nuisibles (Bateman-Muller-Mukai) à partir d'expériences d'accumulation de mutations chez plusieurs espèces sont résumées dans le tableau 6. Comme prévu à partir du tableau 4, la limite inférieure pour U dans E. coli est extrêmement faible, environ 6 % du taux de mutation génomique total de 0,0034. Si le nombre estimé de divisions cellulaires (36) dans la lignée germinale mâle de la drosophile est multiplié par le E. coli U de 0,0002, la drosophile résultante Uh = 0,007. C'est beaucoup moins que l'estimation mesurée d'environ 0,3. Ce rapport (0,007:0,3) est à peu près le même que le rapport de E. coli et la taille du génome de la drosophile (K ibota et L ynch 1996). Chez la drosophile, cependant, le rapport entre la taille effective du génome et la taille totale du génome (ge:g) est beaucoup plus petit que dans E. coli. Si seul le rapport des tailles effectives du génome est pris en compte, un écart important subsiste. Contrairement aux estimations de Mukai de Uh pour la drosophile de 0,15 (O hnishi 1977) à 0,42 (M ukai et al. 1972), Uh pour C. elegans a été estimée à 0,003 en utilisant l'ajustement à une distribution gamma des effets mutationnels, ou 0,0006 en utilisant la méthode de Mukai (K Eightley et C aballero 1997). Parce que la taille du génome de C. elegans et la drosophile sont similaires, une différence estimée de deux ordres de grandeur dans Uh est dérangeant. En revanche, l'estimation de Arabidopsis thaliana (0,1) ne semble être que légèrement inférieur à celui de la drosophile, mais les intervalles de confiance sur cette estimation sont très larges (S. S chultz et J. H. W illis , communication personnelle).

Plusieurs explications possibles peuvent être imaginées à ces écarts. L'une est que les estimations de la drosophile sont basées sur des mesures de la viabilité de l'œuf à l'adulte dans des conditions de compétition, alors que la C. elegans et les résultats d'Arabidopsis portaient sur le rendement reproducteur net dans des conditions non compétitives. Les différences de fitness sont susceptibles d'être plus facilement détectées dans des conditions plus difficiles (K ondrashov et H oule 1994). Une autre possibilité est que les insertions d'éléments transposables ont joué un rôle beaucoup plus important dans l'apparition de mutations délétères dans les expériences sur la drosophile que dans le C. elegans expériences, où la lignée impliquée manquait d'activité d'élément transposable (K Eightley et C aballero 1997). Une explication moins acceptable est que les valeurs de Drosophila pour ΔM sont des surestimations flagrantes causées par des changements adaptatifs dans le chromosome d'équilibre contre lequel les chromosomes d'accumulation de mutation ont été en compétition, cela entraînerait une baisse artificielle de la viabilité moyenne des chromosomes d'accumulation de mutation par rapport à l'équilibreur (K Eightley 1996). Cependant, cet artefact semble peu probable car les chromosomes équilibreurs étaient des souches de laboratoire établies de longue date qui étaient susceptibles d'être à l'équilibre, et dans les expériences d'accumulation les plus longues (M ukai 1969), la viabilité des chromosomes équilibreurs aurait dû doubler pour tenir compte de les résultats observés. Le fait que le taux de mutation génomique efficace (probablement minimal) chez la drosophile dans le tableau 5 est bien plus proche du U estimations dans le tableau 6 pour la drosophile que pour C. elegans suggère en outre que cet artefact putatif est improbable.

Pour éviter les problèmes de contrôle pour les expériences sur la drosophile, Garcia -D orado (1997) a utilisé une méthode statistique d'estimation des paramètres mutationnels qui ne nécessite pas la connaissance de ΔM, mais adapte simplement la distribution observée des valeurs des lignes d'accumulation de mutations à une forme supposée de distribution continue des effets mutationnels. Cela conduit à une estimation beaucoup plus faible de U pour les expériences de Mukai et Ohnishi (Uh ≈ 0,025) que la méthode de Bateman-Muller-Mukai, bien que toujours sensiblement plus grande que la méthode C. elegans valeur. La difficulté avec ce résultat est qu'il n'y a pas de a priori Pour justifier la distribution supposée des effets mutationnels, par exemple, il pourrait y avoir une classe de mutations avec des effets similaires mais assez importants, et une autre classe avec des effets beaucoup plus petits mais très variables, comme suggéré par K Eightley (1996). Cela pourrait avoir des effets substantiels sur l'estimation de U. Des recherches supplémentaires sont clairement nécessaires pour résoudre ces incertitudes.

Une méthode qui offre une solution partielle aux contrôles inadéquats de la drosophile a été conçue par S. A. S habalina, L. Y. Y ampolsky et A. K ondrashov (communication personnelle). Un gros cheptel élevé au hasard est maintenu afin de minimiser les possibilités de sélection sur la viabilité et la fertilité. Si tel est le cas, la valeur moyenne d'une composante de fitness devrait diminuer au taux donné par l'équation 1a, où Uc est remplacé par U et les coefficients de sélection sont pour les hétérozygotes plutôt que pour les homozygotes. Si un stock comparable élevé au hasard est maintenu dans des conditions sélectives qui ont prévalu pendant une longue période, de sorte qu'il se trouve à l'équilibre mutation-sélection, sa moyenne devrait rester constante, sauf pour les fluctuations environnementales, de sorte que ΔM peut être estimée en ajustant les changements dans le contrôle. Pour éviter la possibilité d'un changement adaptatif dans le stock de contrôle, le nombre de générations sur lesquelles il est maintenu peut être minimisé en le maintenant à basse température pour réduire le nombre de générations de contrôle ou en utilisant des méthodes récemment développées pour congeler la drosophile. Leurs mesures de fitness net dans des conditions compétitives suggèrent que ΔM 0,02. Pour Mukai et al. (1972), la valeur était de 0,004 par chromosome, ce qui se traduit par 0,02 par génome diploïde. Ces valeurs sont en bon accord, mais cela est peut-être dû à des erreurs opposées. Les données de Shabalina et al. sont pour la fertilité. Il existe des preuves d'une contribution plus importante de la fertilité que la viabilité à la charge génétique pour la forme physique totale (K night et Robertson 1957 S ved 1975 S immons et al. 1978). D'autre part, ils ont mesuré les effets hétérozygotes plutôt qu'homozygotes. En tout cas, les expériences de Shabalina et al. supportent un déclin substantiel de la valeur adaptative dans des circonstances où la souche témoin avait été conservée congelée, plaidant ainsi contre l'amélioration de la population de référence dans les expériences de Mukai.

Estimations indirectes de U: Plusieurs méthodes indirectes ont été proposées pour estimer le taux de mutations délétères génomiques. Pour les mutations létales chez les plantes allogames, la formule classique de la fréquence d'équilibre q d'un allèle létal récessif sous balance mutation-sélection, q (μ/s) 0,5 (H aldane 1927), peut être appliqué aux fréquences des variants déficients en chlorophylle contrôlés par le gène nucléaire pour obtenir le taux de mutation μ par génome haploïde, en supposant que le coefficient de sélection s = 1 (C rumpacker 1967 O hnishi 1982 K lekowski 1988). Si les mutations létales ne sont pas complètement récessives, comme le suggèrent les données sur la drosophile (C row et S immons 1983), cette procédure sous-estime le taux de mutation car une valeur plus élevée de est nécessaire pour compenser l'élimination des hétérozygotes létales par sélection.

Les résultats des taux de mutation totaux liés à la carence en chlorophylle ont été examinés par K lekowski (1992) pour dix espèces de plantes annuelles de cinq familles. Il a conclu que les taux sont étonnamment constants, allant de (0,16 à 0,45) × 10 −3 . Il n'y a aucune relation apparente avec le contenu en ADN de l'espèce, même si celui-ci différait de plus de 20 fois. Les différences de ge sont vraisemblablement beaucoup moins. Il est difficile d'extrapoler ces taux de mutation à l'ensemble du génome, car la proportion de loci vitaux apportés par les gènes de la chlorophylle est actuellement inconnue.

Des estimations peuvent également être obtenues pour des populations dont les taux d'autofécondation sont connus, en utilisant les formules d'équilibre de Ohta et Cockerham (1974). Les estimations pour de telles populations d'espèces de mangrove à longue durée de vie sont (2,1 à 5,8) ×10 -3 (K lekowski et G odfrey 1989 K lekowski et al. 1994), environ 13 fois plus élevées que celles des annuelles. Cette différence serait attendue d'une augmentation des taux de mutation avec l'âge causée par un plus grand nombre de divisions cellulaires avant la méiose chez les plantes âgées. ). Cette valeur doit être confirmée chez d'autres espèces. En supposant que les mutations affectant la viabilité des sporophytes réduisent également la viabilité des gamétophytes mâles, un effet de l'âge devrait également diminuer la viabilité du pollen chez les plantes âgées. Aucun effet de ce type n'a été trouvé dans la seule étude dont nous avons connaissance (C onnor et L anne 1991). Cependant, par analogie avec les études humaines, les mutations qui s'accumulent avec l'âge sont probablement principalement des substitutions de bases, qui sont plus susceptibles que les délétions de traverser le gamétophyte haploïde (K hush et R ick 1967).

L'utilisation de formules basées sur l'hypothèse d'équilibres mutation-sélection a été étendue à l'estimation des taux de mutation préjudiciables à partir de l'effet de la consanguinité sur les composantes de la condition physique (C harlesworth et al. 1990 C harlesworth et H ughes 1998 Deng et L ynch 1996). Chez les espèces hautement autofécondantes, les létals récessifs seront rapidement éliminés de la population (Lande et Schemske 1985), et contribueront donc peu aux différents effets de la consanguinité par rapport à la consanguinité sur les composantes de la valeur adaptative. De plus, ces populations auront peu de loci polymorphes avec une variabilité allélique maintenue par une surdominance (K imura et Ohta 1971 C harlesworth et C harlesworth 1995). Ainsi, nous pouvons raisonnablement négliger les charges létales et ségrégationnelles et supposer que l'hétérosis dans les populations fortement consanguines est due uniquement à une charge mutationnelle préjudiciable. Le taux de mutations préjudiciables agissant indépendamment par génome diploïde peut alors être estimé à partir de la formule U h = − ln ( 1 − ) ∕ ( 1 − 2 h ) , (3) où est la réduction de la valeur adaptative moyenne des individus très autodidactes par rapport à des individus accouplés au hasard, et h est le coefficient de dominance associé à une mutation préjudiciable typique. Cette méthode fournit des sous-estimations des taux de mutation totaux pour des valeurs raisonnables de h (C harlesworth et al. 1990).

La plage de valeurs de Uh ainsi obtenues à partir des données sur l'hétérosis dans la fitness nette pour plusieurs espèces de plantes hautement autofécondantes de trois familles d'angiospermes sont présentées dans la partie supérieure du tableau 7 où aucune estimation de h est disponible, il a été supposé être de 0,2 comme suggéré par les données sur la drosophile (C row et S immons 1983, C harlesworth et H ughes 1998).Étant donné que chaque estimation individuelle est sujette à une erreur d'échantillonnage considérable, il est probablement sage de ne considérer que la valeur médiane d'environ 0,3 comme significative. Cette estimation est ostensiblement indépendante de la force de sélection contre les mutations délétères, et peut donc en capturer une plus grande fraction que la méthode d'accumulation de mutations. D'autre part, le fait que h semble être beaucoup plus proche de 0,5 pour les mutations avec de petits effets que pour les mutations avec des effets drastiques (C row et S immons 1983) signifie que des mutations très faiblement sélectionnées sont susceptibles de contribuer relativement peu à l'hétérosis et ne seraient donc pas détectées par cette méthode.

H ughes (1995) et Deng et Lynch (1996, 1997) ont suggéré une extension de cette approche pour utiliser les variances génétiques des populations consanguines et non consanguines pour estimer la diminution des composantes de la valeur adaptative avec la consanguinité. En estimant simultanément le degré de dépression de consanguinité, U et s peut également être estimé (Deng et L ynch 1996, 1997). Estimations de Uh l'application de cette méthode aux données publiées sur les composants de fitness de la drosophile (B. C harlesworth , résultats non publiés) et à partir des données sur la daphnie (Deng et L ynch 1997) sont données dans la partie inférieure du tableau 7. Il existe à nouveau une propagation substantielle chez l'individu. estime que la médiane est d'environ 0,34, étonnamment proche de la valeur de l'usine.

Bien qu'il s'agisse d'une idée attrayante, cette méthode dépend fortement de l'hypothèse selon laquelle l'équilibre mutation-sélection est la seule force qui maintient la variation génétique dans les composants de la condition physique. Il y a de bonnes raisons de remettre en question cette hypothèse pour les espèces exogames. Chez la drosophile, la variance génétique et la dépression de consanguinité pour les composantes de la condition physique semblent être trop élevées pour être expliquées uniquement par l'équilibre mutation-sélection, en utilisant les estimations des paramètres présentées dans le tableau 6 (M ukai et al. 1974 Charlesworth et H ughes 1998). Cela implique l'existence d'une contribution substantielle de la variation qui est activement maintenue par sélection, provoquant un biais à la hausse dans les estimations de U par la méthode Deng-Lynch. La présence d'une variation maintenue par la sélection signifie que U est surestimée dans une mesure difficile à évaluer.

L'impact de l'augmentation des taux de mutation : Le taux élevé de mutations délétères spontanées par génération sexuelle dans les organismes multicellulaires les rend-ils sensibles à de faibles augmentations de taux, comme on le voit avec les virus à ARN, les rétroéléments et les souches mutantes de E. coli et S. cerevisiae? Nous nous attendrions à ce que la diploïdie et la demande peu fréquente pour les fonctions de certains gènes qui interviennent dans les réponses aux défis environnementaux, fournissent une protection considérable contre les mutations mortelles récessives, au moins jusqu'à ce que les mutations s'accumulent à une fréquence intolérable. Mais les mutations nuisibles semblent avoir des niveaux de dominance plus élevés que les mutations mortelles (Crow et S immons 1983), de sorte qu'un taux élevé de mutations génomiques nuisibles pourrait mettre en péril une population non consanguine.

Estimations indirectes du taux de mutation préjudiciable

Dans les années 1950, Wallace (1952, 1956) a exposé des populations de drosophiles en cage à un rayonnement continu s'accumulant jusqu'à 250 000 r. La population a accumulé un grand nombre de létaux récessifs, mais sa taille n'a pas été réduite. Ce n'est peut-être pas surprenant chez une espèce à fort potentiel reproducteur. Néanmoins, bien que les populations de drosophiles fortement mutagénisées n'aient montré aucun signe manifeste de détérioration génétique, elles sont devenues de faibles compétiteurs avec les souches non mutagénisées (Wijsman 1984). Ainsi, les mouches de Wallace payaient bien un prix, mais qui aurait nécessité un environnement plus rigoureux pour se révéler.

Les résultats récents avec les mammifères sont instructifs. Plusieurs souches de souris ont été rendues homozygotes pour des défauts dans les gènes de réparation des mésappariements Msh2 (D e Vent et al. 1995 R eitmair et al. 1995), pms2 (Boulanger et al. 1995) ou Mlh1 (Boulanger et al. 1996 E delmann et al. 1996). Ces souris présentent un phénotype mutateur dans les cellules somatiques, la mutabilité des séquences microsatellites étant augmentée d'environ 10 2 fois. Dans le cas d pms2, la mutabilité somatique d'une cible mutationnelle artificielle dans un vecteur navette a augmenté d'environ 100 fois dans tout le gène (N arayanan et al. 1997) la plupart des mutations étaient de ±1 b, c'est-à-dire des décalages de cadre susceptibles d'être des mutations nulles. La plupart de ces souris mutantes sont superficiellement saines, bien que sujettes au cancer. La plupart sont stériles, apparemment pour des raisons plus mécaniques que mutationnelles, mais pms2 −/− les femelles sont fertiles. Chez l'homme, des échantillons de tissus normaux provenant de plusieurs patients cancéreux présentaient des défauts de hPMS2 ou hMLH1 (les homologues humains du murin pms2 et Mlh1, respectivement voir Parsons et al. 1995), suggérant que les humains mutants sont présents naturellement et ont des propriétés similaires à celles des souris mutantes. Ces résultats suggèrent, comme mentionné ci-dessus, une sélection plus faible contre les mutations somatiques que contre les mutations germinales.

Ainsi, des taux de mutation somatique sensiblement accrus semblent être compatibles avec le développement des mammifères. Cependant, un taux de mutation germinale constamment élevé devrait éteindre la population en quelques générations, on peut facilement imaginer des schémas de sélection de souris qui pourraient explorer les effets de l'accumulation de mutations dans des conditions hautement mutagènes.

Le vieillissement est un aspect important du développement des mammifères. Le vieillissement a longtemps été supposé refléter l'accumulation de mutations somatiques (voir Finch 1990). L'absence de vieillissement manifestement accéléré chez les souris dont le taux de mutation somatique est 100 fois plus élevé affaiblit considérablement cette hypothèse.


Contenu

Par la théorie de l'endosymbiose, [5] qui a été acceptée vers les années 1970, [18] la mitochondrie, en tant qu'usine énergétique majeure de la cellule, était auparavant un procaryote libre qui a envahi une cellule eucaryote. Selon cette théorie, les organites symbiotiques ont progressivement transféré leurs gènes au génome eucaryote, ce qui implique que l'ADNmt a été progressivement intégré dans le génome nucléaire. [2] Malgré les altérations métaboliques et les adaptations fonctionnelles chez les eucaryotes hôtes, l'ADN mitochondrial circulaire est contenu dans les organites. Contenant 37 gènes, l'ADN mitochondrial joue un rôle essentiel dans la production de composés nécessaires, tels que les enzymes nécessaires au bon fonctionnement des mitochondries. [19] Plus précisément, il a été suggéré que certains gènes (tels que les gènes des sous-unités I et II de la cytochrome oxydase) au sein de l'organite sont nécessaires pour réguler l'équilibre redox tout au long des chaînes de transport d'électrons associées à la membrane. [5] [20] Ces parties du génome mitochondrial ont été signalées comme étant les plus fréquemment utilisées. [20] Les mitochondries ne sont pas le seul endroit dans lequel l'ADNmt cellulaire, l'ADN mitochondrial, peut être trouvé parfois le transfert de l'ADN mitochondrial des organites au noyau peut se produire la preuve d'une telle translocation a été observée par la comparaison de la séquence d'ADN mitochondrial avec le séquence du génome des homologues. [1] [4] [10] L'intégration et la recombinaison de l'ADNmt cytoplasmique dans l'ADN nucléaire est appelée ADN mitochondrial nucléaire, qui est abrégé en NUMT. [1] La présence possible d'ADN organite à l'intérieur du génome nucléaire a été suggérée après la découverte d'une structure homologue à l'ADN mitochondrial, ce qui était peu de temps après la découverte de la présence d'un ADN indépendant dans les organites en 1967. [16] Ce sujet est resté intacte jusque dans les années 1980. Les premières preuves que l'ADN pouvait se déplacer entre les compartiments cellulaires sont venues lorsque des fragments d'ADN chloroplastique ont été trouvés dans le génome mitochondrial du maïs à l'aide d'une hybridation croisée, entre le chloroplaste et l'ADN mitochondrial, et la cartographie physique des régions homologues. [1] [21] [22] Après cette observation initiale, Ellis a inventé le nom "ADN promiscuité" afin de signifier le transfert d'ADN intracellulairement d'un organite à l'autre et est la présence d'ADN d'organelle dans de multiples compartiments cellulaires. [22] Ce n'est pas seulement une découverte importante en soi, mais c'est aussi très informatif et utile pour comprendre le processus évolutif et la période de temps où différentes occurrences pourraient avoir lieu. [16] La recherche d'ADNmt dans l'ADN nucléaire s'est poursuivie jusqu'en 1994, date à laquelle la récente transposition remarquable de 7,9 kb d'un génome mitochondrial typiquement de 17,0 kb vers une position chromosomique nucléaire spécifique chez le chat domestique a été signalée. [17] C'est à cette époque que NUMT a été inventé pour désigner les grandes étendues d'ADN mitochondrial dans le génome. [16] [17] Jusqu'à présent, les génomes entiers de nombreux eucaryotes, vertébrés et invertébrés, ont été séquencés et NUMT a été observé dans le génome nucléaire de divers organismes, y compris la levure, Podospora, oursin, criquet, abeille, tribolium, rat, maïs, riz et primates. [4] [23] Dans Plasmodium, Anopheles gambiae, et Aedes aegypti les moustiques NUMT peuvent à peine être détectés. [24] [25] En revanche, les fragments conservés de NUMT ont maintenant peu été identifiés dans les données du génome pour Ciona intestinalis, Neurospora crassa, Schizosaccharomyces pombe, Caenorhabditis elegans, Drosophila melanogaster, et Rattus norvegicus. [1] [10] [11] [23] Antunes et Ramos ont découvert la présence de NUMT dans le génome du poisson pour la première fois en 2005 en utilisant BLASTN, MAFFT, des cartographies génomiques très vigoureuses et une analyse phylogénique. [11] [26] À travers le règne animal, Apis mellifera, de phylum Arthropodes, et Hydra magnipapillata, de phylum Cnidaire, sont respectivement les premier et deuxième animaux avec le rapport le plus élevé de NUMTs à la taille totale du génome nucléaire tandis que Monodelphis domestique, ou opossum à queue courte grise, est le détenteur du record de fréquence NUMT chez les vertébrés. [5] [23] Semblable aux animaux, les NUMT sont abondants dans les plantes et le plus long fragment NUMT connu à ce jour, une insertion partiellement dupliquée de 620 kb de l'ADNmt de 367 kb de Arabidopsis thaliana, a été rapporté. [5]

Insertion de la NUMT dans le génome nucléaire et sa persistance dans le génome nucléaire initiée par la livraison physique d'ADN mitochondrial au noyau. [5] Cette étape suit l'intégration de l'ADNmt dans le génome via un mécanisme de jonction d'extrémité non homologue au cours du processus de réparation des cassures double brin (DSB) tel qu'envisagé par l'étude de la levure de boulanger, Saccharomyces Cerevisiae [13] [27] et se termine par intragénomique dynamique d'amplification, de mutation ou de délétion, également connue sous le nom de modifications post-insertion. [5] Le mécanisme de transfert de l'ADNmt dans le noyau n'est pas encore entièrement compris.

Transfert de l'ADNmt libéré dans le noyau : La première étape du processus de transfert est la libération de l'ADNmt dans le cytoplasme. [1] Thorsness et Fox ont démontré le taux de relocalisation de l'ADNmt des mitochondries dans le noyau en utilisant ura3- souche de levure avec un URA3 plasmide, gène requis pour la biosynthèse de l'uracile, dans les mitochondries. Au cours de la propagation de telles souches de levures porteuses d'un noyau ura3 mutation, l'ADN plasmidique qui s'échappe de la mitochondrie vers le noyau, complète le défaut de biosynthèse de l'uracile, rétablissant la croissance en l'absence d'uracile, et un phénotype facilement noté. [28] Le taux de transfert d'ADN des mitochondries vers le noyau a été estimé à 2 x 10-5 par cellule et par génération alors que l'inverse, dans le cas de cox2 mutant, le taux de transfert de plasmide du noyau vers les mitochondries est apparemment au moins 100 000 fois inférieur. [28] De nombreux facteurs contrôlent le taux d'échappement d'ADNmt des mitochondries vers le noyau. Le taux de mutation plus élevé de l'ADNmt par rapport à l'ADNn dans les cellules de nombreux organismes est un facteur important favorisant le transfert de gènes mitochondriaux dans le génome nucléaire. [1] [29] L'un des facteurs intergéniques entraîne un taux de destruction plus élevé des macromolécules mitochondriales, y compris l'ADNmt, est la présence d'un niveau élevé d'espèces réactives de l'oxygène (ROS), générées dans les mitochondries en tant que sous-produits du mécanisme de synthèse de l'ATP. . [1] Certains autres facteurs influençant l'échappement de l'ADNmt des mitochondries incluent l'action d'agents mutagènes et d'autres formes de stress cellulaire qui peuvent endommager les mitochondries ou leurs membranes, [16] ce qui prouve qu'il est possible de supposer que les agents nocifs exogènes (rayonnement ionisant et agents chimiques génotoxiques) augmentent le taux d'échappement de l'ADNmt dans le cytoplasme. [30] Thorsness et Fox ont poursuivi leurs recherches pour trouver les facteurs endogènes affectant la fuite de l'ADNmt dans le noyau. Ils ont isolé et étudié 21 mutants nucléaires avec différentes combinaisons de mutations dans au moins 12 loci nucléaires appelés les moi (échappement mitochondrial de levure), dans différentes conditions environnementales, car certaines de ces mutations provoquent une sensibilité à la température. Ils ont découvert ces mutations qui perturbent les fonctions mitochondriales, en raison de l'altération des produits géniques, affectent l'intégrité mitochondriale et conduisent à la fuite de l'ADNmt vers le cytoplasme. [29] De plus, des défauts dans les protéines modifient le taux de transfert de l'ADNmt dans le noyau. Par exemple, dans le cas de yme1 mutantes, les mitochondries anormales sont ciblées pour la dégradation par la vacuole, avec l'aide de pep4 , une protéinase majeure, et la dégradation augmente l'échappement de l'ADNmt vers le noyau par le processus de mitophagie. [1] [31] De plus, Thorsness et Campbell ont constaté qu'en perturbant pep4, la fréquence d'échappement de l'ADNmt dans yme1 les tensions diminuent. De même, la perturbation de PRC1, qui code pour la carboxypeptidase Y, abaisse le taux d'échappement de l'ADNmt dans yme1 Levure. [31] Les preuves montrent que la mitophagie est l'une des voies possibles pour le transfert de l'ADNmt dans le noyau et est considérée comme la voie la plus soutenue jusqu'à présent. D'autres voies possibles sont illustrées à la figure 1. La première voie, comme il a été expliqué, est une yme1mutant qui entraîne l'inactivation de YMe1p protéine, une métalloprotéinase dépendante de l'ATP localisée dans les mitochondries, conduisant à un taux d'échappement élevé de l'ADNmt vers le noyau. [31] Mitochondries de yme1 souche sont absorbés pour la dégradation par la vacuole plus fréquemment que la souche de type sauvage. [31] De plus, les investigations cytologiques ont suggéré plusieurs autres voies possibles dans le nombre varié d'espèces, y compris une lyse du compartiment mitochondrial, une connexion physique directe et une fusion membranaire entre les mitochondries et le noyau, et l'encapsulation des compartiments mitochondriaux à l'intérieur du noyau, comme indiqué dans la figure 1. [5]

Préparation pré-insertion : Après avoir atteint le noyau, l'ADNmt doit entrer dans le génome nucléaire. On peut s'attendre à ce que le taux d'incorporation de l'ADNmt dans le génome nucléaire dépende du nombre de DSB dans l'ADNn, de l'activité des systèmes de réparation des DSB et du taux d'échappement de l'ADNmt des organites. [1] L'insertion de l'ADNmt comprend trois processus principaux, illustrés dans la figure 2 d'abord, l'ADNmt doit avoir la forme et la séquence appropriées, en d'autres termes, l'ADNmt doit être édité, ce qui donne naissance au nouveau site édité dans la structure polynucléotidique. [32] L'ADN mitochondrial n'est pas universel et, chez les animaux similaires aux plantes, l'édition mitochondriale montre des modèles très erratiques d'occurrence spécifique au taxon. [32] Comme le montre la figure 2, il existe trois manières possibles pour l'ADNmt de se préparer à être inséré dans l'ADN nucléaire. Le processus dépend principalement du temps de transfert de l'ADNmt dans le noyau. [32] Comme le montre la figure 2b, l'intégration directe de fragments d'ADNmt non édités dans les génomes nucléaires est la plus plausible et les preuves trouvées à la fois dans les plantes, le génome d'Arabidopsis et les animaux à l'aide de différentes méthodes, y compris l'analyse basée sur BLAST. [1] [32] Dans ce cas, l'ADNmt est transféré dans le noyau par lequel l'édition et les introns apparaissent plus tard dans la mitochondrie. Si un gène, par exemple, était transféré dans le noyau d'une lignée avant que l'édition mitochondriale n'évolue, mais restait dans l'organite dans d'autres lignées où l'édition est apparue, la copie nucléaire ressemblerait plus à un transcrit édité qu'aux copies mitochondriales restantes à les sites édités. [32] Un autre modèle représenté et moins pris en charge, la figure 2a, est le modèle médié par l'ADNc, dont l'ADNmt contenant des introns pénètre dans le noyau et par transcription inverse du transcrit mitochondrial épissé et édité, il s'intègre dans l'ADNn. [1] [32] Le troisième mécanisme proposé est le transfert direct et l'intégration de l'ADNmt sans intron dans le noyau, figure 2c, par lequel l'édition et les introns dans la mitochondrie vont et viennent au cours de l'évolution. Dans ce cas, l'introduction et l'élimination de l'intron, ainsi que la transcription inverse se produisent dans les mitochondries et le produit final, l'ADNmt sans intron édité, s'intégrera dans l'ADNn après avoir été transféré dans le noyau. [32]

Insertion dans le génome nucléaire :Une fois l'étape préparatoire terminée, l'ADNmt est prêt à être inséré dans le génome nucléaire. Sur la base du site d'intégration NUMT et des résultats analysés obtenus de l'expérience sur la levure de boulanger, Blanchard et Schmidt ont émis l'hypothèse que l'ADNmt est inséré dans la cassure double brin (DSB) via des machines de jonction d'extrémités non homologues. L'hypothèse s'avère largement acceptée. [27] Les analyses ultérieures étaient cohérentes avec l'implication de NHEJ dans l'intégration de NUMT chez l'homme. [5] Ces processus se produisent à la fois dans les cellules somatiques et germinales. Chez les animaux et les humains, cependant, la capacité de réparation du DSB dans les cellules germinales dépend du stade oogénétique et spermatogénétique. Néanmoins, en raison de la faible activité de réparation, les spermatozoïdes matures sont incapables de réparer le DSB. [1] [18] De plus, le DSB peut également être réparé par recombinaison homologue (HR), qui est plus précise et introduit moins d'erreurs dans le processus de réparation, alors que cela n'a pas encore été vu dans le processus d'insertion de l'ADNmt. [1] [18] En dehors du NHEJ canonique, les DSB sont réparés via un mécanisme qui implique des séquences contenant quelques nucléotides homologues aux extrémités d'un DSB à ligaturer. Ce mécanisme est connu sous le nom de jonction d'extrémité à médiation par microhomologie, abrégé en MMEJ. [1] MMEJ est le mécanisme de réparation DSB le plus mutagène en raison de la génération de délétions, d'insertions de différentes tailles et d'autres réarrangements du génome chez les mammifères. [1] Comme le montre la figure 3, les processus d'insertion de l'ADNmt et de réparation des DSB comprennent quelques étapes qui sont l'alignement des segments d'ADN, le traitement final de l'ADN, la synthèse de l'ADN et la ligature. [1] À chaque étape, certains complexes protéiques sont nécessaires pour faciliter la survenue des événements indiqués. Comme le montre la figure 3, dans NHEJ, le Ku70/Ku80 hétérodimère et protéine kinase dépendante de l'ADN (ADN-PK), pour rapprocher des fragments d'ADN, la nucléase d'Artémis et la polynucléotide kinase 3' phosphatase (PNKP) , pour le traitement final, les ADN polymérases de la famille X (Pol μ et Pol λ) et la désoxynucléotidyl transférase terminale (TdT) , pour la synthèse d'ADN, et XLF/XRCC4/LigIV complexe, pour compléter la réparation et joindre les extrémités via une liaison phosphodiester, sont les complexes protéiques impliqués dans le processus de réparation DSB dans de nombreux organismes supérieurs. [1] ADN polymérases (Pol μ et Pol λ) et XLF/XRCC4/LigIV complexes sont partagés entre deux machines de réparation NHEJ et MMEJ et ont la même responsabilité dans les deux processus de réparation. [1] La première étape de MMEJ se fait par WRN , Artémis, ADN-PK , et XRCC4 des complexes protéiques qui traitent les extrémités des fragments de DSB et d'ADNmt en plus de les aligner afin que les polymérases et les ligases puissent compléter l'insertion de NUMT (figure 3).

Modification post-insertion :Le schéma complexe de la NUMT par rapport à la pièce mitochondriale unique, l'apparition d'ADN mitochondrial non continu dans le génome nucléaire et, éventuellement, l'orientation différente de ces fragments sont la preuve des processus post-insertion de la NUMT dans le génome nucléaire. [5] La causalité de ces modèles complexes pourrait être le résultat de plusieurs insertions NUMT aux points chauds d'insertion. [5] De plus, la duplication après insertion contribue à la diversité NUMT. [1] Les NUMT n'ont pas de mécanisme d'auto-réplication ou de mécanisme de transposition. Par conséquent, la duplication NUMT devrait se produire en tandem ou impliquer une duplication segmentaire plus importante à des taux représentatifs du reste du génome. [33] Les preuves de duplications NUMT qui ne sont pas à proximité d'autres NUMT sont présentes dans de nombreux génomes et se produisent probablement dans le cadre d'une duplication segmentaire. [33] Cependant, les duplications de NUMT récentes spécifiques à l'homme dans le cadre de la duplication segmentaire semblent être rares chez l'homme, seules quelques NUMT se chevauchent avec la duplication segmentaire, et ces NUMT ont été trouvées dans une seule des copies alors qu'elles étaient manquantes. des autres, démontrant clairement que les NUMT ont été insérés à la suite des événements de duplication. [33] La suppression est une autre méthode de modification post-insertionnelle NUMT qui n'a pas encore été étudiée avec le même niveau de détail qu'une insertion. [5] L'érosion constante des signaux phylogéniques et le taux de mutation élevé dans l'ADNmt animal rendent difficile la reconnaissance d'une telle modification, en particulier la suppression. L'étude des cas dans lesquels le modèle de présence-absence des NUMT ne concorde pas avec l'arbre phylogénétique devrait permettre la détection des pertes récentes de NUMT grâce à l'utilisation de plusieurs alignements de génomes avec la présence d'un groupe externe. Bensasson et les membres de son équipe ont utilisé cette méthode pour estimer la plus ancienne NUMT insérée chez l'homme, qui datait d'environ 58 millions d'années. [33]

Comme le nombre de mitochondries et leur niveau fonctionnel diffèrent selon les organismes eucaryotes, la longueur, la structure et la séquence des NUMT varient considérablement. [26] Les chercheurs ont découvert que les récentes insertions NUMT sont dérivées de différents segments du génome mitochondrial, y compris la boucle D et, dans certains cas extrêmes, un certain nombre, presque, du génome mitochondrial complet. [10] [13] La séquence, la fréquence, la distribution de taille, [10] et même les difficultés de trouver ces séquences dans le génome varient considérablement d'une espèce à l'autre. [1] [5] La majorité des fragments d'ADN transférés des mitochondries et des plastes dans le génome nucléaire ont une taille inférieure à 1 kb. [1] [13] Pourtant, des fragments extrêmement grands d'ADN d'organite se trouvent dans certains génomes de plantes. [5]

Au fur et à mesure que le génome évolue et se modifie au fil du temps par mutation, le nombre de NUMT dans le génome diffère au cours de l'évolution. [5] NUMT pénètre dans le noyau et s'insère dans l'ADNn à différentes étapes du temps. En raison de la mutation constante et de l'instabilité de la NUMT, la ressemblance de cette extension du génome avec l'ADNmt varie considérablement à travers le royaume Animalia et même au sein d'un certain génome. [1] [5] Par exemple, le dernier nombre de NUMT enregistré dans le génome humain est de 755 fragments qui vont de 39 pb à presque toute la séquence mitochondriale en taille. [13] Il existe 33 séquences paralogues avec plus de 80 % de similarité de séquence et d'une longueur supérieure à 500 pb. [34] De plus, tous les fragments NUMT dans le génome ne sont pas le résultat de la migration de l'ADNmt, certains sont le résultat d'une amplification après insertion. [13] Les anciens NUMT sont plus abondants dans le génome humain que les intégrants récents, ce qui indique que l'ADNmt peut être amplifié une fois inséré. [13] Dayama et al. développé une nouvelle technique à haut rendement pour la détection exacte du nombre de NUMT dans le génome humain appelée dinum. [13] Cette méthode lui permet, ainsi qu'aux membres de son équipe, d'identifier les insertions NUMT, de toutes tailles, dans l'ensemble des génomes séquencés à l'aide d'une technologie de séquençage appariée avec une plus grande sensibilité. ils ont appliqué dinum à 999 individus du projet 1000 génomes et du projet sur la diversité du génome humain (HGDP) et a mené une analyse d'enrichissement mise à jour chez l'homme à l'aide de ces insertions polymorphes. [13] Une enquête plus approfondie et le génotypage du NUMT découvert analysent également l'âge d'insertion, l'origine et les caractéristiques de séquence. Enfin, ils ont évalué leur impact potentiel sur les études en cours sur l'hétéroplasmie mitochondriale. [13]

Comme mentionné précédemment, l'ADNmt n'est inséré dans le génome nucléaire que lorsqu'un DSB est produit par des facteurs dommageables endogènes ou exogènes. [1] Cependant, l'ADNmt n'est inséré à aucun endroit du génome. [12] De plus, il n'y a pas de corrélation entre la fraction d'ADN non codant et l'abondance de NUMT [10] [11] [12] De plus, Antunes et Ramos ont constaté que les anciens NUMT sont insérés préférentiellement dans les loci connus et prédits, comme cela est déduit pour NUMTs récents dans le génome humain, au cours de leurs travaux vigoureux sur la séquence NUMT chez les poissons en utilisant la méthode d'analyse BLASTN. [26] Par conséquent, sur la base de ces études, l'insertion de NUMT dans le génome nucléaire s'avère non aléatoire. L'une des meilleures études prouvant la distribution et l'insertion non aléatoire des NUMT dans le génome nucléaire est réalisée par Tsuji et ses coéquipiers. [12] En utilisant la méthode LAST au lieu de BLAST, qui permet de calculer la valeur E avec une plus grande précision et ne sous-représente pas les éléments répétitifs dans les flancs NUMT, Tsuji et son coéquipier sont devenus capables de caractériser avec précision l'emplacement de l'insertion NUMT. [12] Ils ont découvert que les fragments NUMT ont tendance à être insérés dans les régions avec une courbure ou une pliabilité locale élevée de l'ADN et des oligomères riches en A+T, en particulier TAT. [12] [13] De plus, les NUMT sont principalement insérés dans les régions ouvertes de la chromatine. [12] En utilisant la même méthode, Tsuji a montré que les NUMT ne sont généralement pas regroupés et que les NUMT produits par la boucle D sont généralement sous-représentés, ce qui est plus évident chez le singe et l'homme que chez le rat et la souris en raison de la longueur totale de leur NUMT. [12] Cependant, Tsuji a également constaté que la structure du rétrotransposon est fortement enrichie dans les flancs du NUMT et que la plupart des NUMT sont insérés à proximité du rétrotransposon, tandis que seuls quelques-uns, 10 sur 557 NUMT, ont été insérés dans un rétrotransposon, ils n'ont pu trouver aucune relation claire. la taille de l'ADN non codant et le nombre de NUMT. [12]

Les NUMT ne sont pas totalement dépourvus de fonction et certaines fonctions leur sont associées. [1] Bien que l'insertion de NUMTs ait été précédemment considérée comme des pseudogènes sans fonction, les NUMTs humains récents se sont avérés être un processus potentiellement mutagène qui pourrait endommager l'intégrité fonctionnelle du génome humain. [26] L'accumulation de mutation dans NUMT, altération post-insertionnelle, mécanisme mutagène d'insertion NUMT, MMEJ et NHEJ, DSB, ainsi que l'endroit où se situe le point chaud d'insertion peut provoquer une mutation et des altérations dramatiques de la structure du génome à le site d'intégration, interfèrent avec la fonction du génome et exercent des effets substantiels sur l'expression de l'information génétique. [1] De plus, l'intégration des séquences d'ADNmt affecte considérablement l'organisation spatiale de l'ADNn et peut jouer un rôle important dans l'évolution des génomes eucaryotes. [1] En plus de l'effet négatif de l'ADNmt, ces anciens NUMT conservés dans le génome sont susceptibles de représenter des succès évolutifs et ils devraient être considérés comme un mécanisme évolutif potentiel pour l'amélioration des régions codantes génomiques. [26] De plus, Chatre et Ricchetti, avec l'utilisation de l'électrophorèse sur gel bidimensionnelle, de la construction plasmidique, de la mutagenèse, dans une analyse sillico des motifs ACS et du dosage du taux de perte de plasmides, ont constaté que les ADN mitochondriaux migrateurs peuvent avoir un impact sur la réplication de la région nucléaire dans laquelle ils sont insérés. [15] Grâce à leurs preuves fonctionnelles, ils ont montré que des séquences d'origine mitochondriale favorisent la réplication de l'ADNn dans Saccharomyces cerevisiae . Les NUMT sont une séquence consensus (ACS) de noyau A ARS riche de 11 pb, que sa présence dans les correspondances avec ces motifs consensus, dans le Saccharomyces cerevisiae origine de réplication, est nécessaire mais pas suffisant pour la fonction d'origine de réplication et toute mutation dans ce consensus provoque la réduction ou la perte de l'activité de réplication de l'ADN. [15] Compte tenu de la forte densité de motifs ACS, certains NUMT apparaissent essentiellement comme des porteurs d'ACS. [15] En revanche, l'efficacité de réplication est plus élevée dans les souches de levure qui ont des plasmides contenant à la fois NUMT et ARS. [15] Ils ont également constaté que certains NUMT peuvent fonctionner comme une fourche de réplication indépendante et que les origines chromosomiques tardives et les NUMT situés à proximité ou à l'intérieur de l'ARS fournissent des éléments de séquence clé pour la réplication. Ainsi, les NUMT peuvent agir en tant qu'origines indépendantes, lorsqu'elles sont insérées dans un contexte génomique approprié ou affecter l'efficacité d'origines préexistantes. [15]

Maladie et troubles : L'insertion du NUMT dans le génome peut être problématique. La transposition des NUMT dans le génome a également été associée à des maladies humaines. [13] [14] [15] L'intégration de novo des pseudogènes NUMT dans le génome nucléaire a un effet néfaste dans certains cas, favorisant divers troubles et vieillissement. [1] L'intégration de l'ADNmt dans les gènes codants dans les cellules germinales a des conséquences dramatiques pour le développement de l'embryon et, dans de nombreux cas, est mortelle. [1] Peu de pseudogènes NUMT associés aux maladies se trouvent dans les exons ou aux limites exon-intron des gènes humains. [1] Par exemple, les patients atteints du syndrome de mucolipidose héritent d'une mutation causée par l'insertion d'un fragment de 93 pb de ND5 mitochondrial dans l'exon 2 du gène de la mucolipine R403C. Il s'agit du premier cas de maladie héréditaire due à l'insert NUMT. [1] Malgré le petit groupe de traitement, la greffe de cellules souches s'est avérée efficace et les niveaux d'enzymes lysosomales semblaient se normaliser après la greffe dans au moins un cas. [35] Le syndrome de Pallister-Hall, un trouble du développement, dans un autre exemple, où un trouble fonctionnel d'un gène clé du développement résulte d'un de novo insertion d'un fragment d'ADNmt de 72 pb dans GLI3 exon 14 dans le chromosome 7, [1] qui entraîne une polydactylie centrale et postaxiale, une épiglotte bifide, une imperforation de l'anus, des anomalies rénales dont des malformations kystiques, une hypoplasie rénale, une implantation urétérale ectopique et des anomalies de segmentation pulmonaire telles que des poumons bilobés bilatéraux. [36] Une mutation du site d'épissage dans le gène humain du facteur plasmatique VII qui provoque un déficit sévère en facteur plasmatique VII, une maladie hémorragique, résulte d'une insertion NUMT de 251 pb. [5] Comme dernier exemple connu, une insertion de 36 pb dans l'exon 9 du gène USH1C associé au syndrome d'Usher de type IC est le NUMT. [5] Aucune malédiction certaine n'a encore été trouvée pour le syndrome d'Usher, cependant, une étude clinique en cours sur 18 volontaires est en cours pour déterminer l'influence d'UshStat à la fois à court et à long terme. Cette étude a débuté en septembre 2013 et devrait être achevée d'ici octobre 2023. [37]

Vieillissement: Plusieurs études ont indiqué que l'apparition de novo de pseudogènes NUMT dans le génome des cellules somatiques peut avoir une importance étiologique pour la cancérogenèse et le vieillissement. [1] [13] Pour montrer la relation entre le vieillissement et la NUMT dans le génome nucléaire, Cheng et Ivessa ont utilisé yme1-1 souches mutantes de Saccharomyces Cerevisiae qui ont un taux plus élevé de migration d'ADNmt. [38] La méthode est exactement la même que celle utilisée par Thorsness et Fox pour déterminer les mécanismes et facteurs importants pour la migration de l'ADNmt dans le noyau. [29] [38] Ils ont découvert que les souches de levure avec des taux de migration élevés de fragments d'ADNmt vers le noyau présentaient un vieillissement chronologique accéléré, tandis que les souches avec des taux de transfert d'ADNmt réduits vers le noyau présentaient une durée de vie chronologique CLS prolongée [38] qui pourrait être dû à l'effet de la NUMT sur les processus nucléaires, y compris la réplication, la recombinaison et la réparation de l'ADN ainsi que la transcription des gènes. [15] [38] L'effet de NUMT sur les organismes eucaryotes supérieurs a été étudié par Caro et ses coéquipiers chez les rats en tant qu'organisme modèle. À l'aide d'une quantification PCR en temps réel, d'une hybridation in situ de l'ADNmt à l'ADNn et de la comparaison de rats jeunes et âgés, Caro et son équipe ont non seulement pu déterminer la concentration élevée de cytochrome oxydase III et d'ARNr 16S de l'ADNmt chez les rats jeunes et âgés. , mais ils pourraient également découvrir l'augmentation du nombre de séquences mitochondriales dans l'ADNn à mesure que le rat vieillit. [39] Ainsi, sur la base de ces résultats, les mitochondries peuvent être un déclencheur majeur du vieillissement, mais la cible finale pourrait également être le noyau. [38] [39]

Cancer: L'impact le plus terrible de l'insertion NUMT se produit lorsque l'ADNmt est inséré dans la région régulatrice ou les gènes de structure nucléaire et perturbe ou modifie les processus cellulaires vitaux. [1] [31] Par exemple, dans les néoplasmes cérébraux primaires de bas grade, l'analyse d'hybridation in situ fluorescente a aidé à la reconnaissance de l'ADNmt localisé dans le noyau en corrélation avec une augmentation globale de la teneur en ADNmt dans la cellule. [40] Cet événement ontogéniquement précoce est important dans l'étiologie de ces tumeurs. [40] De même, dans les cellules d'hépatome, les séquences d'ADNmt sont présentes dans le génome nucléaire à un nombre de copies plus élevé, contrairement aux tissus normaux. [18] [31] Un autre exemple serait l'ADNn HeLa qui contient des séquences qui s'hybrident avec des fragments d'ADNmt d'environ 5 kb. Une analyse a montré que l'ADNn des cellules malignes contient des séquences de la mitochondrie cytochrome oxydase I, ND4 , ND4L , et les gènes de l'ARNr 12S. [18] Sur la base de ces résultats, les fragments d'ADNmt ont été supposés agir comme un élément génétique mobile dans l'initiation de la cancérogenèse. [1] Le Southern blot est la méthode utilisée pour déterminer la fréquence d'insertion mitochondriale dans l'ADNn des cellules normales et tumorales de souris et de rats, ce qui a prouvé que les séquences d'ADNmt sont beaucoup plus nombreuses et abondantes dans l'ADNn des cellules tumorales de rongeurs en comparaison avec des cellules normales. [1] En utilisant des sondes FISH, la PCR et le séquençage, la cartographie et la comparaison des données, Ju et son coéquipier ont découvert que les fusions du génome mitochondrial-nucléaire se produisent à un taux similaire par paire de bases d'ADN que les réarrangements nucléaires interchromosomiques, indiquant la présence d'une fréquence élevée de contact entre l'ADN mitochondrial et nucléaire dans certaines cellules somatiques. [18] De plus, Ju et ses coéquipiers ont étudié le moment de l'intégration de l'ADNmt somatique dans le génome nucléaire en évaluant les cas dans lesquels un échantillon métastatique avait été séquencé en plus de la tumeur primaire. [18] Dans certains cas, les transferts d'ADNmt dans le noyau des cellules somatiques sont très fréquents et peuvent survenir après la formation néoplasique et au cours de l'évolution sous-clonale du cancer, ce qui suggère que cet événement se produit dans les clones cancéreux ancestraux communs ou dans les cellules somatiques normales. avant le changement néoplasique. [18] Ces résultats ont démontré que la présence d'une corrélation directe entre le NUMT et le cancer dans différents organes du corps. [16] [18] Comprendre la relation, le moment de l'insertion NUMT, l'emplacement de l'insertion et les gènes perturbés aideraient à produire une médecine plus puissante et efficace. [5]

Bien que la compréhension de l'insertion non aléatoire de la NUMT et la réalisation de certaines fonctions après l'insertion aident à révéler la structure et à déterminer la fonction complète du génome, en particulier du génome humain, les NUMT ont été utilisées comme outils expérimentaux et ont été bénéfiques dans différents domaines biologiques, même avant d'avoir des connaissances sur la fonction des NUMT. [16] Par exemple, les NUMT peuvent être utilisées non seulement comme marqueurs génétiques, mais aussi comme outil pour comprendre le taux relatif de mutation dans le noyau et les mitochondries ainsi que pour recréer des arbres évolutifs. [16] Le processus continu d'intégration de NUMT dans le génome nucléaire est mis en évidence par la découverte de NUMT qui ont été insérés dans le génome humain après la divergence homme-chimpanzé. [14] Certains de ces NUMT sont variables en ce qui concerne la présence ou l'absence génomique, indiquant qu'ils ne sont apparus que récemment dans la population humaine, ce qui leur permet d'être utilisés comme marqueurs génétiques de la lignée. [14] En utilisant un protocole basé sur l'alignement du génome pour estimer le nombre de NUMT dans des espèces étroitement apparentées, Hazkani-Covo et Graur ont non seulement pu identifier les événements évolutifs qui ont pu affecter la composition de NUMT dans chaque génome, mais ont également pu reconstruire la composition de NUMT dans le ancêtre commun de l'homme et du chimpanzé. [14] Les NUMT peuvent également être utilisés pour comparer le taux d'évolution des séquences nucléaires non fonctionnelles à celui de l'ADNmt fonctionnel et déterminer le taux d'évolution par le taux d'accumulation de mutations le long des séquences NUMT au fil du temps. Les régions les moins sélectivement contraintes sont les segments avec le plus de divergence par rapport à la séquence mitochondriale. [14] [16] L'une des applications les plus prometteuses de l'étude NUMT est son utilisation dans l'étude de la mutation nucléaire. [16] Chez les métazoaires, les NUMT sont considérés comme non fonctionnels. Par conséquent, les mutations nucléaires peuvent être distinguées des modifications mitochondriales et l'étude de la substitution, de l'insertion et de la suppression de nucléotides serait possible. De plus, l'homologie des séquences NUMT paralogues avec l'ADNmt permet de tester les effets des séquences locales sur la mutation. [16] Toutes ces informations obtenues à partir de l'étude des fragments NUMT pourraient être utilisées pour comprendre l'évolution mitochondriale ainsi que les processus évolutifs tout au long de l'histoire. [1] [5] [16]

Les NUMT offrent l'opportunité d'étudier la diversité ancienne des lignées mitochondriales et de découvrir l'hybridation interspécifique préhistorique. Des hybridations anciennes ont d'abord été détectées (à l'aide de NUMTs) dans les queues de soie, [41] puis chez les singes colobines, [42] et, plus récemment, chez un ancêtre humain direct. L'hybridation des hominidés s'est produite à peu près au moment de la séparation homme/chimpanzé/gorille. [43] Cette dernière étude concerne un NUMT humain partagé avec le chimpanzé et le gorille. La phylogénie conjointe des trois séquences NUMT et des génomes mitochondriaux des grands singes implique qu'un ancêtre commun des trois NUMT a été transféré à la lignée humaine/chimpanzé/gorille d'une espèce d'hominidé séparée d'eux par environ 4,5 millions d'années d'évolution de l'ADNmt.Alors qu'une hybridation de cette ampleur n'est pas inconnue chez les primates, son apparition dans la lignée humaine directe, vers le moment critique de la spéciation homme/singe, est un résultat surprenant. Des NUMT supplémentaires avec des phylogénies similaires indiquent que de tels événements peuvent ne pas être uniques.

Un autre problème est survenu de la présence de NUMT dans le génome associée à la difficulté de conclure le nombre exact d'insertions mitochondriales dans l'ADNn. Déterminer le nombre exact de pseudogènes NUMT pour une espèce est une tâche difficile pour plusieurs raisons. [1] Une des raisons qui rend la détection des séquences NUMT plus difficile est l'altération de ces séquences par mutation et délétion. [5] Deux autres obstacles substantiels rendent la reconnaissance de NUMT très difficile, tout d'abord le manque de corrélation entre la proportion d'ADNn non codant et le nombre d'inserts NUMT dans le génome nucléaire. [1] C'est-à-dire que l'insertion de NUMT pourrait se produire dans la région codante connue ou prédite, à la fois l'intron et l'exon, plutôt que seulement dans la région intergénique et intronique. [12] [26] Deuxièmement, l'ADN mitochondrial intégré dans les génomes nucléaires animaux est principalement limité aux animaux avec des génomes mitochondriaux circulaires sans introns. [23] Les études NUMT ne sont pas disponibles chez les animaux avec des génomes mitochondriaux linéaires ou ceux avec des mitochondries contenant des introns. Par conséquent, malgré toutes les technologies avancées disponibles, il reste à déterminer s'il existe des différences de transposition NUMT entre les ADNmt circulaires et linéaires. [23]

Ces difficultés à détecter la présence de NUMT peuvent être problématiques. Les séquences mitochondriales transloquées dans le génome nucléaire ont le potentiel d'être amplifiées en plus, ou même à la place, de la séquence d'ADNmt cible authentique qui peut sérieusement confondre les analyses génétiques et phylogénétiques de la population puisque l'ADNmt a été largement utilisé pour la cartographie de la population, les études évolutives et phylogéniques , identification d'espèces par code-barres ADN, diagnostic de diverses pathologies et médecine légale. [1] [25] Cette amplification simultanée de NUMT avec de l'ADNmt extrachromosomique libre, en outre, empêche de déterminer le nombre exact de fragments de NUMT dans le génome de différents organismes, tels que Aedes aegypti les moustiques, [25] en particulier ceux dans lesquels une translocation étendue de fragments d'ADNmt se produit. Cela rend le diagnostic de certains troubles mitochondriaux difficile. [1] Par exemple, un grand pseudogène NUMT a été trouvé sur le chromosome 1, tandis qu'une analyse plus récente de la même séquence a conduit à la conclusion que l'ADNmt des spermatozoïdes a des mutations qui entraînent une faible mobilité des spermatozoïdes. [1] [44] Un autre exemple serait le rapport récent décrivant une molécule d'ADNmt hétéroplasmique contenant cinq mutations faux-sens liées dispersées sur les gènes contigus d'ADNmt CO1 et CO2 chez des patients atteints de la maladie d'Alzheimer, [45] cependant, les études les plus récentes utilisant la PCR, la restriction Les tests de variantes de sites d'endonucléase et l'analyse phylogénique ont proposé que les séquences nucléaires CO1 et CO2 ont révélé qu'elles divergeaient des ADNmt humains modernes au début de l'évolution des hominidés environ 770 000 ans auparavant et que ces NUMT préservés pourraient provoquer la maladie d'Alzheimer. [1] [45] L'un des moyens possibles d'éviter un tel résultat erroné est une amplification et une comparaison de séquences hétérogènes, comprenant à la fois l'ADNmt et l'ADNn, avec les résultats obtenus par le séquençage Sanger de l'ADNmt purifié et enrichi comme le montre la figure 4. [25] [34] Bien que cette méthode soit facile et que seules quelques amorces soient nécessaires, elle évitera une erreur substantielle dans les études phylogénétiques d'une population et tous les faux résultats mentionnés précédemment.


2. Matériel et méthodes

Les poux ont été collectés sur des chimpanzés (Pan troglodytes schweinfurthii) du sanctuaire des chimpanzés de l'île de Ngamba lors des bilans de santé annuels. L'ADN génomique total a été extrait en broyant cinq spécimens femelles adultes du pou du chimpanzé (P. schaeffi) dans 300 µl d'EDTA salin avec 5 µl de lysozyme, en incubant à 37ଌ pendant 1 h. Les 5 µl de protéinase K et 10 µl de solution à 25 % de SDS ont été ajoutés et incubés à 55ଌ pendant 1 h. Après incubation, 1 : 1 volumes de phénol : chloroforme ont été ajoutés à la solution. Le mélange a été centrifugé (10 min à 13 000g) et 200 µl de chloroforme ont été ajoutés à la couche aqueuse et centrifugés (5 min à 13 000g). Le surnageant a été combiné avec 1/10 de volume d'acétate de sodium 3 M et 0,7 volume d'isopropanol et placé dans �ଌ pendant 2 h. L'ADN a été sédimenté par centrifugation pendant 15 min à 13 000g à 4ଌ. Le surnageant a été retiré et l'ADN lavé dans de l'éthanol à 80 % froid et remis en suspension dans de l'eau sans nucléase. Des spécimens de référence supplémentaires sont conservés à l'Université de Floride.

Une bibliothèque de fusils de chasse de 500 pb a été construite à l'aide de cet extrait et séquencée à l'aide de lectures de paires sur une seule voie d'un analyseur Illumina HighSeq2000 avec des lectures de 100 pb. Séquences brutes du pou du chimpanzé (P. schaeffi) sont déposés dans GenBank Short Read Archive (accession SRX390495). Nous avons recherché dans OrthoDB (http://cegg.unige.ch/orthodb6, [16]) des gènes qui sont des orthologues à copie unique 1 : 1 : 1 entre humains (Homo sapiens), chimpanzé commun (Pan troglodytes) et les poux du corps humain (P. humanus). Cette recherche initiale a permis de récupérer 3026 orthologues potentiels. Nous avons utilisé CLC Genome Workbench (CLCbio) pour assembler les lectures Illumina pour le pou du chimpanzé contre les séquences d'ADN codantes des 3026 orthologues du pou du corps humain (P. humanus) génome [15] dans VectorBase (https://www.vectorbase.org). En plus des séquences protéiques d'OrthoDB, nous avons également récupéré des séquences d'ADN codant pour les 3026 orthologues putatifs pour les humains et les chimpanzés de la base de données Ensembl [17].

Comme vérification supplémentaire de l'orthologie, nous avons utilisé une recherche BLAST (NCBI Blast 2.2.27) des gènes de chimpanzé par rapport à la base de données de séquences de protéines humaines (de l'Ensembl). Nous avons également effectué une recherche BLAST des assemblages de pou de chimpanzé par rapport à la base de données de protéines pour pou de corps humain (de VectorBase). Seuls les gènes pour lesquels le meilleur résultat BLAST correspondait à l'orthologue putatif d'OrthoDB ont été inclus dans les analyses ultérieures (1724 gènes). Les séquences de gènes d'humains et de chimpanzés et de poux du corps humain et de poux de chimpanzés ont été alignées par paires dans le muscle [18]. Dans 164 gènes, des codons stop ont été détectés dans le Pan troglodytes séquences et dans 11 cas des codons stop ont été détectés dans le P. schaeffi séquences. Ces gènes ont été retirés des analyses ultérieures. Un test statistique pour les valeurs aberrantes utilisant Z- les scores de valeur ont été effectués sur les valeurs de pourcentage de divergence (voir ci-dessous), et après correction de Bonferroni, 11 gènes ont été déterminés comme étant des valeurs aberrantes pour les humains/chimpanzés et trois gènes pour les poux. Ces valeurs aberrantes ont été supprimées, laissant un ensemble de données final de 1534 gènes orthologues (alignement déposé dans Dryad doi:10.5061/dryad.9fk1s).

Pour chacun des 1534 loci orthologues, nous avons utilisé des scripts Perl personnalisés (déposés dans GitHub, www.github.com/juliema/publications) pour calculer le pourcentage de divergence de séquence non corrigé entre les humains et les chimpanzés et entre le pou du corps humain et le pou du chimpanzé. Ces séquences d'ADN ont également été traduites en séquences de protéines et les mêmes comparaisons ont été effectuées. Ces comparaisons n'incluent aucun site dans lequel des lacunes ont été introduites en raison de l'alignement. En outre, m et s les valeurs ont été calculées pour toutes ces comparaisons en utilisant le programme codeml dans le package PAML (v. 4.4b, [19]) et les calculs de Nei & Gojobori de m et s [20]. Pour estimer le taux relatif à l'échelle du génome, tous les sites ont été regroupés pour chaque espèce à travers les gènes et la divergence moyenne des séquences à l'échelle du génome a été calculée en divisant le nombre total de substitutions par le nombre total de sites. Toutes les analyses statistiques de ces valeurs ont été effectuées dans le progiciel de statistiques R [21].

Pour estimer les taux relatifs de divergence de séquence pour les gènes mitochondriaux, les génomes mitochondriaux pour les humains, les chimpanzés et P. humanus ont été téléchargés depuis GenBank. En raison des divergences extrêmement élevées entre P. humanus et P. schaeffi, les assemblys basés sur des références n'ont pas pu être utilisés. Au lieu de cela, nous avons utilisé une combinaison de Target Restricted Assembly [22] et de recherches BLAST d'un assemblage de génome partiel de novo de P. schaeffi construit à l'aide de SOAP denovo [23] pour obtenir des séquences de gènes codant pour les protéines mitochondriales de P. schaeffi. Les séquences de deux gènes courts (ATPase8 et ND4L) n'ont pas pu être récupérées à l'aide de ces méthodes. Les séquences des 11 gènes récupérés ont été alignées sur les séquences de P. humanus et les distances génétiques et les taux relatifs calculés de la même manière que pour les gènes nucléaires.


Informations sur l'auteur

Ces auteurs ont contribué à parts égales : Ekaterina Yonova-Doing, Claudia Calabrese.

Ces auteurs ont conjointement supervisé ce travail : Patrick F. Chinnery, Joanna M. M. Howson.

Affiliations

Unité d'épidémiologie cardiovasculaire de la British Heart Foundation, Département de santé publique et de soins primaires, Université de Cambridge, Cambridge, Royaume-Uni

Ekaterina Yonova-Doing, Savita Karthikeyan et Joanna M. M. Howson

Département de génétique, Novo Nordisk Research Centre Oxford, Oxford, Royaume-Uni

Ekaterina Yonova-Doing & amp Joanna M. M. Howson

Département de neurosciences cliniques, École de médecine clinique, Université de Cambridge, Cambridge, Royaume-Uni

Claudia Calabrese, Aurora Gomez-Duran, Katherine Schon, Wei Wei et Patrick F. Chinnery

Medical Research Council Unité de biologie mitochondriale, Université de Cambridge, Cambridge, Royaume-Uni

Claudia Calabrese, Aurora Gomez-Duran, Katherine Schon, Wei Wei et Patrick F. Chinnery

Centro de Investigaciones Biológicas « Margarita Salas », Consejo Superior de Investigaciones Científicas (CIB-CSIC), Madrid, Espagne