Informations

10.1 : Certaines variations du génome affectent des traits complexes - Biologie


Imaginez que vous puissiez comparer la séquence complète d'ADN génomique de deux personnes que vous rencontrez aujourd'hui. Bien que leurs séquences soient très similaires dans l'ensemble, elles ne seraient certainement pas identiques à chacune des 3 milliards de positions de paires de bases que vous avez examinées (à moins, peut-être, que vos sujets soient des jumeaux identiques - mais même s'ils peuvent avoir des différences somatiques). En fait, les séquences génomiques de presque deux personnes non apparentées diffèrent à des millions de positions de nucléotides. D'autres peuvent affecter la quantité de transcription qui est faite pour un gène particulier. La santé, l'apparence, le comportement et d'autres caractéristiques d'une personne dépendent en partie de ces polymorphismes.

Cependant, la plupart des différences n'ont aucun effet. Ils n'ont aucun effet sur les séquences ou l'expression des gènes, car ils se produisent dans des régions de l'ADN qui ne codent pas pour les protéines et ne régulent pas l'expression des gènes. Ces polymorphismes sont néanmoins très utiles car ils peuvent être utilisés comme marqueurs moléculaires en médecine, médecine légale, écologie, agriculture et bien d'autres domaines. Dans la plupart des situations, les marqueurs moléculaires obéissent aux mêmes règles d'hérédité que nous avons déjà décrites pour d'autres types de loci, et peuvent donc être utilisés pour créer des cartes génétiques et identifier des gènes liés.


Prédiction épigénétique des traits complexes et de la mort

Le profilage de la méthylation de l'ADN à l'échelle du génome (DNAm) a permis le développement de prédicteurs moléculaires pour une multitude de traits et de maladies. De tels prédicteurs peuvent être plus précis que les phénotypes autodéclarés et pourraient avoir des applications cliniques.

Résultats

Ici, des modèles de régression pénalisés sont utilisés pour développer des prédicteurs ADNm pour dix facteurs modifiables de santé et de mode de vie dans une cohorte de 5 087 individus. À l'aide d'une cohorte de test indépendante comprenant 895 individus, la proportion de variance phénotypique expliquée dans chaque trait est examinée pour les prédicteurs génétiques et basés sur l'ADNm. Des courbes caractéristiques de l'opérateur récepteur sont générées pour étudier les performances prédictives des prédicteurs basés sur l'ADNm, en utilisant des phénotypes dichotomisés. La relation entre les scores DNAm et la mortalité toutes causes confondues (m = 212 événements) est évalué via des modèles de risques proportionnels de Cox. On montre que les prédicteurs ADNm pour le tabagisme, l'alcool, l'éducation et le rapport taille-hanches prédisent la mortalité dans des modèles multivariés. Les prédicteurs montrent une discrimination modérée de l'obésité, de la consommation d'alcool et du cholestérol HDL. Il existe une excellente discrimination du statut tabagique actuel, une plus faible discrimination entre les individus ayant fait des études universitaires et ceux ayant un taux de cholestérol total élevé, des taux de cholestérol LDL avec un cholestérol résiduel et des ratios de cholestérol total:HDL.

Conclusion

Les prédicteurs de l'ADNm sont en corrélation avec les facteurs liés au mode de vie qui sont associés à la santé et à la mortalité. Ils peuvent compléter les prédicteurs de l'âge basés sur l'ADNm pour identifier les profils de mode de vie des individus et prédire le risque de maladie.


Le génome de votre partenaire peut affecter votre santé

Catherine Offord
5 janvier 2021

CI-DESSUS : MODIFIÉ À PARTIR DE © ISTOCK.COM, TUADESK

La santé et le mode de vie des gens sont influencés par les gènes de leurs partenaires, selon une étude publiée le mois dernier (14 décembre) dans Nature Comportement Humain. En utilisant les données de plus de 80 000 couples de la UK Biobank, les chercheurs ont identifié de multiples corrélations entre les traits des individus et les génomes de leurs partenaires, et ont conclu qu'environ un quart de ces associations étaient en partie causales, l'ADN d'une personne ayant des effets indirects sur l'autre. la santé ou le comportement de la personne.

« J'étais vraiment ravie de voir cet article », déclare Emily McLean, biologiste de l'évolution à l'Oxford College de l'Université Emory en Géorgie, qui n'a pas participé aux travaux. « Intuitivement, il semble que, bien sûr, nos comportements soient influencés par les individus qui nous entourent, et probablement par les gènes que ces individus portent. C’était donc vraiment formidable de voir un soutien empirique à cette idée intuitive. »

Contrairement aux effets génétiques directs, qui reflètent l'influence de vos propres gènes sur votre phénotype, les effets génétiques indirects sont une forme d'influence environnementale, entraînée par les traits génétiques des personnes qui vous entourent. Dans un exemple hypothétique simple, une personne génétiquement prédisposée à fumer pourrait augmenter le risque de cancer du poumon de son partenaire en l'exposant à la fumée de cigarette ou en l'encourageant à fumer davantage.

Voir « Au-delà du schéma directeur »

Plusieurs études ont fourni des preuves de ces effets indirects sur des populations animales non humaines, et quelques études sur des traits spécifiques chez l'homme, y compris la propension des écoliers à fumer et leur niveau d'instruction, ont suggéré que les gens sont également affectés par la constitution génétique de leur pairs. Mais il n'a pas été clair à quel point ces effets sont répandus dans les relations humaines, ni si les associations elles-mêmes sont causales plutôt que corrélationnelles.

Dans la présente étude, Charley Xia, Albert Tenesa et leurs collègues de l'Université d'Édimbourg ont utilisé les données de 80 889 couples hétérosexuels d'ascendance européenne dont la variation génétique et les habitudes de santé et de mode de vie sont enregistrées dans la biobanque britannique. Les chercheurs ont sélectionné 105 traits complexes - ceux influencés par la variation de plusieurs gènes tels que la taille, le statut tabagique et la susceptibilité aux sautes d'humeur - et ont utilisé un modèle statistique pour rechercher de larges associations entre les traits de chaque individu et l'ADN de leur partenaire.

Des observations comme celle-ci illustrent la manière dont un large éventail d'environnements - dans ce cas, une autre personne avec qui vous avez choisi de partager votre vie - intercède entre le risque génétique avec lequel une personne est née et les résultats pour la santé que nous souhaitons protéger. eux de.

L'équipe a découvert qu'environ 50 pour cent de ces traits présentaient une certaine corrélation avec la constitution génétique du partenaire. Beaucoup de ces corrélations pourraient être dues à un accouplement assortatif, dit Xia. Par exemple, les gens peuvent être plus susceptibles de choisir des partenaires avec des traits similaires aux leurs, créant de fausses relations dans les données. La taille est un exemple typique d'un trait susceptible d'être corrélé dans les couples en raison de l'accouplement assortatif plutôt que d'effets génétiques indirects, ajoute-t-il.

Les chercheurs ont effectué des simulations informatiques de combinaisons mixtes d'individus dans leur ensemble de données pour voir s'ils pouvaient faire la distinction entre les associations dues à l'accouplement assortatif et celles dues à de véritables effets génétiques indirects. Ils ont conclu qu'environ 25 pour cent des associations impliquaient en effet au moins une causalité, c'est-à-dire que le génotype d'une personne avait un effet détectable sur le phénotype d'une autre personne.

Ces associations comprenaient plusieurs traits alimentaires, tels que la consommation de volaille et de bœuf autodéclarée, le temps passé à regarder la télévision, la susceptibilité aux sautes d'humeur et les habitudes tabagiques, bien que l'équipe n'ait pas exploré en détail des traits ou des gènes spécifiques. La taille n'a montré aucune preuve d'une relation causale à l'aide de cette analyse, dit Xia, augmentant la confiance du chercheur dans sa méthode.

Bien qu'il soit difficile de tirer des conclusions sur les traits individuels à partir de ce type d'analyse large, l'étude de l'équipe représente une preuve de concept selon laquelle les effets génétiques indirects peuvent être importants chez l'homme, explique Daniel Belsky, épidémiologiste à la Columbia University Mailman School of Public Health qui a été pas impliqué dans le travail. Il l'appelle une "application créative d'une grande et puissante base de données pour répondre à une question importante et ouverte en génétique comportementale".

Belsky ajoute que bien que les résultats "semblent globalement raisonnables", il reste des questions pour les études futures concernant la mesure dans laquelle les effets génétiques indirects peuvent être distingués de l'accouplement assortatif. « La conception que [les auteurs] utilisent est assez forte pour contrôler l'assortiment sur le trait analysé », note-t-il, mais elle est moins efficace « pour contrôler l'assortiment sur les traits qui sont génétiquement corrélés avec le trait analysé mais qui peuvent ne pas Être mesuré."

McLean dit qu'elle serait intéressée d'en savoir plus sur les mécanismes derrière les associations identifiées par l'équipe, et sur quels gènes chez une personne sont liés à quel trait chez l'autre. Elle prévient que certaines des données de la biobanque britannique utilisées dans l'étude sont autodéclarées et que les chercheurs devraient donc vérifier que les réponses reflètent avec précision les traits des personnes. Déterminer la direction des effets des gènes sur le comportement, c'est-à-dire si un trait particulier est positivement ou négativement associé à un génotype chez le partenaire, pourrait également être une prochaine étape intéressante du point de vue de l'évolution, ajoute McLean.

Xia note que pour bien comprendre les mécanismes responsables des effets identifiés par l'équipe, les chercheurs devraient se concentrer plus étroitement sur les traits individuels et utiliser des données sur les gènes et le mode de vie des mêmes personnes s'étalant sur de nombreuses années - un projet de suivi que certains des membres de l'équipe envisagent actuellement, ajoute-t-il.

De telles données sur les effets génétiques indirects pourraient un jour avoir des applications en santé publique, dit Belsky. « Il peut être possible, à mesure que les génomes deviennent une partie courante du dossier médical d'une personne, de fournir des conseils cliniques et des informations sur la gestion des risques aux patients en fonction des génotypes des partenaires », dit-il.

Plus immédiatement, l'étude est un rappel important de la complexité des relations génotype-phénotype, ajoute Belsky. «Des observations comme celle-ci. . . illustrent les façons dont un large éventail d'environnements - dans ce cas, une autre personne avec qui vous avez choisi de partager votre vie - intercèdent entre le risque génétique avec lequel une personne est née et les résultats pour la santé contre lesquels nous souhaitons la protéger. C'est un autre argument contre une interprétation déterministe du patrimoine génétique d'une personne, lorsque vous pensez au type de vie qu'elle va mener et au type de risques pour la santé qu'elle va avoir.

C. Xia et al., « Preuve d'effets génétiques indirects horizontaux chez l'homme », Nat Hum se comporte, doi: 10.1038/s41562-020-00991-9, 2020.


L'analyse de l'ADN mitochondrial révèle l'influence de la variation génétique sur des centaines de phénotypes

NEW YORK - Des variantes génétiques de l'ADN mitochondrial influencent de nombreux traits et maladies humains complexes, a révélé une nouvelle analyse.

Le génome mitochondrial est large de 16 569 paires de bases, et bien que les variantes génétiques qu'il contient soient connues pour affecter la fonction mitochondriale, leur effet sur les maladies courantes et complexes a été moins exploré. L'une des raisons est que les outils nécessaires pour analyser le génome mitochondrial n'ont pas été bien développés jusqu'à récemment, selon Joanna Howson, chercheuse à l'Université de Cambridge.

Elle et ses collègues ont mené une étude sur des centaines de milliers d'échantillons de la UK Biobank en utilisant des puces de génotypage comprenant 265 variantes d'ADNmt. À l'aide d'algorithmes et de procédures d'appel modifiés, Howson et ses collègues ont mené des études d'association à l'échelle du phénomène ADNmt pour près de 900 traits différents. Comme ils l'ont signalé dans Génétique de la nature Lundi, ils ont découvert des centaines de nouvelles associations ADNmt-phénotype, y compris celles affectant la fonction hépatique et la taille.

"Notre travail a décrit une nouvelle approche pour analyser le génome mitochondrial qui, nous l'espérons, sera utile à d'autres qui cherchent à étudier l'ADN mitochondrial dans des conditions complexes courantes", a écrit Howson dans un e-mail.

Dans le cadre de la UK Biobank, 488 377 individus ont subi un génotypage pour 265 mtSNV. Les chercheurs ont modifié les flux de travail de contrôle de la qualité existants pour gérer l'ensemble de données mtSNV et ont inclus une procédure en quatre étapes de pré-rappel QC, rappel manuel, post-rappel QC et imputation des mtSNV non inclus dans le tableau de génotypage. Au total, après QC et imputation, ils ont examiné 378 696 associations mtSNV-trait, englobant à la fois des traits binaires et quantitatifs, avec jusqu'à 473 mtSNV.

Grâce à cela, ils ont découvert 260 nouvelles associations mtSNV-trait, y compris avec la sclérose en plaques et le diabète de type 2, ainsi qu'avec des biomarqueurs hépatiques et la taille.

Par exemple, les chercheurs ont découvert de nouvelles associations entre une variante de MT-ATP6 et le diabète de type 2, et entre une variante de MT-ND5 et la sclérose en plaques.

Dans le même temps, les chercheurs ont lié 23 mtSNV à l'aspartate aminotransférase, ou AST, et neuf mtSNV à l'alanine aminotransférase, ou ALT, tous deux parmi les biomarqueurs classiques de la fonction hépatique. La variante principale associée à l'AST était liée à une augmentation des niveaux d'AST, tandis qu'une variante faux-sens de MT-CYB était associée à une réduction des niveaux d'ALT.

Howson a noté qu'ils s'attendaient à ce que les variantes mitochondriales affectent les maladies métaboliques, car les mitochondries sont un élément clé du métabolisme énergétique cellulaire. Comme le foie joue également un rôle dans le métabolisme, elle a ajouté que la découverte de liens entre l'ADN mitochondrial et les biomarqueurs de la fonction hépatique n'est pas inattendu.

Les chercheurs ont également découvert cinq mtSNV et une variante rare non codante liée à une taille réduite. Les variantes courantes étaient liées à une petite baisse de hauteur d'environ 0,8 millimètre, tandis que la variante rare était associée à une réduction de hauteur d'environ 4,3 millimètres.

"J'ai été surpris que nous ayons initialement observé un effet avec la hauteur", a déclaré Howson. Elle a ajouté, cependant, que "la taille étant un trait hautement polygénique et si l'on considère que certains patients atteints de maladies mitochondriales héréditaires rares ont tendance à avoir une taille plus courte, c'est peut-être moins surprenant".

À travers les traits, les chercheurs ont découvert que les mtSNV rares avaient tendance à avoir des effets plus importants que les variantes courantes. Par exemple, une variante courante de MT-ND3 était liée à un rapport de cotes de 1,15 pour la sclérose en plaques, tandis que les variantes rares de MT-ND5 et MT-TD avaient des rapports de cotes compris entre 1,65 et 2,06.

À terme, Howson et ses collègues espèrent mieux comprendre les interactions entre les génomes mitochondrial et nucléaire et leur influence sur la maladie. Cela, a-t-elle dit, "aiderait en fin de compte dans le développement futur de médicaments".


Comprendre les variations

La réponse à cette question a de larges implications allant de notre capacité à faire des prédictions sur le risque de maladie à partir du génotype, à notre capacité à identifier les moteurs de la variabilité interindividuelle, et notre compréhension du mode d'action de la toxicité. L'exploration de la contribution des interactions génotype-environnement (GxE) à la variation individuelle a été très difficile chez l'homme, où les études épidémiologiques explorant GxE sont généralement sous-alimentées, ont des difficultés à quantifier l'exposition environnementale. Pour résoudre ce problème, nous avons créé une nouvelle ressource communautaire pour étudier la base génétique de la variation de trait complexe dans Drosophila melanogaster composé de grandes populations synthétiques non consanguines. L'approche que nous décrivons nous permet de rompre avec les approches traditionnelles et souvent sous-alimentées qui reposaient sur des souches consanguines ou RIL. Avec cette nouvelle ressource communautaire polyvalente, nous pouvons élever des milliers de mouches génétiquement uniques tirées d'un pool génétique commun, les exposer à une gamme d'environnements différents et contraster les architectures génétiques qui en découlent.

Les données que nous avons recueillies au cours des deux dernières années indiquent que les différences de sensibilité individuelle émergent de la perturbation des systèmes de régulation où les individus plus sensibles au stress environnemental ont diminué la robustesse transcriptionnelle de nombreux gènes et que cette variation de robustesse est sous contrôle génétique. Nous avons développé un cadre analytique pour identifier les réseaux transcriptionnels dépendant du contexte et les polymorphismes qui contrôlent cette variation. L'impact des mutations qui affectent la sensibilité environnementale dépend fortement de l'interaction simultanée entre le fond génétique et le stress environnemental. Aussi importantes soient-elles, les interactions épistatiques associées à la variation de la pénétrance ont été notoirement difficiles à identifier. Nous développons actuellement des approches expérimentales et statistiques visant à cartographier et tester la contribution d'une telle interaction de la variation individuelle de la sensibilité environnementale.

Il est bien établi en génétique quantitative qu'une exposition environnementale stressante a tendance à augmenter la variance phénotypique d'une population, mais comment et pourquoi ?

C'est une question fondamentale pour tout biologiste intéressé à comprendre la base génétique de la variation des traits complexes. Bien que les études sur le développement, la morphologie et la sélection animale aient depuis longtemps noté l'hétérogénéité de la variance entre les génotypes, cet axe de variation a reçu peu d'attention par rapport à l'effet de la variation génétique sur les moyennes des caractères. Il existe maintenant des preuves claires de l'importance du contrôle génétique de la variance et que la variance elle-même est un trait quantitatif. Cela a des implications importantes à la fois en génétique médicale et en biologie évolutive. Si génétique différente? les origines diffèrent dans leur? propension à la variabilité phénotypique, alors les individus issus d'un fond génétique à haute variabilité peuvent présenter un phénotype extrême par hasard seul. Une propriété de ce génotype qui n'aurait pas été informée par les approches génétiques quantitatives traditionnelles axées sur la moyenne. Dans le contexte du changement évolutif, cela pourrait accélérer ou ralentir l'adaptation aux nouvelles conditions. En ce qui concerne la santé, cela pourrait entraîner des maladies, des changements de variance peuvent affecter la probabilité que les individus se retrouvent dans les queues de la distribution. Par conséquent, en se concentrant principalement sur l'effet de la variation génétique sur les moyennes des caractères et en ignorant son effet sur la variance, nous pouvons manquer un axe très important contribuant à la variation phénotypique.
Notre laboratoire explore ce problème à la fois dans une perspective évolutive en se demandant : dans quel scénario le contrôle de la variance pourrait-il évoluer ? Quelles forces évolutives maintiennent la variation des allèles contrôlant la variabilité phénotypique ? Et d'un point de vue médical : comment le contrôle de la variance affecte-t-il notre capacité à faire des prédictions du génotype au phénotype ? La présence d'allèles augmentant la variance augmente-t-elle la probabilité qu'un individu se trouve dans la queue de la distribution ?
Collaborateurs:
Dynamique évolutive de la variabilité
Laboratoire Benjamin de Bivort (Harvard)
Barbara Engelhardt (Le laboratoire BEE)
La robustesse en tant que moteur de l'émergence de la maladie
Laboratoire Paivi Pajukanta (UCLA)
Laboratoire Noah Zaitlen (UCSF)
L'un des principaux objectifs du laboratoire est d'étudier comment l'interaction génotype par génotype et génotype par environnement module les réseaux de régulation des gènes et façonne finalement la variation individuelle.
Le paradigme génétique quantitatif actuel est motivé par l'opinion dominante selon laquelle les modèles génétiques additifs - axés sur l'effet moyen des allèles alternatifs - expliquent de manière adéquate la variation pour la plupart des phénotypes. Malheureusement, une décennie après la popularisation de GWAS et malgré de nombreux efforts, nous n'avons pas réussi à expliquer la plupart de l'héritabilité des traits complexes en termes d'effets alléliques. Cette approche de moyenne est conçue pour décrire l'effet moyen d'un allèle randomisé sur un grand nombre d'arrière-plans et d'environnements génétiques. Mais chaque individu a été confronté à une trajectoire unique d'agressions environnementales, dont certaines peuvent avoir des effets spécifiques au génotype assez importants.
Un ensemble de preuves en croissance rapide indique que la carte génotype-phénotype est beaucoup plus compliquée que le modèle additif de Fisher ne le prédirait. Lorsque les mesures peuvent être effectuées avec un contrôle raisonnable de l'environnement, les interrelations complexes et non additives entre les loci semblent être la règle et non l'exception. De plus, ces effets alléliques sont souvent sensibles à l'environnement. Le paradigme dérivé de la génétique quantitative traditionnelle est en contradiction avec un objectif majeur de la génétique car nous cherchons souvent à comprendre le chemin causal du génotype au phénotype pour les individus et non les populations.
Dans Drosophile , nous avons développé une ressource unique pour cartographier la variation des traits complexes en utilisant de grandes populations synthétiques non consanguines de drosophiles. Ces panels de cartographie génétiquement divers nous permettent de contrôler le fond génétique et la fréquence des allèles ainsi que l'environnement de chaque population. Notamment, notre méthode rompt avec les approches traditionnelles qui reposent souvent sur des souches consanguines problématiques. Cela nous permet d'élever des milliers de mouches génétiquement uniques, tirées d'un pool génétique commun, de les exposer à différents environnements et d'étudier l'effet combiné du fond génétique et de la perturbation de l'environnement. Nous nous concentrons actuellement sur les traits métaboliques.

Chez l'homme, nous collaborons avec le laboratoire du Dr Paivi Pajukanta à l'UCLA et adoptons une approche de génétique des systèmes pour l'étude des syndromes métaboliques (cohorte METSIN). Notre laboratoire a développé des approches entièrement automatisées pour effectuer un profilage transcriptionnel à haut débit pour une fraction du coût des méthodes actuellement disponibles. Cela nous permet de profiler un grand nombre d'individus et d'utiliser une approche de génétique des systèmes pour étudier la variation métabolique, en écho à nos travaux chez les mouches.

Comprendre la base génétique des traits complexes exige que nous allions au-delà de la description des relations entre l'ADN polymorphe et la variation phénotypique. À cette fin, nous adoptons une approche de génétique systémique, la mesure simultanée de la variation à plusieurs niveaux d'organisation biologique est une première étape nécessaire. Les modèles de corrélation transcriptionnelle permettent la construction de réseaux de co-expression décrivant comment la variation génétique affecte la variation transcriptionnelle (c. e QTL), et comment les réseaux transcriptionnels dirigés sont à leur tour en corrélation avec la variation phénotypique. Ensemble, ces informations nous permettront de tracer le chemin causal de la variation de la fréquence allélique à une différence phénotypique entre les individus. Une telle directionnalité indique le flux d'informations biologiques et définit le cadre à travers lequel les perturbations peuvent être prédites. C'est la promesse de la génétique des systèmes - la formulation de prédictions causales dépeignant une image détaillée d'une carte dynamique génotype-phénotype.

Le microbiome peut-il influencer les trajectoires évolutives de l'hôte ?

Le microbiome façonne de nombreux traits chez les hôtes, mais nous ne comprenons toujours pas comment il influence l'évolution de l'hôte. Pour avoir un impact sur l'évolution de l'hôte, le microbiome doit être héréditaire et avoir des effets phénotypiques sur l'hôte. Cependant, l'héritage complexe et la dépendance au contexte du microbiome remettent en question les modèles traditionnels d'évolution des organismes. Nous adoptons une approche à multiples facettes pour identifier les conditions dans lesquelles le microbiome influence les trajectoires évolutives de l'hôte.

Nous explorons actuellement des modèles génétiques quantitatifs pour étudier comment l'héritage microbien et les effets phénotypiques peuvent moduler les réponses évolutives de l'hôte à la sélection. Nous sommes particulièrement intéressés par la façon dont les hôtes peuvent tirer parti des microbes adaptés localement, augmentant la survie dans des environnements stressants. Ainsi que la façon dont la variation microbienne peut augmenter la variation phénotypique de l'hôte, permettant l'exploration de nouveaux paysages de fitness.

L'interaction complexe entre l'hôte et la variation génétique microbienne est étonnamment peu étudiée. Nous utilisons une combinaison d'approches issues de l'évolution expérimentale dans Drosophile à l'échantillonnage écologique chez l'homme à travers les gradients environnementaux et le mode de vie. Nous visons à incorporer la variation microbienne dans un modèle génétique évolutif et quantitatif standard pour mieux comprendre comment la variation phénotypique est générée et, par la suite, comment la sélection opère à travers les échelles écologiques et évolutives.

Les maladies modernes proviennent-elles de génomes vivant dans le passé ?

En un clin d'œil de l'évolution, les humains ont exploré chaque recoin de cette planète et ont fait preuve d'une étonnante capacité d'adaptation aux conditions extrêmes. Les Turkana, une tribu de pasteurs semi-nomades, vivent dans le nord du Kenya dans l'un des environnements les plus arides du monde. Ayant conservé leur mode de vie traditionnel, les Turkana offrent une rare opportunité d'aborder comment les pressions écologiques et la sélection naturelle façonnent la variation génétique humaine (une question que nous explorerons en utilisant le séquençage du génome entier). De plus, en raison des récents développements d'infrastructures, de nombreux Turkana quittent leurs terres ancestrales pour s'installer dans les villes. Cette situation unique nous permet de poser une autre question importante : que se passe-t-il lorsqu'une population adaptée localement est transplantée dans un nouvel environnement urbain ? De telles migrations urbaines-rurales s'accompagnent généralement d'un risque accru de maladies chroniques, mais notre compréhension mécaniste de l'impact de ces transitions sur la santé est limitée. Pour combler cette lacune, nous comparons les données transcriptomiques et phénotypiques recueillies auprès des Turkana traditionnels par rapport à celles qui ont déménagé, au cours de leur vie, vers les grandes villes. Ensemble, ces travaux nous permettent non seulement de retracer l'histoire de l'évolution humaine, mais aussi de comprendre comment la perturbation des systèmes adaptés localement peut conduire à la maladie.

À propos du peuple Turkana

Le peuple Turkana habite l'un des écosystèmes les plus arides d'Afrique de l'Est, avec des maximums de 100F toute l'année et de faibles niveaux de précipitations saisonnières et imprévisibles. Les Turkana sont des nomades pastoraux et 80% de leur alimentation est dérivée du lait ou d'autres produits animaux. L'apport quotidien en protéines est donc extrêmement élevé (300 % des besoins de l'OMS), mais l'apport calorique total est faible (1 300-1 600 kcal/jour pour les adultes). Les Turkana sont par conséquent très maigres, mais ils entreprennent la tâche ardue de collecter de l'eau quotidiennement. Ce processus implique généralement de marcher plusieurs kilomètres (5 à 10 km n'est pas inhabituel) jusqu'à des puits creusés dans des lits de rivière asséchés et de remonter l'eau du fond d'un puits (qui peut dépasser 30 pieds pendant la saison sèche). L'eau doit ensuite être ramenée à la maison et partagée entre la famille et le bétail. En conséquence, les Turkana boivent relativement peu d'eau au quotidien, tout en tolérant les chaleurs extrêmes et en déployant une énergie considérable, malgré des réserves caloriques limitées et une alimentation riche en protéines, qui demande beaucoup plus d'énergie à digérer que les graisses ou les glucides. Ce mode de vie extrême a probablement été sélectionné pour de nombreuses adaptations physiologiques chez le peuple Turkana que nous visons à découvrir.

Nous sommes très chanceux de travailler avec une équipe incroyable basée au Centre de recherche de Mpala sous la direction de notre collaborateur, le Dr Dino Martins.

Téléchargez nos protocoles et méthodes.

Si vous êtes intéressé par nos protocoles, veuillez regarder cet espace.

TM3'seq : une approche de séquençage 3' médiée par la tagmentation pour améliorer l'évolutivité des expériences RNA-seq

RNA-seq est devenu l'outil standard pour collecter des données d'expression à l'échelle du génome dans des domaines très divers, de l'écologie et de la biologie du développement à la génétique quantitative et à la génomique médicale. Cependant, la préparation de la bibliothèque d'ARN-seq ainsi que ses exigences de séquençage sont encore prohibitives pour de nombreux laboratoires, en particulier lorsque de grandes tailles d'échantillons sont impliquées. Récemment, le domaine de la transcriptomique unicellulaire a pu réduire les coûts et augmenter le débit en adoptant une approche qui code à barres des échantillons individuels pendant la transcription inverse et les regroupe avant la synthèse d'ADNc, traitant efficacement un seul échantillon pour la majeure partie de la procédure de préparation de la bibliothèque. En revanche, les protocoles RNA-seq où chaque échantillon est traité individuellement sont significativement plus chers et à débit inférieur que les approches à cellule unique. Pourtant, de nombreuses approches expérimentales sont conçues autour d'expériences de suivi sur un sous-ensemble d'échantillons, et nécessitent donc que des bibliothèques individuelles soient générées pour chaque échantillon. Afin de combler cette lacune, nous avons développé TM3'seq, un protocole de préparation de bibliothèque enrichi en 3' qui utilise la transposase Tn5 et préserve l'identité de l'échantillon à chaque étape. TM3'seq est conçu pour le traitement à haut débit d'échantillons individuels (96 échantillons en 6h, avec seulement 3h de temps de manipulation) à une fraction du coût des kits commerciaux (1,5 $ par échantillon), tout en récupérant les profils d'expression génique du même qualité que les kits commerciaux. Nous nous attendons à ce que les fonctionnalités économiques et temporelles de TM3'seq rendent les expériences RNA-seq à grande échelle plus permissives pour l'ensemble de la communauté scientifique.

TM3'seq : une approche de séquençage 3' médiée par la tagmentation pour améliorer l'évolutivité des expériences RNA-seq Luisa F. Pallares, Serge Picard, Julien F. Ayroles. (2019) bioRxiv https://doi.org/10.1101/585810

Rencontrez les membres de notre laboratoire.

Julien Ayroles

Chercheur principal

Julien a suivi un parcours diversifié tout au long de sa carrière. En tant que premier cycle à l'Université Paul Sabatier de Toulouse (France) et en tant qu'étudiant en Master à l'UI Urbana-Champaign, sa formation était principalement en écologie et biologie évolutive. Pendant ce temps, il a développé un vif intérêt pour la biologie de la conservation qui l'a ensuite conduit à la génétique. Il a terminé son doctorat. à la North Carolina State University sous le mentorat des Drs Eric Stone et Trudy Mackay. Au cours de son doctorat, il a développé diverses approches centrées sur l'utilisation d'une approche de génétique des systèmes pour disséquer la base génétique de traits complexes dans Drosophile. Il a ensuite été élu à la Harvard Society of Fellows en tant que Junior Fellow, où il a étudié la relation entre la variation génétique naturelle permanente et la variation phénotypique, en reliant les approches théoriques et empiriques. Son expérience en écologie et évolution le fonde en tant que biologiste des organismes, et c'est dans ce contexte qu'il aborde le travail moléculaire et fonctionnel en laboratoire.

Luisa F. Pallares

Post-doc

Luisa a fait son baccalauréat en biologie à l'Universidad Nacional de Colombia à Bogotá. Sous la supervision du Dr Joao Muñoz, elle a étudié l'écologie et l'évolution du comportement social chez les canidés. Pour ses études supérieures, Luisa a déménagé en Allemagne où elle a travaillé avec le professeur Diethard Tautz à l'Institut Max Planck de biologie évolutive et a obtenu son doctorat en 2015. Ses recherches se sont concentrées sur la compréhension de l'architecture génomique de la forme craniofaciale et de ses implications pour l'évolution. de la variation inter- et intra-espèces chez la souris. Elle a travaillé dans le même institut en tant que chercheuse postdoctorale pour essayer de comprendre comment et quand les mutations dans les loci candidats se reflètent dans les phénotypes adultes. Luisa s'intéresse à l'évolution des traits complexes et s'intéresse largement à la nature dynamique de la carte génotype-phénotype.

Amanda Léa

Post-doc

Amanda a obtenu son baccalauréat en écologie et biologie évolutive de l'Université de Californie à Los Angeles et son doctorat en écologie de l'Université Duke. Son doctorat a été co-dirigé par Susan Alberts et Jenny Tung. À Princeton, elle est boursière postdoctorale de la Helen Hay Whitney Foundation et travaille avec Julien Ayroles et Josh Akey.

Simon Forsberg

Post-doc

Simon a obtenu son BSc en biotechnologie et son MSc en bioinformatique à l'Université d'Uppsala (Suède). Il a poursuivi ses études de doctorat en génétique quantitative et computationnelle sous la direction d'Örjan Carlborg. Ses travaux de thèse portent sur les interactions génétiques et le contrôle génétique de la variabilité phénotypique. Simon is broadly interested in the genetic architectures of complex traits, and in the prediction of individual phenotypes based on their genotype. In particular, he is interested in the topic of individual components versus entire systems: To what extent can we understand the genetics of complex traits by studying one gene at a time, and to what extent do we need to consider the daunting number of possible interactions between them?

Diogo Melo

Postdoc

Diogo has an undergraduate degree in biology from the University of São Paulo, where he also obtained a master’s degree (2012) and a Ph.D. (2019) in genetics and evolutionary biology, working with Prof. Gabriel Marroig. Diogo’s work is centered on the evolution of genetic correlations, a topic he explores using several different approaches, including QTL mapping, experimental evolution, computer simulations, and comparative data. He joins the Ayroles lab as a Princeton Presidential Postdoctoral Fellow.

Marjolein Bruijning

Postdoc in the Metcalf Lab

Luke Henry

Graduate Student

Luke received his BA in biology and BM in bassoon performance from Bard College. As an undergraduate, he worked with Dr. Felicia Keesing on the ecology of Lyme disease at multiple ecological scales. Following graduation, as a technician at the University of Virginia with Dr. Ben Blackman, he investigated adaptation to photoperiod in wild and domesticated sunflowers. He received his MS in Biology from Indiana University, working with Drs. Keith Clay and Irene Newton on the maintenance and ecology of maternal transmission in DrosophileWolbachia-mitoch ondria symbiosis. At Princeton, he is interested in understanding how species interactions influence evolution to novel environments through using host-microbiome associations as a model ecological and evolutionary system.

Scott Wolf

Graduate Student

Scott received his BS in mathematics along with minors in history and English from the University of Arkansas at Little Rock. As an undergraduate, he was involved extensively in software development in industry and academia. At Princeton, he is interested in how the foundations of mathematics, computer science, and statistics intersect with physiology, genomics, and neuroscience to give insight into complex biological systems.

Ken Igarza

Graduate Student

Ken received his B.S. in Neuroscience and Behavioral Biology and B.A. in International Studies from Emory University. As an IMSD fellow, he worked with Gary Miller at Emory to unveil the effects of toxicants on the Dopaminergic system. Later as an HHMI-EXROP fellow in Richard Axel’s lab at Columbia University, he studied the neural correlates of innate behaviors. As a PhD student at the Princeton Neuroscience Institute, Ken hopes to research how sensory information represented in the invertebrate brain contributes to diverse phenotypes.

Julie Peng

Research Associate

Julie did her Bachelor in Medicine at Harbin Medical University, China and Ph.D. in Molecular and Cell Biology at SUNY-Downstate Medical Center under the supervision of Dr. Maureen McLeod. She studied signal transduction pathways regulating meiosis using fission yeast Schizosaccharomyces pombe as a model. Prior to joining the Ayroles lab, she worked as a research specialist in the Andolfatto lab at Princeton University. She applied various genomic technologies, especially Next Generation Sequencing (NGS) on understanding genome evolution and genetic mechanisms underlying adaptations in a variety of species. She is interested in developing novel genomic methods and high-throughput automation for large scale population genetic studies.

Michael Fernandez

Assistant de recherche

Michael recently completed his BA from UC Berkeley. He currently investigating the contribution of the microbiome to host phenotypic variation.

Peruse our publications.

Publié :

34- Henry L.P., Bruijning M., Forsberg K.G.S., Ayroles J.F. (2019). Can The Microbiome Influence Host Evolutionary Trajectories? BioRxiv 700237.

33- Amanda L., Gurven M., Kamau J, Martins D., Ayroles J.F. (2019). Market-integration and urbanization have strong, non-linear effects on metabolic health in the Turkana tribe. BioRxiv 756866.

32- Palares LF, Picard S, Ayroles JF. (2019). TM3’seq: a tagmentation-mediated 3’ sequencing approach for improving scalability of RNA-seq experiments. bioRxiv 585810 (under review Genome Biology).

31- Bruijning M, Metcalf J, Jongejans E and Ayroles JF. (2019). Exploring the fitness consequences of intra-genotypic variation. bioRxiv, 439659 (in press Trends in Ecology and Evolution).

30- A J Lea, M Subramaniam, A Ko, T Lehtimäki, E Raitoharju, MikaKähönen, I Seppälä, N Mononen, O Raitakari, M Ala-Korpela, P Pajukanta, N Zaitlen, Ayroles JF. (2019). Genetic and environmental perturbations lead to regulatory decoherence. eLife 20198:e40538

29- S Musharoff, DS Park, A Dahl, JM Galanter, X Liu, S Huntsman, C Eng, Burchard EG, Ayroles JF *, Zaitlen N* (2018) Existence and implications of population variance structure. bioRxiv, 439661 (under revision to AJHG). (*equal contribution)

28- Schrider DR, Ayroles JF, Matute DR, AD Kern AD. (2018). Supervised machine learning reveals introgressed loci in the genomes of Drosophila simulans and D. sechellia. PLoS genetics 14 (4), e1007341.

27- Dumitrascu B, Darnell G, Ayroles JF, Engelhardt BE. (2018). Statistical tests for detecting variance effects in quantitative trait studies. Bioinformatique 1, 11.

24 – Zwarts L, Broeck LV, Cappuyns E, Ayroles JF, Magwire MM, Vulsteke V, Clements J, Mackay TF, Callaerts P. (2015) The genetic basis of natural variation in mushroom body size in Drosophila melanogaster. Communication nature.11:6.

23 – Ayroles JF, Buchanan SM, O’Leary C, Skutt-Kakaria K, Grenier JK, Clark AG, Hartl DL, de Bivort BL. (2015). Behavioral idiosyncrasy reveals genetic control of phenotypic variability. Actes de l'Académie nationale des sciences 112(21):6706-11.

21 – Matute DR*, Ayroles JF*. (2014) Hybridization occurs between Drosophila simulans and D. sechellia in the Seychelles archipelago. Journal of evolutionary biology. 27(6):1057-68.

20- Corbett-Detig RB, Zhou J, Clark AG, Hartl DL, Ayroles JF . (2013). Genetic Incompatibilities Within Species are Widespread. La nature, 504, 135–137.

19- Huang W, Richards S, Carbone MA, Zhu D, Anholt RRH, Ayroles JF, et al. (2012) Epistasis Dominates The Genetic Architecture Of Drosophila Quantitative Traits. PNAS, 109:15553-15559.

18- Massouras A, Waszak SM, Albarca M, Hens K, Holcombe K, Ayroles JF, Dermitzakis ET, Eric A Stone EA, Jensen J D, Mackay T.F.C, Deplancke B. (2012) Genomic Variation And Its Impact On Gene Expression In Drosophila Melanogaster. Plos Genetics. 8 (11): e1003055.

17- Mackay TFC*, Richards S*, Barbadilla A *, Stone EA*, Ayroles JF*, Zhu D, Sònia Casillas. et. al. (2012) The Drosophila Genetics Reference Panel:A Community Resource for Analysis of Population Genomics and Quantitative Traits. La nature, 482(7384):173-8. Faculty of 1000, Biology

16 – Ober U, Ayroles JF, Stone EA, Richards S, Zhu D,Gibbs RA, Stricker C, Gianola D, Schlather M, Mackay TFC, Simianer H. (2011) Using Whole Genome Sequence Data to Predict Quantitative Trait Phenotypes in Drosophila melanogaster. Génétique PLoS, 8(5): e1002685. Faculty of 1000, Biology

15 – Rowe K, Singhal S, MacManes M, Ayroles JF, Morelli TL, Rubidge E, Bi K, Moritz C (2012). Museum Genomics: Low Cost And High Accuracy Genetic Data From Historical Specimens. Molecular Ecology Ressources, 11(6): 1082–1092.

14 – Ayroles JF, Laflamme B, Wolfner MA, Mackay TFC. (2011) Sifting Through The Data: Identifying Top Candidates For Novelseminal Protein Genes From Drosophila Whole Genome Expression Data. Genetics Research, 93(6): 387-395.

13 – Jumbo-Lucioni P*, Ayroles JF*, Chambers MM, Jordan KW, Leips J, Mackay TF, De Luca M. (2010) Systems Genetics Analysis Of Body Weight And Energy Metabolism Traits In Drosophila Melanogaster. BMC Génomique, 11(11): 297. (* Contributed equally)

12 – Edwards, A, Ayroles JF, Stone EA, Mackay TFC. (2009) A Transcriptional Network Associated With Natural Variation In Drosophila Aggressive Behavior. Biologie du génome, 10(7): R76.

11 – Mackay TFC, Stone EA, Ayroles JF. (2009) Quantitative Genetics: Prospects And Challenges. Nature Review Genetics, 10(8): 565-577.

10 – Morozova TV*, Ayroles JF*, Jordan KW, Duncan LH, Carbone MA, Lyman RF, Stone EA, Govindaraju DR, Ellison RC, Mackay TF, Anholt RR. (2009) Alcohol Sensitivity In Drosophila: Translational Potential Of Systems Genetics. La génétique, 183(2): 733-745 (* Contributed equally)

9 – Harbison ST, Carbone MA, Ayroles JF, Stone EA, Lyman RF, Mackay TFC (2009) Co-Regulated Transcriptional Networks Contribute to Natural Genetic Variation in Drosophila Sleep. Génétique de la nature, 41(3): 371-375.

8 – Ayroles JF, Carbone MA, Stone EA, Jordan KW, Lyman RF, Magwire MM, Rollman SM, Duncan LH, Lawrence F, Anholt RH, Mackay TFC. (2009) Systems genetics of complex traits in Drosophila melanogaster. Génétique de la nature, 41(3): 299-307. Faculty of 1000, Biology

7 – Kocher SD, Ayroles JF, Stone EA, Grozinger CM. (2009) Genomics Of Pheromone Response: Cooperation And Conflict In Honey Bees. Plos ONE, 5(2): e9116.

6 – Stone EA, Ayroles JF. (2009) Modulated Modularity Clustering As An Exploratory Tool For Functional Genomic Inference. Génétique PLoS, 5(5): e1000479.

5 – Ayroles JF, Hughes KA, Reedy MM, Rodriguez-Zas SL, Drnevich JM, Rowe KC, Cáceres CE, Paige KN. (2009) Genome-Wide Assessment Of Inbreeding Depression In Drosophila Melanogaster. Biologie de la conservation, 23(4): 920-930.

4 – Carbone MA, Ayroles JF, Yamamoto A, Morozova TV, West SA, Magwire MM, Mackay TF, Anholt RR. (2009) Overexpression Of Myocilin In The Drosophila Eye Activates The Unfolded Protein Response: Implications For Glaucoma. PLoS UN, 4(1): e4216.

3 – Ayroles JF, Gibson G. (2006) Analysis Of Variance Of Microarray Data. Methods Enzymol, 411: -33.

2 – Hughes KA, Ayroles JF, Reedy MM, Drnevich JM, Rowe KC, Ruedi EA, Cáceres CE, Paige KN. (2006) Segregating Variation In The Transcriptome: Cis Regulation And Additivity Of Effects. La génétique 173(3): 1347-1355.

1 – Dejean A, Solano PJ, Ayroles JF, Corbara B, Orivel J. (2005) Insect Behaviour: Arboreal Ants Build Traps to Capture Prey. La nature, (434):973.

Book Chapter:

1- Metcalf CJE*, Ayroles JF*. (2019). Chapter: “Why does intra-genotypic variance persist?” In book titled “Unsolved Problems in Ecology’. Presse de l'Université de Princeton. (*equal contribution)


The Consequences of Recent Effective Population Size

The fundamental difference between livestock and human genomes is the difference in effective population size (Ne). In most livestock populations in developed countries most individuals make no long-term genetic contribution to the population. Instead, nearly all the genes in the future population come from a small nucleus leading to small Ne. This breeding structure is easy to implement if family sizes are large. In dairy cattle, for example, as a consequence of artificial insemination, bulls can have 100,000s of offspring [Toystory (https://en.wikipedia.org/wiki/Toystory_(bull)] sired >500,000 daughters], having been selected for their genetic merit for milk production traits (which, of course, are traits they do not even express themselves). Traditionally, EBVs were calculated based on records of daughters and other female relatives. Given the large number of daughters with milk production records, EBVs can be a very accurate representation of the bull’s genetic value. EBVs have been used for decades to identify which individuals should be chosen as the parents of the next generation. Even high-producing elite cows can have large numbers of offspring through egg harvesting and in vitro fertilization technology. Hence, the number of parents needed is small relative to the population census, leading to high selection intensities. For example, the international black and white Holstein dairy cattle population is ∼25 million but the current effective population size (Ne) is estimated to be only ∼50 (Kim and Kirkpatrick 2009) to ∼100 (Bovine HapMap Consortium et al. 2009).

The large family size and small Ne in livestock species has a number of knock-on effects relevant to comparisons with humans. First, haplotype blocks are large. For dairy cattle, they are about double the length of human LD (26 kb vs. 8–14 kb) (Kim and Kirkpatrick 2009) [within breed LD in dairy cattle stretches to 0.5 Mb (Bovine HapMap Consortium et al. 2009), and generates LD across chromosomes], and this impacts on all aspects of analyses of genomic data. Second, the concept of SNP-based heritability is different in livestock (Jensen et al. 2012). In human genetic analyses where interest is understanding genetic architecture of a trait and the additive genetic contribution to variation, we select individuals unrelated in the classical sense (coefficient of relationship from the genomic relationship matrix (GRM) estimates from SNP data <0.05) and use these individuals to determine the proportion of variance associated with common genome-wide SNPs (c'est à dire., SNP-based heritability) (reflecting LD between common SNPs and causal variants). SNP-based heritability is conceptually different from (and smaller than) heritability estimated from family/pedigree data, as the latter includes contributions to variation from genetic variants that are less common in the population (not tagged by common SNPs), but are shared between relatives. SNP-based heritability estimated from summary statistics using LD Score regression (Bulik-Sullivan et al. 2015) also only captures the genetic signal associated with common variants. In analyses of livestock data, all animals within a breed are to some extent “related” and so it is not usual (or possible) to try to select unrelated individuals for an analysis. An alternative is to fit two genetic effects in the statistical model, one described by the GRM and one described by pedigree relationships (Haile-Mariam et al. 2013 Zaitlen et al. 2013 Kemper et al. 2015). When this is done, 80–90% of the genetic variance in milk yield is explained by the SNPs (Haile-Mariam et al. 2013 Kemper et al. 2015). The higher proportion of genetic variance explained by SNPs in livestock than in humans is due to the greater LD in livestock.


Variation

Nos rédacteurs examineront ce que vous avez soumis et détermineront s'il faut réviser l'article.

Variation, in biology, any difference between cells, individual organisms, or groups of organisms of any species caused either by genetic differences (genotypic variation) or by the effect of environmental factors on the expression of the genetic potentials (phenotypic variation). Variation may be shown in physical appearance, metabolism, fertility, mode of reproduction, behaviour, learning and mental ability, and other obvious or measurable characters.

Genotypic variations are caused by differences in number or structure of chromosomes or by differences in the genes carried by the chromosomes. Eye colour, body form, and disease resistance are genotypic variations. Individuals with multiple sets of chromosomes are called polyploid many common plants have two or more times the normal number of chromosomes, and new species may arise by this type of variation. A variation cannot be identified as genotypic by observation of the organism breeding experiments must be performed under controlled environmental conditions to determine whether or not the alteration is inheritable.

Environmentally caused variations may result from one factor or the combined effects of several factors, such as climate, food supply, and actions of other organisms. Phenotypic variations also include stages in an organism’s life cycle and seasonal variations in an individual. These variations do not involve any hereditary alteration and in general are not transmitted to future generations consequently, they are not significant in the process of evolution.

Variations are classified either as continuous, or quantitative (smoothly grading between two extremes, with the majority of individuals at the centre, as height varies in human populations) or as discontinuous, or qualitative (composed of well-defined classes, as blood groups vary in humans). A discontinuous variation with several classes, none of which is very small, is known as a polymorphic variation. The separation of most higher organisms into males and females and the occurrence of several forms of a butterfly of the same species, each coloured to blend with a different vegetation, are examples of polymorphic variation.


Méthodes

Ethical approval

Ethical approval for the study was obtained from the ALSPAC Ethics and Law Committee and the Local Research Ethics Committees.

Study sample

ALSPAC is a prospective birth cohort which recruited pregnant women with expected delivery dates between April 1991 and December 1992 from Bristol UK. 14,541 pregnant women were initially enrolled with 14,062 children born. Detailed information on health and development of children and their parents were collected from regular clinic visits and completion of questionnaires. A detailed description of the cohort is available on our website (http://www.bristol.ac.uk/alspac/researchers/) and has been published previously [31]. Please note that the study website contains details of all the data that is available through a fully searchable data dictionary (http://www.bris.ac.uk/alspac/researchers/data-access/data-dictionary/).

DNA has been extracted as described previously from blood samples collected from cord blood at research clinics [32]. Lymphoblastoid cell lines were established by transforming lymphocytes from blood samples taken when the study participants were 9 years old, with Epstein Barr Virus.

Genotyping data

ALSPAC individuals were genotyped using the Illumina HumanHap550 quad genome-wide SNP genotyping platform by 23andMe subcontracting the Wellcome Trust Sanger Institute, Cambridge, UK and the Laboratory Corporation of America, Burlington, NC, USA. Markers with <1% MAF, >5% missing genotypes or which failed an exact test of Hardy-Weinberg equilibrium (P<5×10−7) were excluded from further analysis. Any individuals who did not cluster with the CEU individuals in multidimensional scaling analysis, who had >3% missing data, minimal or excessive heterozygosity (>33% or <31%), evidence of cryptic relatedness (>10% IBD) or incorrect gender assignments were excluded from further analysis. After data cleaning 315,807 SNPs were left. Imputation was carried out using MACH 1.0.16, Markov Chain Haplotyping [33], [34], using CEPH individuals from phase 2 of the HapMap project as a reference set. Imputed markers with imputation quality r 2 <0.8, with MAF<1% or which failed an exact test of Hardy-Weinberg equilibrium (P<5×10−7) were excluded resulting in a total of 2'290'057 high quality SNPs. The CNVs were genotyped using a targeted Agilent 105K CGH array. The design of the array and the methodology for analyzing the array data was previously described in details [35].

Gene expression data

LCL's from unrelated individuals were grown under identical conditions and cells frozen in RNAlater. RNA was extracted using an RNeasy extraction kit (Qiagen) and was amplified using the Illumina TotalPrep-96 RNA Amplification kit (Ambion). Expression profiling of the samples, each with two technical replicates, were performed using the Illumina Human HT-12 V3 BeadChips (Illumina Inc) including 48,804 probes where 200 ng of total RNA was processed according to the protocol supplied by Illumina. Raw data was imported to the Illumina Beadstudio software and probes with less than three beads present were excluded. Log2 - transformed expression signals were then normalized with quantile normalization of the replicates of each individual followed by quantile normalization across all individuals. We restricted our analysis to 23'935 probes tagging genes annotated in Ensembl. Principal component analysis was performed on 931 individuals. 62 individuals with principal component 1 or 2 greater than one standard deviation of the population were excluded from further analysis. Raw expression data are available upon request at http://www.bristol.ac.uk/alspac/researchers/data-access/policy/.

EQTL analysis

All eQTL analysis were performed at the single variant level and assumed an additive model. We used spearman rank correlation to test for association between probe expression and genotype. For the cis-analysis, we limited the variants tested to variants present in a 2 MB window surrounding the transcription start site of the gene and we filtered out probes containing SNPs with minor allele frequency >1% according to the 1000 genomes project dataset [36]. To assess significance, we permuted all expression probes 1000 times and kept the best pvalue per gene after each permutation. For each gene, we ranked the permutation pvalues and assessed whether a variant in the non-permuted data had a lower association pvalues than the permutation threshold considered. We then computed the false discovery rate associated with the permutation threshold and subsequently selected the permutation threshold that provides a 5% false discovery rate.

For the trans analysis, we tested all variants except variants present in a 5 MB window surrounding the transcription start site. In order to remove false positives, we excluded probes mapping to multiple locations according to ReMOAT [37]. To assess significance, we permuted 1000 times 288 random probes, each corresponding to one gene. As each probe is tested by approximately the same number of SNPs and as we used spearman rank correlation, which is robust to outliers, we treated our permutations as if we had permuted one probe 288'000 times. We combined all pvalues obtained from the permutations (288*1000), ranked them and increased the genome-wide pvalue threshold until we reached a 5% false discovery rate (corresponding to a pvalue of 9.5e-11).

For the trans analysis of cis-eQTLs, we tested all unique cis-eQTLs except variants present in a 5 MB window surrounding the TSS. In order to remove false positives, we excluded probes mapping to multiple locations according to ReMOAT [37]. To assess significance, we permuted all expression probes 1000 times. As for the trans analysis of all variants, we combined all pvalues obtained, ranked them and increased the genome-wide pvalue threshold until we reached a 5% false discovery rate (corresponding to a pvalue of 7.6e-8).

For the trans analysis of non-synonymous SNPs and SNPs associated to complex traits and diseases, we tested all SNPs except variants present in a 5 MB window surrounding the TSS. In order to remove false positives, we excluded probes mapping to multiple locations according to ReMOAT [37]. To assess significance, we permuted 1000 random probes, corresponding to 1000 genes, 10000 times. As for the other trans analysis, we combined all pvalues obtained, ranked them and increased the genome-wide pvalue threshold until we reached a 5% false discovery rate (corresponding to a pvalue of 2.0e-9 for non-synonymous SNPs and 5.4e-10 for SNPs associated to complex traits and diseases).

Conditional regression

For each gene with an eQTL, we performed linear regression of the best variant on the standard normalized probe expression and kept the residuals. We repeated the association analysis on the residuals using spearman rank correlation and kept any SNPs passing the gene-based permutation threshold obtained during the initial association analysis. We repeated this procedure regressing out all previous best associations until no variants were significant.

Heritability explained by cis-eQTLs

For each gene with cis-eQTL(s), we computed the variance explained (r 2 ) by the best cis-eQTLs or all independent cis-eQTLs on the standard normalized probe expression using the lm() function in R. We then obtained the heritability explained by dividing the heritability of the probe with the variance explained by the cis-eQTL(s). If the variance explained by the cis-eQTL(s) was greater than the heritability estimate of the probe, the heritability explained was set to 1.

Matched SNPs in enrichment analysis

We matched each significant variant (cis-eQTLs, trans-eQTLs or GWAS SNPs) with a variant with the same minor allele frequency in our data set (±1%) and distance to the closest gene (±2 kb).

Causal models

Bayesian networks (BN) are directed acyclic graphs where nodes represent random variables and edges represent the conditional dependences among nodes. The direction of the edges between two nodes can be interpreted as causal relationships and allowed to infer causality in genetics studies previously [38]–[40].

Likelihood methods are commonly used to compare different BN and estimate the most likely—that is, the set of causal relationships among the different variables that better agrees with the data. In a BN, every node is associated with a probability distribution and, together with the conditional dependencies represented by the edges, forms the join probability distribution of the network. BN satisfy the local Markov property—that is, each variable is conditionally independent of its non-descendants given its parent variables. The Markov property allows the decomposition of the joint probability distribution of the network into a set of local distributions, which allows to easily calculate the likelihood of a given BN.

We used the R package bnlearn [41] to calculate the maximum likelihood of three different networks that we defined using eQTLs as anchors. In the first network (SCT), we fixed the first node as the eQTL genotype with a forward directional edge to the second node (standard normalized cis gene expression) and a second forward directional edge starting from the second node to the third node (standard normalized trans gene expression). For the second network (STC), we fixed the first node as the eQTL genotype with a forward directional edge to the second node (standard normalized trans gene expression) and a second forward directional edge starting from the second node to the third node (standard normalized cis gene expression). For the third network (INDEP), we fixed the first node as the eQTL genotype with a forward directional edge to a node representing the standard normalized cis gene expression and a second forward directional edge starting from the first node to a node representing the standard normalized trans gene expression.

Different networks often have different complexities and it is common to use a score that takes into account the network complexity instead of the raw likelihood to compare different networks. We used the Akaike Information Criterion (AIC) score (AIC = 2k-2ln(L), where k is the number of parameters (5 for all models in our case) and L is the maximum likelihood) to compare our networks. To compare how good is a network compared to another, we used the relative likelihood of one network against the other. If we have two networks, N1 and N2 and AIC(N1)≤AIC(N2), then the relative likelihood of N2 with respect to N1 is defined as: exp((AIC(N1)–AIC(N2))/2). We kept only networks where the best model was at least ten times more likely than the second best model. In order to have high confidences in our calls, we required that the Causal Inference Test (CIT), described previously [25], also calls the same model as the most likely. The CIT is a semi-parametric method that tests a series of conditions and then provides p-values for the SCT and STC models. If none of them has a pvalue<0.05, it makes a call for the INDEP model, and if both of them are significant it makes no call. In order to take into account multiple testing with the CIT method and to reduce the number of networks resulting in a “no call” by the CIT, we used Bonferroni corrected pvalues for model calling instead of the nominal pvalue of 0.05.


Résumé

Systems genetics is an approach to understand the flow of biological information that underlies complex traits. It uses a range of experimental and statistical methods to quantitate and integrate intermediate phenotypes, such as transcript, protein or metabolite levels, in populations that vary for traits of interest. Systems genetics studies have provided the first global view of the molecular architecture of complex traits and are useful for the identification of genes, pathways and networks that underlie common human diseases. Given the urgent need to understand how the thousands of loci that have been identified in genome-wide association studies contribute to disease susceptibility, systems genetics is likely to become an increasingly important approach to understanding both biology and disease.


Renseignements à l'appui

S1 Fig. Simple demographic model simulation.

Allele age estimation and TMRCA inference in a simulation of a 100-Mb region with sample size N = 1,000, effective population size Ne = 10,000, constant mutation rate (?? = 1 × 10 −8 per site per generation), and constant recombination rate (r = 1 × 10 −8 per site per generation). (A) Relationship between the true allele age (geometric mean of lower and upper age of the branch on which a mutation occurred X axis) and estimated allele age (oui axis), estimated using the mutation clock, recombination clock, and joint clock models (left) and PSMC (right) for the same set of 5,000 variants, randomly sampled at allele count 1 < X < N. Colors indicate the density scaled by the maximum per panel. Upper inserts indicate the fraction of sites where the point estimate (mode of the composite posterior distribution) of allele age lies above the upper age of the branch on which the mutation occurred (^), below the lower age (˅), or within the range of the branch (∘). Lower inserts indicate the Spearman rank correlation statistic ??, the square of the Pearson correlation coefficient (on log scale) r 2 , the interval-adjusted error metric ??, and the RMSLE. Also shown is an LOESS fit (second-degree polynomials, neighborhood proportion ?? = 0.25 dashed line). (B) Relationship between true TMRCA for a haplotype pair at a given site and corresponding inferred TMRCA (mean of posterior distribution), shown separately for concordant and discordant pairs. The same sets of haplotype pairs were analyzed under each clock model in GEVA (left) and PSMC (right). Colors indicate the density scaled by the maximum per panel. Lower inserts indicate the Spearman rank correlation statistic ??, the square of the Pearson correlation coefficient (on log scale) r 2 , and the RMSLE. GEVA, Genealogical Estimation of Variant Age LOESS, locally estimated scatterplot smoothing PSMC, pairwise sequentially Markovian coalescent RMSLE, root mean-square log10 error TMRCA, time to the most recent common ancestor.

S2 Fig. Complex demographic model simulation without error.

Allele age estimation and TMRCA inference in a simulation that recapitulates the human expansion out of Africa [77], with N = 5,000, Ne = 7,300, constant mutation rate ?? = 2.35 × 10 −8 , and variable recombination rates from HapMap (Phase 2, GRCh37) [78] for chromosome 20 (63 Mb). Allele age was estimated for 5,000 variants sampled uniformly from the intersection of sites available at allele count 1 < X < N in data without error and after data were modified with error see S3 Fig and S4 Fig. Description of plots as in S1 Fig. GRCh37, Genome Reference Consortium Human Build 37 TMRCA, time to the most recent common ancestor.

S3 Fig. Complex demographic model simulation with error.

Allele age estimation and TMRCA inference from simulated data in which haplotype data were modified with realistic error rates calibrated from empirical estimates of genotype errors in TGP data [2], by comparison to corresponding genotype data from the IPG [79]. Allele age was estimated for the same set of 5,000 variants as analyzed in S2 Fig and S4 Fig. Description of plots as in S1 Fig. IPG, Illumina Platinum Genomes Project TGP, 1000 Genomes Project TMRCA, time to the most recent common ancestor.

S4 Fig. Complex demographic model simulation with error and after phasing.

Allele age estimation from simulated data in which haplotype data were modified with realistic error rates, calibrated from empirical estimates of genotype errors in TGP data [2], by comparison to data from the IPG [79]. Haplotype data were additionally phased using SHAPEIT2 [80] after the introduction of data error. Allele age was estimated for the same set of 5,000 variants as analyzed in S2 Fig and S3 Fig. Description of plots as in S1 Fig. Note that the relationship between true and inferred TMRCA per haplotype pair cannot be ascertained conclusively after phasing of haplotype data. IPG, Illumina Platinum Genomes Project TGP, 1000 Genomes Project TMRCA, time to the most recent common ancestor.

S5 Fig. Correlation between allele age estimated separately in TGP and SGDP data.

(A) The relationship between allele age using data from the TGP (X axis) and the SGDP (oui axis), estimated from the mutation clock (left), recombination clock (center), and the joint clock model (right), for 13.7 million variants dated in both data sources. Colors indicate the density scaled by the maximum per panel. Lower inserts indicate the Spearman rank correlation statistic ?? and the square of the Pearson correlation coefficient (calculated on log-scaled allele ages) r 2 . (B) Differences in allele frequency of the variants compared (left) the histograms (right) show the frequencies as observed in the TGP (top) and the SGDP (bottom) for corresponding sets of variants. SGDP, Simons Genome Diversity Project TGP, 1000 Genomes Project.

S6 Fig. Allele age and frequency for variants shared between different human populations.

The relationship between allele age and frequency for variants dated in the TGP. Allele age was estimated under the joint clock model using TGP data (whole sample). Of the 43.2 million variants dated in the TGP (chromosomes 1–22), we excluded those with low estimation quality and inconsistent ancestral allele information, which retained 34.4 million variants. Allele frequencies were calculated within subsamples of AFR, AMR, EAS, EUR, and SAS ancestry groups, as defined in TGP sample data. Lines in each panel show the cumulative age distribution of variants within a given frequency bin (see legend), with frequencies as observed within the population group indicated at the top (columns) circles indicate median and interquartile range (25th, 50th, and 75th percentiles). (A) The subset of variants observed in only two population groups, referring to sites that have nonzero frequencies in either of the two populations considered and zero frequency in all other groups (white background color), and geographically restricted variants that are isolated within only a single population group, referring to sites that have nonzero frequencies in the population considered and zero frequency in all other groups (diagonal panels gray background color). Panels that are diagonal opposites show results for the same set of variants but with frequencies as observed in the population considered (by column). The number of variants retained is shown in each panel (bottom right). (B) The age distribution of strictly cosmopolitan variants (nonzero frequencies in every group) by frequency as seen within a population group. The distributions shown in each panel were obtained on same set of 3,634,716 variants. AFR, African AMR, American EAS, East Asian EUR, European SAS, South Asian TGP, 1000 Genomes Project.

S7 Fig. Allele age of potentially pathogenic variants.

Allele age was estimated (joint clock) using sample data from the TGP for variants annotated by the Ensembl VEP [81]. We excluded variants with low age estimation quality or inconsistent ancestral allelic states (determined through multispecies alignments information available through Ensembl), which retained 64,432 (of 70,220) variants annotated by PolyPhen-2 [51] and 61,995 (of 67,539) variants annotated by SIFT [52] of those, 61,615 (of 67,123) variants have been annotated by both methods. (A) The relationship between allele age and variant effects predicted by PolyPhen-2 (top), with effect categories given as benign, possibly damaging, probably damaging, and unknown variant numbers per category are indicated in the legend. Each line shows the cumulative age distribution by effect category circles indicate median and interquartile range. The frequency distribution of all variants considered is shown for the 5 major population groups defined in the TGP sample (middle), given as the number of variants within allele count bins (evenly spaced on linear scale but shown on log scale), with allele count as per population group in the TGP. The number of variants at nonzero frequencies in a population group is indicated in the legend. The relative proportion of variants across effect categories per allele count bin for the 5 major population groups in the TGP (bottom). (B) As for part (A), plots show the relationships between allele age and population frequency for variants predicted by SIFT, with effect categories given as tolerated and deleterious. (C) QQ-plots showing differences in allele age distributions for variants annotated by PolyPhen-2 (left) and SIFT (right), compared to a control set of variants (those annotated as benign by PolyPhen-2 or tolerated by SIFT), matched for allele frequency within a given population group. Matching was done by retaining only those variants observed at nonzero frequency within a population group and if variants of every effect category were represented at identical allele counts. The inset in each panel (bottom right) shows the number of variants retained per effect category. PolyPhen-2, “Polymorphism Phenotyping v2” software SIFT, “Sorting Intolerant From Tolerant” software TGP, 1000 Genomes Project VEP, Variant Effect Predictor.

S8 Fig. Effective population size (Ne equivalent) over time for chromosomes 1–22 in the SGDP.

The CCF was inferred for each haploid target genome with all other comparator genomes in the SGDP sample, based on a total of 11.7 million variants dated (joint clock) on chromosomes 1–22, retained after excluding variants with low age estimation quality and inconsistent ancestral allele information. Coalescent intensity was computed per target genome and scaled by the maximum over the sample at a given time interval (epoch evenly distributed on log scale). Each line shows the median and interquartile range of Ne equivalents inferred for individuals in the different ancestry groups (continental regions see legend). CCF, cumulative coalescent function SGDP, Simons Genome Diversity Project.

Tableau S1. Summary of variants per chromosome in the Atlas of Variant Age.

The table shows the total number (Ntous) of variants available in the Atlas of Variant Age on chromosomes 1–22, as well as the number of variants dated using data from the TGP alone (NTGP) and the SGDP alone (NSGDP). Additionally, variants present in both data sets were dated using independently inferred pairwise TMRCA results from the TGP and SGDP to obtain a combined age estimate (NCombined). The number of haplotype pairs at which shared haplotype segments and TMRCA were inferred is shown for the two data sources numbers are shown as the sum of concordant and discordant pairs analyzed per chromosome. See S3 Text for details about the analysis of TGP and SGDP sample data. Full result data sets for each variant, including the results of each pairwise analysis and age estimates obtained under each clock model (mutation, recombination, and joint clock see S1 Text), are publicly available online at https://human.genome.dating/. SGDP, Simons Genome Diversity Project TGP, 1000 Genomes Project TMRCA, time to the most recent common ancestor.

Tableau S2. Age and frequency of variants within population groups in TGP data.

We estimated allele age for variants identified in the TGP to characterize the age distribution of genetic variation across the human genome. Allele age was estimated under the joint clock model. Of the 43,232,520 variants dated in the TGP (chromosomes 1–22), we retained only those at quality score QS > 0.5 (see S1 Text) and at which the ancestral allele is known and mapped to the reference allele (see S3 Text), which retained 34,388,511 variants. The table shows the number of variants (N) and the median of allele age estimates (Q50), as well as the 25th (Q25) and 75th (Q75) percentiles, per continental population group and stratified by allele frequency within that group. This is shown for (A) variants at nonzero frequencies within a given ancestry group, (B) geographically restricted variants that segregate only within a given group, and (C) strictly cosmopolitan variants that are shared among individuals from every continental group. AFR, African AMR, American EAS, East Asian EUR, European SAS, South Asian TGP, 1000 Genomes Project.


Voir la vidéo: Génétique bactérienne 1 ADN chromosomique (Janvier 2022).