Informations

13.3 : Modélisation stochastique - Biologie

13.3 : Modélisation stochastique - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Le programme (PageIndex{1}) simule la récolte au rendement maximal durable. Inévitablement, cependant, les populations dérivent en dessous du point Allee et s'effondrent rapidement, comme dans l'exemple d'exécution du programme illustré à la figure (PageIndex{1}).

A l'âge de la navigation, à la flèche marquée "A", la pêche était à effort élevé mais à faible impact et les pêcheries sont restées approximativement à leur capacité de charge, (K). La « récolte optimale » a été introduite une fois que l'écologie mathématique a été combinée à la technologie diesel, et la pêche a aidé à nourrir les populations croissantes d'animaux humains et domestiques, avec des populations de poissons proches du « rendement maximal durable », comme prévu. Mais tout au long du 20e siècle, comme indiqué de chaque côté de la flèche marquée "B", les populations de poissons ont continué à décliner, et avant 2015—à la flèche marquée "C"—il devient clair que quelque chose ne va vraiment pas.

# SIMULER UN AN## Cette routine simule une équation différentielle pour une récolte optimale# sur une unité de temps, comme un an, en prenant de très petits pas de temps# en cours de route.## La fonction « runif » applique un bruit aléatoire à la population. Par conséquent, il # se déroule différemment à chaque fois et l'effondrement peut être rapide ou retardé.## ENTRÉE : 'N' est la population de départ pour l'espèce simulée.# 'H' est l'intensité de la récolte, de 0 à 1.# 'K' est la capacité de charge de l'espèce en question.# 'r' est le taux de croissance intrinsèque.# 'dt' est la durée de chaque petit pas de temps à effectuer tout au long de l'année ou d'une autre unité de temps.## EXIT : 'N ' est la population estimée à la fin de l'unité de temps.
SimulerUneAnnée = function(dt){ for(v en 1:(1/dt)) # Avancer le pas de temps.{ dN = (r+s*N)*N - H*r^2/(4*s)* dt; # Calculer le changement.N=N+dN; } # Mettre à jour la valeur de la population.if(N<=0) stop("Extinction"); # Assurez-vous qu'il n'est pas éteint.assign("N",N, envir=.GlobalEnv); } # Exportez les résultats.
r=1,75 ; s=-0,00175; N=1000 ; H=0 ; # Établir les paramètres.
for(t in 1850:2100) # Avancer à l'année suivante.{ if(t>=1900) H=1; # Récolte légère jusqu'en 1990.print(c(t,N)); # Affiche les résultats intermédiaires.N = (runif(1)*2-1)*10 + N; # Appliquer la stochasticité.SimulateOneYear(1/(365*24)); } # Avancez l'année et recommencez.

Programme (PageIndex{1}). Ce programme simule une récolte maximale avec de petites fluctuations dans les populations.

Que s'est-il passé? Un effondrement fait partie de la dynamique de ce type de récolte. Une stochasticité inévitable dans la récolte se combine défavorablement avec un équilibre instable dans la population de proies. Dans certains cas, il s'effondre en 80 ans, dans d'autres, il peut en prendre 300. Le moment n'est pas prévisible ; la principale propriété prévisible de la simulation est que le système finira par s'effondrer.

Figure (PageIndex{1}). Un exemple d'exécution du programme 13.4, montrant l'effondrement typique de telles exécutions.


Modélisation stochastique

James E. Daniell, . Andreas M. Schaefer , dans Modélisation des risques pour les aléas et les catastrophes , 2018

Modélisation des dangers

La modélisation stochastique en général commence par la révision des catalogues historiques de tremblements de terre, y compris les magnitudes, les emplacements et les intensités des événements. Les distributions fréquence-amplitude sont ensuite calculées comme base pour créer un ensemble stochastique d'événements pour une période et une zone temporelles particulières.

Vous trouverez ci-dessous un bref résumé des paramètres utilisés dans la modélisation des risques pour l'Australie. Une zonation de source floue a été liée à un modèle de sismicité lisse. Cette approche utilise des données sismiques historiques et instrumentales depuis 1800 pour développer un catalogue de séismes stochastiques. Les événements résultants ont ensuite été utilisés pour calculer le mouvement du sol pour des emplacements spécifiés. Les données sur les tremblements de terre en Australie sont à la fois rares et incohérentes. Cela vaut aussi pour l'espace et le temps. Cependant, des observations de tremblement de terre ont été enregistrées et extraites de documents historiques et certains événements remontent aux années des premières colonies de peuplement à la fin du XVIIIe siècle. Pour cette étude, des observations historiques à partir de 1800, basées sur les travaux de McCue (2013a,b,c, 2014), ont été combinées dans la base de données des tremblements de terre de Geoscience Australia. Considérant une magnitude minimale de 2,0 depuis 1800, le catalogue se compose de 24 034 tremblements de terre. Ces séismes ont été dégroupés à l'aide de la méthodologie de Reasenberg (1985), qui réduit le nombre total d'événements à 11 838.

Les paramètres de la source ont été stockés à une grille de résolution de 10 km. La valeur a de Gutenberg-Richter d'un certain pixel représente ainsi la moyenne pondérée de la sismicité lisse normalisée du catalogue et la valeur a attribuée à partir de la corrélation de distance avec les sources de zone. Une distribution de Gutenberg-Richter tronquée de manière bilinéaire a été utilisée, qui a doublé la valeur b pour les magnitudes supérieures à six pour tenir compte des très longues périodes de retour communes d'une croûte stable. La résolution totale du modèle est alors exécutée à 1 km. Pour le calcul du mouvement du sol, quatre équations de prédiction du mouvement du sol ont été sélectionnées. Ceux-ci incluent à la fois Atkinson et Boore (2006) et Lin et Lee (2008) représentant une équation calibrée à l'échelle mondiale pour les tremblements de terre peu profonds ainsi que Allen (2012) et l'équation non cratonique de Somerville et al. (2009). Les deux dernières équations ont été développées à l'aide de données sismiques australiennes. La différenciation entre la croûte cratonique et non cratonique a été négligée dans l'intérêt d'un schéma de prédiction des mouvements du sol uniforme pour l'ensemble du continent et pour garder les courbes de risque comparables.

Pour plus de détails, voir Schäfer et al., 2015 . Vous trouverez ci-dessous une liste des différents composants utilisés dans le modèle sismique décrit ici (Tableau 5.5 Fig. 5.13).

Tableau 5.5. Composants dangereux utilisés dans le modèle

Données historiques utiliséesGeoscience Australia, McCue (2013a,b,c, 2014)
Périodes de complétudeAutomatisé par source sismique et pixel
Nombre d'événements (décluster &amp pas)24034 (total), 11838 (dégroupé)
Nombre d'années aléatoires calculées500,000
Méthode de zonage des sources sismiquesDomaines flous
Effets de siteUSGS vs 30, 1/3 de pondération dans la sélection GMPE
GMPE utilisés Atkinson et Boore (2006), Lin et Lee (2008), Allen (2012), Somerville et al. (2009)
Incertitude prise en compteIncertitude spatiale/migration sismique (grand noyau de lissage), enregistrement de données incomplet (scénarios déterministes), mécanisme de source sismique/valeur b (logique floue)
Relations PGA-MMI Atkinson et Kaka (2007) avec les vérifications de Bilal (2013) , Tselentis et Danciu (2008) via Greenhalgh et al. (1989) selon Daniell (2014)

GMPE, équation de prédiction du mouvement du sol MMI, intensité mercalli modifiée PGA, accélération maximale au sol USGS, Commission géologique des États-Unis.

Graphique 5.13. Catalogue stochastique des séismes pour 100 000 ans à partir des 500 000 ans d'événements créés dans notre modèle.


Description du livre

Depuis la première édition de Stochastic Modeling for Systems Biology , il y a eu de nombreux développements intéressants dans l'utilisation de méthodes « sans vraisemblance » d'inférence bayésienne pour les modèles stochastiques complexes. Après avoir été entièrement mise à jour pour refléter cela, cette troisième édition couvre tout ce qui est nécessaire pour une bonne appréciation de la modélisation cinétique stochastique des réseaux biologiques dans le contexte de la biologie des systèmes. De nouvelles méthodes et applications sont incluses dans le livre, et l'utilisation de R pour l'illustration pratique des algorithmes a été considérablement étendue. Il y a un tout nouveau chapitre sur les systèmes spatialement étendus, et le chapitre sur l'inférence statistique a également été étendu avec de nouvelles méthodes, y compris le calcul bayésien approximatif (ABC). La modélisation stochastique pour la biologie des systèmes, troisième édition est maintenant complétée par une bibliothèque de logiciels supplémentaire, écrite en Scala, décrite dans une nouvelle annexe au livre.

Fidèle à l'esprit des éditions précédentes, toute la nouvelle théorie est présentée de manière très informelle et intuitive, en gardant le texte aussi accessible que possible au lectorat le plus large possible. Une introduction efficace au domaine de la modélisation stochastique en biologie computationnelle des systèmes, cette nouvelle édition ajoute des détails supplémentaires et des méthodes de calcul qui fourniront une base plus solide pour le développement de cours plus avancés en modélisation biologique stochastique.


Modélisation déterministe versus stochastique en biochimie et biologie des systèmes

Les méthodes cinétiques stochastiques sont actuellement considérées comme les moyens les plus réalistes et les plus élégants de représenter et de simuler la dynamique des réseaux biochimiques et biologiques. La modélisation déterministe versus stochastique en biochimie et en biologie des systèmes présente et examine de manière critique les fondements déterministes et stochastiques de la cinétique biochimique, couvrant la théorie des processus stochastiques appliquée pour une application dans le domaine de la modélisation et de la simulation des processus biologiques à l'échelle moléculaire. Après un aperçu de la cinétique chimique déterministe et de l'approche stochastique de la cinétique biochimique, le livre aborde les spécificités des algorithmes de simulation stochastique, la modélisation en biologie des systèmes et la structure des modèles biochimiques. Les chapitres suivants couvrent les systèmes de réaction-diffusion et fournissent une analyse des systèmes logiciels Kinfer et BlenX. Le dernier chapitre traite de la simulation de l'écodynamique et de la dynamique des réseaux trophiques.


Résultats

Dans cette section, nous présentons les résultats de l'évaluation des ProBMoTs sur les quatre problèmes d'induction de modèles stochastiques basés sur les processus à partir de connaissances et de données. Les deux premiers relèvent du domaine des réseaux de régulation génique, l'autre du domaine de l'épidémiologie.

Réseaux de régulation des gènes

Nous abordons d'abord la tâche de modélisation du réseau de régulation génique simple du répressilateur, introduite dans la section précédente. Nous sélectionnons le modèle du tableau 3 comme modèle cible et définissons la liste des structures de modèles plausibles P pour contenir une structure unique qui correspond au modèle cible. Nous réalisons ensuite deux expériences. Dans la première, nous supposons que les vitesses cinétiques dans les processus appartenant à une même classe de processus régulateurs (dégradation, traduction et régulation) ont les mêmes valeurs. À cette fin, nous restructurons la bibliothèque de modèles pour introduire une entité de modèle global qui déclare les taux cinétiques globaux, qui sont ensuite utilisés par les modèles de processus. Dans la deuxième expérience, nous effectuons l'induction sans hypothèse de taux cinétiques globaux et utilisons donc la bibliothèque de modèles telle que présentée dans la section précédente.

Taux cinétiques globaux

Le modèle du répressilateur considéré ici a déjà été abordé dans d'autres études [6, 43]. Notez, cependant, que les deux études abordent uniquement la tâche d'estimation des paramètres à partir de données synthétiques en supposant une structure de modèle unique. Dans notre expérimentation, nous visons également à identifier la structure du modèle. Nous sélectionnons la structure de modèle unique utilisée dans les études précédentes comme cible et utilisons les valeurs suivantes des taux cinétiques globaux : (une je p h une0,alpha, bêta, delta, n)=(0.0,250.0,5.0,1.0,2.1). Pour obtenir des données expérimentales, nous faisons la moyenne de 20 réalisations du modèle cible dans l'intervalle de temps t [ 0,35]. En conséquence, nous utilisons le RMSE RA fonction objectif.

Afin de définir un problème d'identification de structure, nous décrivons l'espace des structures modèles possibles comme représenté sur la figure 5. Chaque rectangle représente une entité génique, tandis que les lignes pointillées représentent une interaction de régulation entre les entités. Les interactions dans le modèle incomplet sont instanciées à partir du modèle de processus de régulation du tableau 1. Il en résulte 3 6 = 729 structures de modèle possibles, dont l'une est la structure de modèle cible du répressilateur.

Représentation graphique de l'espace des structures modèles considérées lors de l'induction du modèle de répressilateur. Notez que nous ne supposons pas de formes fixes des interactions de régulation entre les gènes

La figure 6 illustre le profil d'erreur pour la liste des modèles obtenus avec les ProBMoT. Tout d'abord, notez que les petits écarts types entre les redémarrages de l'estimateur de paramètres montrent sa stabilité. De plus, le premier plateau du profil d'erreur est facile à identifier dans le coin inférieur gauche de la figure : il contient un seul modèle. La structure de ce modèle correspond parfaitement à la structure du modèle cible. Par conséquent, le rappel est de 100 %, le hit est vrai et la taille du plateau est de 1, ou en d'autres termes, la performance des ProBMoT sur cette tâche est idéale. Ce résultat fournit une preuve de principe qui confirme la capacité de la méthode de modélisation basée sur les processus développée à induire à la fois la structure et les paramètres des modèles stochastiques à partir des connaissances et des données.

Profil d'erreur pour la tâche d'induire le modèle de répressilateur avec des taux cinétiques globaux. Profil d'erreur complet (la gauche). Les six premiers modèles des deux premiers plateaux avec des barres d'erreur indiquant l'écart type entre les redémarrages. Les lignes horizontales grises représentent des plateaux (droit)

Vitesses cinétiques locales

Pour tester la robustesse de notre méthode, nous supprimons l'hypothèse de taux cinétiques globaux du scénario de modélisation. Ainsi, nous oublions les modifications que nous avons apportées à la bibliothèque dans l'expérience précédente et utilisons la bibliothèque comme décrit dans le tableau 1. Outre la formalisation différente de la connaissance du domaine, étant donné les hypothèses relâchées, la tâche reste la même : nous utilisons le même modèle cible, l'ensemble de données, la fonction objectif (RMSE RA) et la liste des modèles plausibles comme dans la première expérience. Les hypothèses relâchées conduisent à une explosion dans l'espace des paramètres, tandis que l'espace de la structure reste le même. Nous voulons tester si (et comment) l'hypothèse de modélisation assouplie influencera (détériorera) les résultats des ProBMoT.

Le profil d'erreur obtenu pour la tâche décrite est représenté sur la figure 7 et notez à nouveau le petit écart type de l'erreur sur les redémarrages de l'estimateur de paramètres. Le premier plateau du profil d'erreur comprend quatre modèles. Le second modèle a la structure qui correspond exactement à la structure du modèle cible conduisant au triple de performance de (100 %, vrai, 4). Les structures des trois autres modèles du plateau contiennent le motif répressilateur et un certain nombre d'interactions de régulation génique supplémentaires, indiquant un surajustement des données expérimentales. En effet, la figure 8 montre que si la complexité du modèle est prise en compte lors de la sélection des modèles, le premier plateau du profil d'erreur comprend uniquement le modèle cible, conduisant au triple de performance idéal de (100 %, vrai, 1).

Profil d'erreur pour la tâche d'induire le modèle de répressilateur avec des taux cinétiques locaux. Profil d'erreur complet (la gauche). Les six premiers modèles des deux premiers plateaux avec des barres d'erreur indiquant l'écart type entre les redémarrages. Les lignes horizontales grises représentent des plateaux (droit)

Profil d'erreur pour la tâche d'induire le modèle de répressilateur avec des taux cinétiques locaux basés sur un score de sélection de modèle qui prend en compte la pénalisation de la complexité du modèle. Profil d'erreur complet (la gauche). Les sept premiers modèles des trois premiers plateaux avec des barres d'erreur indiquant l'écart type entre les redémarrages. Les lignes horizontales grises représentent des plateaux (droit)

Modèles épidémiologiques compartimentaux

Dans le domaine de l'épidémiologie, nous formalisons d'abord les connaissances à utiliser pour établir des modèles stochastiques, en utilisant les principes de base de la modélisation compartimentale tels que présentés par Brauer et al. [44]. Là, la propagation de la maladie est modélisée par les flux d'individus entre les populations saines et infectées, appelés compartiments. Chaque flux est modélisé à l'aide d'une équation de réaction, où les réactifs et les produits correspondent à des compartiments.

La figure 9 illustre graphiquement la structure générale des modèles épidémiologiques compartimentaux. On distingue six compartiments correspondant à six sous-populations d'individus sensibles (S) à la maladie observée, infectés de manière latente (L), infectés par (I) et sans symptômes (A, c'est-à-dire asymptomatiques), mis en quarantaine (Q) et guéris. (ou retiré, en cas de maladies mortelles, R). Dans la bibliothèque de connaissances en modélisation, tous ces compartiments sont représentés avec un seul compartiment modèle d'entité qui a la propriété variable de noi, représentant le nombre d'individus dans le compartiment à un instant donné.

Représentation graphique d'un modèle compartimental général en épidémiologie. Les cases correspondent aux compartiments, c'est-à-dire aux sous-populations, et les flèches indiquent les flux d'individus entre les compartiments

Au moment de l'introduction d'un agent pathogène dans la population, l'ensemble de la population peut être considéré comme constitué d'individus sensibles (dans le compartiment S), à l'exception des individus par lesquels l'agent pathogène est introduit. A partir de ce point, nous pouvons observer différents processus d'écoulement entre les compartiments. Une façon de modéliser l'infection des individus est de supposer que tous les individus infectés manifestent les symptômes de la maladie. Dans ce cas, le compartiment A n'est pas rempli. Un modèle alternatif, plus complexe, suppose que nous pouvons également avoir des individus infectés qui ne manifestent pas les symptômes. Dans les deux cas, l'infection peut provoquer un flux direct de S vers I (et/ou A) ou un flux indirect à travers le compartiment L des individus infectés de manière latente.

Le rétablissement d'individus d'une maladie peut soit provoquer des flux des compartiments A et I vers la population d'individus récupérés (ou supprimés) R, soit provoquer des flux des compartiments A et I vers la population d'individus sensibles S. Dans tous les cas, le rétablissement des individus de I peuvent être contrôlés en déplaçant les individus infectés vers le compartiment de quarantaine Q. Enfin, le modèle général implique un flux d'individus du compartiment de récupération vers la population d'individus sensibles.

Le modèle général peut être instancié en un certain nombre de variantes, allant du modèle SIR simple qui suppose seulement trois compartiments d'individus sensibles, infectés et guéris, en passant par le modèle SLIR qui introduit la population d'individus infectés de manière latente, au modèle SLIAQRS le plus complexe qui comprend tous les compartiments représentés sur la figure 9. Par exemple, le modèle SIR comprend deux processus. Le premier instancie le processus modèle de infection_symptomatique qui comprend une seule équation de réaction : S.noi + I.noi → I.noi + I.noi [i], où je représente le taux d'infection.L'autre processus représente le modèle de recovery_symptomatique qui inclut l'équation de réaction I.noi → R.noi [r], où r désigne le taux de récupération.

Contrairement aux tâches synthétiques précédentes, nous utilisons ici deux ensembles de données de mesures réelles pour l'induction. Ceux-ci proviennent de deux foyers épidémiques, le foyer de la Grande Peste à Eyam en 1666 [45] et le foyer de grippe de type A sous-type H3N2 à Tristan da Cunha en 1967 [46, 47]. Les mesures pour le cas de l'épidémie d'Eyam sont prises bimensuellement à sept moments dans la période du 3 juillet au 20 octobre 1666. Elles comprennent deux variables : le nombre d'individus sains et le nombre d'individus qui se sont plaints de symptômes. Les mesures de Tristan da Cunha sont prises quotidiennement à 21 points dans le temps en octobre 1967. Elles incluent également deux variables : le nombre d'individus présentant des symptômes d'infection et le nombre d'individus guéris.

Pour faire correspondre les variables du compartiment aux variables des ensembles de données, nous calculons le nombre d'individus sains (individus ne présentant aucun symptôme d'infection) comme la somme du nombre d'individus dans les compartiments S, L et A, le nombre d'infectés comme la somme du nombre d'individus dans les compartiments I et Q et le nombre de récupérés comme nombre d'individus dans le compartiment R.

Conformément au cadre expérimental pour l'obtention des mesures, nous utilisons la deuxième fonction objectif RMSE RS. Les données expérimentales étant issues de mesures réelles et donc bruitées, nous prenons en compte la complexité du modèle pour obtenir le score de sélection du modèle.

Épidémie de peste d'Eyam

Pour cette tâche, nous considérons toutes les instances possibles du modèle général tel que décrit précédemment, en introduisant un petit ensemble de contraintes d'exclusivité mutuelle de l'infection symptomatique et asymptomatique, instanciant ainsi uniquement la récupération correspondante pour chaque type d'infection. Le nombre total de structures de modèle sous ces contraintes est de 24. Les conditions initiales au premier point de temps ont été fixées à 254 individus dans le S, 7 individus dans le I et 0 dans les autres compartiments, ce qui correspond exactement aux conditions initiales de l'original. étude de Ragget [45]. Le même article propose deux structures modèles plausibles : SIR, la structure qui a été analysée dans l'article, et SLIR, suggérée comme la plus prometteuse pour une étude plus approfondie. Ainsi, notre liste de structures modèles plausibles P est (SIR, SLIR).

Le premier plateau du profil d'erreur, représenté sur la figure 10, contient un modèle unique qui a la structure SIR. Par conséquent, le rappel est de 50 %, le résultat est vrai et la taille du plateau est de 1. Le modèle avec la structure SLIR est classé deuxième et comprend le deuxième plateau de profil d'erreur. Ainsi, en considérant les deux modèles dans les deux plateaux les plus à gauche, ProBMoTs reconstruit avec succès les deux structures de modèles plausibles suggérées précédemment [45]. Notez que le score de sélection de modèle basé sur la complexité a un pouvoir discriminant élevé, puisque chaque modèle forme son propre plateau. Les quatre plateaux suivants du profil d'erreur comprennent les modèles SIRS, SLIRS, SIQR et SLIQR, qui rendent des structures de modèle qui étendent le SIR et le SLIR de base avec les hypothèses de survivants (retour au compartiment sensible) ou un compartiment de quarantaine pour fournir des explications plausibles des données observées.

Profil d'erreur pour la tâche de modélisation de la peste d'Eyam. Les barres d'erreur montrent l'écart type du score de sélection de modèle sur les exécutions. Les lignes horizontales grises représentent des plateaux

Épidémie de grippe à Tristan da Cunha

Pour cette tâche, nous considérons le même ensemble de 24 structures de modèle qui instancient le modèle général de la figure 9. Sur la base des données disponibles, nous définissons le nombre initial d'individus infectés à 1, les autres valeurs initiales à 0, à l'exception du nombre initial. nombre d'individus sensibles qui a été ajusté comme paramètre du modèle. Nous avons sélectionné les deux structures modèles les plus performantes de Toni et al. [6] comme plausible et défini P à (SLIR, SIR). Les deux autres structures de modèle considérées dans l'étude sont une structure SLIR modifiée, qui comprend des modèles d'écoulement à retardement, et une structure SIRS.

Le premier plateau du profil d'erreur, représenté sur la figure 11, contient le modèle SLIR qui est le premier modèle dans P, conduisant à un rappel de 50 %, l'indicateur de succès est vrai et la taille du plateau est 1. Le deuxième modèle classé dans le deuxième plateau a la structure SIR du deuxième modèle dans P. Comme dans le cas des expériences sur la peste d'Eyam, les ProBMoTs ont parfaitement reconstitué les résultats des précédentes expériences de modélisation rapportées par Toni et al. [6].

Profil d'erreur pour la tâche de modélisation de l'épidémie de grippe de Tristan da Cunha. Les barres d'erreur montrent l'écart type du score de sélection de modèle sur les exécutions. Les lignes horizontales grises représentent des plateaux


Modélisation stochastique

Téléchargez la vidéo depuis iTunes U ou Internet Archive.

La description: Dans cette conférence, le professeur Jeff Gore discute de la modélisation des systèmes stochastiques. La discussion de l'équation maîtresse se poursuit depuis le dernier cours. Puis il parle de l'algorithme de Gillespie, une manière exacte de simuler des systèmes stochastiques. Il passe ensuite à l'équation de Fokker-Planck.

Instructeur: Pr Jeff Gore

Présentation de la classe a.

Fonction d'entrée, Michaelis-M.

Autorégulation, Rétroaction et.

Biologie synthétique et Stabi.

Réseaux génétiques oscillants

Propriétés du graphe de Transcr.

Réseau de boucle d'anticipation M.

Introduction au stochastique.

Causes et conséquences de .

Vie à faible nombre de Reynolds

Robustesse et bactérie Ch.

Robustesse dans le développement a.

Expérience d'évolution microbienne.

Évolution dans la population finie.

Interférence clonale et le.

Paysages de remise en forme et séquences.

Survie dans un environnement fluctuant.

Parasites, l'évolution de.

Stabilité de l'écosystème, critique.

Dynamique des populations en .

La théorie neutre de l'écologie

Le contenu suivant est fourni sous une licence Creative Commons. Votre soutien aidera le MIT OpenCourseWare à continuer d'offrir gratuitement des ressources éducatives de haute qualité. Pour faire un don ou consulter du matériel supplémentaire provenant de centaines de cours du MIT, visitez MIT OpenCourseWare sur ocw.mit.edu.

PROFESSEUR : Aujourd'hui, ce que nous voulons faire, c'est discuter des différentes approches que vous pourriez vouloir adopter pour essayer de comprendre les systèmes stochastiques. En particulier, comment modéliser ou simuler un système stochastique ?

Maintenant, nous allons en quelque sorte continuer notre discussion sur l'équation maîtresse de la dernière fois. J'espère que maintenant vous y avez réfléchi un peu plus dans le contexte de la lecture. Et nous discuterons de ce que cela signifie d'utiliser l'équation principale et de la façon de formuler l'équation principale pour des situations plus compliquées, par exemple, lorsque vous avez plus d'une espèce chimique.

Et puis nous parlerons de l'idée de cette méthode de Gillespie, qui est un moyen exact de simuler des systèmes stochastiques, et elle est à la fois exacte et traitable par calcul par rapport à ce que vous pourriez appeler diverses méthodes naïves. Et la méthode Gillespie est vraiment différente qualitativement de l'équation principale parce que dans l'équation principale, vous regardez l'évolution des distributions de probabilité à travers le système, alors que la méthode Gillespie est vraiment un moyen de générer des trajectoires stochastiques individuelles.

Donc, si vous commencez avec des conditions initiales similaires, vous pouvez en fait obtenir - vous pouvez obtenir, par exemple, les distributions de probabilité de la méthode de Gillespie en exécutant de nombreuses trajectoires individuelles. Mais c'est un peu différent sur le plan conceptuel en raison de cette notion de savoir si vous pensez aux probabilités ou aux instanciations individuelles d'une trajectoire stochastique. Nous allons donc essayer de comprendre quand vous voudrez peut-être utiliser l'un ou l'autre.

Et puis enfin nous parlerons de cette approximation de Fokker-Planck, qui, comme la lecture l'indiquait, pour des fins intermédiaires, il est utile de faire ce genre d'approximation continue, et puis vous pouvez obtenir beaucoup d'intuition de vos connaissances sur la diffusion sur paysages efficaces [INAUDIBLES].

Y a-t-il des questions à ce sujet ou des choses administratives avant de commencer? Je veux juste vous rappeler que la mi-session est bien jeudi soir prochain, de 19h à 21h. Si vous avez un problème avec cette heure, vous auriez dû envoyer un e-mail à [? Sarabe. ?] Et si vous ne lui avez pas encore envoyé un e-mail, vous devriez le faire tout de suite. Et oui.

D'accord. Pensons donc un peu plus à l'équation maîtresse. Maintenant, avant ce que nous avons fait, nous avons pensé au cas le plus simple possible de l'équation principale, c'est-à-dire si vous avez juste quelque chose qui est créé à un taux constant puis qui se dégrade à un taux proportionnel au nombre de cette espèce chimique. Et je vais utiliser la nomenclature qui est un peu plus proche de ce qui était dans votre lecture, juste pour, espérons-le, plus de clarté. Et je pense que certains de mes choix de la dernière conférence étaient peut-être malheureux.

Donc ici, c'est, par exemple, m serait le nombre d'ARNm, par exemple, dans la cellule. C'est le taux de création de l'ARNm, puis le taux de dégradation de l'ARNm. Donc m est le nombre d'ARNm. Et si nous voulons comprendre l'expression des gènes, nous pourrions inclure une équation pour la protéine, nous pourrions donc avoir un point p, où un Kp.

Maintenant... oh, désolé. Encore une fois, je fais toujours ça. D'accord. Donc, nous allons faire en sorte que ce soit un point n. Alors maintenant, n va être le numéro de la protéine.

Maintenant, c'est vraiment le modèle le plus simple que vous puissiez écrire pour l'expression génique qui inclut l'ARNm et la protéine. Il n'y a donc aucune autorégulation d'aucune sorte. C'est juste que l'ARNm est impliqué dans l'augmentation de la protéine, mais nous avons également une dégradation de la protéine.

Donc, ce que nous voulons faire, c'est en quelque sorte essayer de comprendre comment formuler l'équation maîtresse ici. Mais aussi, nous voulons nous assurer que nous comprenons ce que l'équation maîtresse nous dit réellement et comment elle pourrait être utilisée.

Donc tout d'abord, dans ce modèle, je veux savoir s'il y a, en principe, des bursts de protéines ? Donc avant de parler du fait que dans-- au moins dans [? L'article de Sunny ?] que nous avons lu - ils ont pu observer des explosions de protéines, du moins dans ces expériences dans e Coli. La question est de savoir si ce modèle présente d'une manière ou d'une autre des explosions de protéines, et pourquoi ou pas ? Je veux juste voir où nous en sommes là-dessus.

Je pense que c'est quelque chose qui, selon la façon dont vous interprétez la question, vous pouvez décider que la réponse est oui ou non. Mais je suis curieux... Je pense que cela vaut la peine de discuter des implications ici. Et la partie pertinente de ceci va être la discussion après, donc je dirais ne vous inquiétez pas trop de ce que vous pensez en ce moment. Mais je suis juste curieux. Ce modèle, comprend-il, d'une manière ou d'une autre, des explosions de protéines ? Prêt? Trois deux un.

D'ACCORD. Donc nous avons... Je dirais qu'au moins la majorité des gens disent non. Mais alors certaines personnes disent oui. Alors quelqu'un peut-il se porter volontaire pourquoi ou pourquoi pas ? Oui?

PUBLIC : Je pense que la différence est que si nous utilisons ceci de manière continue ou utilisons-nous cela de manière discrète [INAUDIBLE].

PROFESSEUR : Oui. D'ACCORD. D'accord. D'accord. Il a donc répondu aux deux côtés possibles de l'argument. Et le point ici est que si vous simulez simplement cela du point de vue -- certainement, par exemple, ce continu, ce discret -- donc si vous simulez simplement cela comme une paire déterministe d'équations différentielles, alors y aura-t-il des rafales ? Non. Parce que tout se passe bien ici.

D'un autre côté, si nous procédons à une simulation Gillespie complète de cette paire d'équations, alors dans le régime de paramètres approprié, nous obtiendrons en fait des explosions de protéines, ce qui est, à certains égards, étrange, cela dépend du cadre qui vous allez analyser cela, vous pouvez obtenir des comportements qualitativement différents pour les choses.

Mais on a l'impression ici que l'évolution déterministe et continue de ces quantités serait la moyenne sur bon nombre de ces trajectoires stochastiques, et les stochastiques ont des sursauts, mais si vous faites la moyenne sur beaucoup, beaucoup d'entre elles, alors vous finissez par obtenir quelques paire d'équations bien comporté.

Nous essaierons donc de donner un sens à cela plus tard. Mais je pense que cela souligne simplement que vous pouvez obtenir des comportements vraiment différents sur le plan qualitatif pour le même ensemble d'équations en fonction de ce que vous regardez.

Et ces explosions de protéines peuvent être des événements dramatiques, n'est-ce pas, où le nombre de protéines apparaît beaucoup. Donc, vraiment, si vous regardez les trajectoires individuelles ici, elles seraient très différentes selon que vous faisiez une sorte de traitement stochastique ou déterministe.

Quelqu'un peut-il nous rappeler la situation dans laquelle nous obtenons des salves de protéines dans le modèle stochastique ? En particulier, aurons-nous toujours ces éclats de protéines discrets ? Ou qu'est-ce qui détermine la taille d'une explosion de protéines ? Oui.

PUBLIC : est-ce lié au délai entre la création de l'ARNm [INAUDIBLE] ?

PROFESSEUR : D'accord. Droit. Il y a donc un décalage entre le moment où l'ARNm est créé, et la prochaine chose serait...

PUBLIC : Lorsque la protéine [INAUDIBLE].

PROFESSEUR : Quand la protéine est [? totalisé-- ?] OK. Il y a donc plusieurs échelles de temps, non ? Donc, après qu'un ARNm est créé, et c'est à travers ce processus ici -- alors maintenant un ARNm apparaît -- maintenant il y a plusieurs échelles de temps. Il y a l'échelle de temps pour la dégradation de l'ARNm. Cela vaut 1 sur gamma m. Il y a une échelle de temps pour la dégradation des protéines après la fabrication d'une protéine. Cela vaut 1 sur gamma p. Mais il y a aussi une échelle de temps associée au type de taux de production de protéines de chacun de ces ARNm, et cela est déterminé par Kp. Donc, nous obtenons de gros éclats de protéines si quoi? Qu'est-ce qui détermine la taille de ces éclats de protéines ? Oui.

PROFESSEUR : Exact. C'est toujours déroutant. Nous parlons de temps. Mais en particulier, nous avons des explosions de protéines dans la situation stochastique si nous faisons une simulation stochastique. Et c'est dans le régime si Kp, le taux de synthèse des protéines à partir de l'ARNm est en quelque sorte beaucoup plus grand que ce gamma m. Ai-je merdé ? Oui.

PUBLIC : Donc c'est aussi - dans le sens d'être différent des équations déterministes, nous voulons probablement aussi le nombre total d'ARNm [INAUDIBLE]. Est-ce que ce genre de--

PROFESSEUR : Exact. Oui, je pense que ça... et la question de quel numéro d'ARNm vous avez besoin. Je veux dire, cela dépend de ce que vous entendez par éclats de protéines. Je dirais que tant que cela est vrai, ce que cela signifie, c'est que chaque ARNm conduira en effet à une sorte de salve de protéines, où la salve est, encore une fois, distribuée géométriquement avec certains - maintenant il y a une autre question , c'est-à-dire, ces éclats de protéines sont-ils assez importants par rapport à la concentration de protéines à l'état d'équilibre ? Et cela dépendra également de Km et de gamma p. Est-ce--

PUBLIC : Oui. Donc je suppose que [INAUDIBLE] qui est, je suppose que cela dépendrait aussi de la taille de [INAUDIBLE].

PROFESSEUR : D'accord, eh bien-- et vous parlez de résolution temporelle en termes de mesure--

PROFESSEUR : Oui. Eh bien, d'accord, mais en ce moment, nous imaginons en quelque sorte que nous vivons dans ce monde parfait où nous savons à chaque instant exactement combien il y a de tout. Donc, à certains égards, nous n'avons encore rien dit sur la résolution du temps. Nous supposons que notre résolution temporelle et notre résolution numérique sont en fait parfaites.

Mais tout de même, selon le régime dans lequel vous vous trouvez, les nombres de protéines pourraient ressembler à quelque chose comme-- donc si vous regardez le nombre de protéines, qui est défini comme ce n en fonction du temps, alors dans un régime, vous allez voir où c'est un peu bas. Vous avez un gros éclat et puis ça descend en quelque sorte, et puis un gros éclat, et puis ça descend, et ça éclate, et ça descend en quelque sorte, n'est-ce pas ? C'est donc dans le régime où vous avez des ARNm peu fréquents produits, puis des rafales de grande taille à partir de chaque ARNm. Et puis vous obtenez en quelque sorte cette dégradation ou cette dilution efficace du nombre de protéines au fil du temps. Et cette distribution, si vous en prenez un histogramme, c'est quoi ?

PROFESSEUR : Exact. J'imagine donc que nous regardons cela pendant une longue période de temps. Et puis on vient ici et on l'histogramme. Alors maintenant, nous venons ici, nous tournons vers la gauche, nous disons que le nombre a une fonction - c'est le nombre n. La fréquence que nous observons, un certain nombre de protéines. Donc fréquence. Et cela va faire quelque chose.

Alors qu'en est-il - ce n'est peut-être pas un beau dessin, mais vous êtes censé connaître la réponse. J'essaie de revoir les choses pour vous parce que j'ai entendu dire que vous avez un gros examen à venir, et je veux m'assurer que...

Gamma. C'est un gamma, non ? C'est donc ce que nous avons appris plus tôt. Il s'agit donc d'une distribution gamma. Et vous devriez savoir à quoi ressemble cette distribution gamma. En particulier, il y a ces deux paramètres qui décrivent cette distribution gamma en fonction des paramètres sous-jacents du modèle.

PROFESSEUR : Peut-être. Je ne veux pas trop entrer là-dedans parce que, bon, jeudi, nous avons passé beaucoup de temps à en parler. Une fois que nous aurons commencé, nous passerons encore un long moment à en reparler. Mais vous devriez revoir vos notes du jeudi avant l'examen.

Donc, cette chose est distribuée gamma. Et si nous regardions le nombre d'ARNm en fonction du temps et que nous en faisions un histogramme, la distribution de l'ARNm serait quoi ? C'est poisson. Il est donc important de se rappeler que juste parce que je vous dis qu'un nombre de protéines est distribué gamma, cela ne vous dit pas immédiatement exactement à quoi vous devez vous attendre pour la distribution, disons, du nombre de protéines en fonction du temps.

Je veux dire, il y a beaucoup de choses différentes que je pourrais tracer ici qui se résumeraient toutes à une distribution gamma ici. Il est donc important de garder à l'esprit les différentes représentations que vous pourriez vouloir penser des données.

Donc, ce que nous voulons faire maintenant, c'est réfléchir un peu plus à cette équation maîtresse dans le contexte de si nous allons la diviser en ces états. Maintenant, je dirais que chaque fois qu'on vous demande d'écrire l'équation principale pour quelque chose -- alors maintenant combien d'équations l'équation principale aura-t-elle -- je dis l'équation principale, mais il y en a vraiment plus d'une, peut-être. Alors, combien d'équations seront impliquées dans le type d'équation maîtresse de description de ce modèle ?

Infiniment nombreux. Mais il y en avait déjà une infinité quand nous n'en avions qu'un, quand nous n'avions que la distribution des ARNm. Eh bien, vous savez, l'infini des fois l'infini est toujours l'infini. Tant que c'est un nombre dénombrable infini. Mais oui, mais c'est toujours infini, toujours. D'accord.

Donc, ce que nous voulons faire, c'est diviser les États. Donc, quand quelqu'un vous demande - l'équation décrivant comment ces probabilités vont varier, ce qui nous intéresse vraiment, c'est une dérivée par rapport au temps de certaines probabilités décrites par m,n. Nous voulons connaître la dérivée par rapport au temps pour tous les m,n.C'est pourquoi il y en a un nombre infini, car m va dans un sens, n va dans un autre. Beaucoup, d'accord ?

Maintenant, il est toujours tentant d'écrire simplement cette dérivée, puis d'écrire simplement l'équation. Si vous faites cela, c'est très bien, mais je recommanderais qu'en général, ce que vous fassiez, c'est d'essayer d'écrire un petit tableau pour garder une trace des directions que les choses peuvent prendre. Ainsi, par exemple, nous avons ici la probabilité d'être l'état m,n. Maintenant, il va y avoir des façons d'aller ici. Et cela va être la probabilité d'être un m plus 1,n.

Ce que je vais faire, c'est que je vais vous donner quelques minutes. Et en deux minutes, je veux que vous essayiez d'écrire autant de taux, les f et les n qui correspondent à toutes ces transitions. Vous ne pourrez peut-être pas tous les résoudre, mais si vous n'essayez pas d'en découvrir certains, vous aurez du mal à le faire plus tard.

Comprenez-vous ce que je vous demande de faire ? Donc à côté de chacune de ces flèches, vous devez écrire quelque chose. Je vais donc vous donner deux minutes pour faire de votre mieux pour écrire ces choses.

D'accord. Pourquoi ne pas nous réunir à nouveau, et nous verrons comment nous sommes ? C'est donc très similaire à ce que nous avons fait jeudi. Nous devons nous rappeler que les m sont les ARNm, et c'est ce que nous avons résolu auparavant, où ce n'est qu'une longue rangée.

Maintenant, tout d'abord, les distributions d'ARNm et les taux, dépendent-ils du nombre de protéines ? Non. Alors qu'est-ce que cela signifie, disons, cette flèche par rapport à la flèche qui serait ici ? Ce sera la même chose, car n n'apparaît pas dans cette équation décrivant l'ARNm. Si nous avions une sorte d'autorégulation, ce serait le cas. Alors allons-y.

D'accord. Ce que nous allons faire, c'est nous allons faire un cri verbal. OK prêt. Cette flèche.

PROFESSEUR : Celui-ci est ici, 3,2,1--

PROFESSEUR : Km. D'accord. D'accord. Prêt, 3, 2, 1.

PROFESSEUR : Gamma m fois m. 3, 2, 1.

PUBLIC : Gamma n fois m plus 1.

PROFESSEUR : Gamma m fois m plus 1. Maintenant, rappelez-vous qu'il y a plus d'ARNm ici qu'il n'y en a ici, ce qui signifie que le taux de dégradation va augmenter. Maintenant, venant ici, maintenant cela parle de la création et de la destruction des protéines, des changements dans n. Très bien, cette flèche ici. Prêt, 3, 2, 1.

PROFESSEUR : C'est Kp fois m. C'est donc le taux de création, allant de n moins 1 à n. C'est très bien. Vous savez, je regardais mes notes de l'année dernière, et je me suis trompé sur une de ces choses, donc... et puis, OK, prêt. Celui-ci ici, 3, 2, 1. Kp fois m. Alors ici le même tarif, et faut-il s'en étonner ?

Donc le nombre de protéines change, mais ici c'est le nombre d'ARNm qui compte, car on parle de vitesse de traduction, non ? Maintenant celui-ci ici, 3, 2, 1. Gamma p fois n. Et ici, 3, 2, 1.

PUBLIC : Gamma p fois n plus 1.

PROFESSEUR : Gamma p fois n plus 1. Très bien. Parfait. Maintenant, c'est, bien sûr, comme vous pouvez l'imaginer, le type d'équations le plus simple possible que nous aurions pu écrire. Si vous avez d'autres choses folles, vous obtenez des distributions différentes, si vous avez une autorégulation ou si vous avez des interactions de quelque chose avec quelque chose d'autre, ou la même chose, et ainsi de suite.

Mais je pense qu'il est vraiment très utile d'écrire cette chose pour clarifier votre réflexion sur ces problèmes. Et puis vous pouvez remplir-- pour le changement de probabilité, vous avez mn. Vous venez ici et vous faites le tour et vous comptez, prenez toutes les flèches qui arrivent, et ce sont des moyens d'augmenter votre probabilité. Et les moyens de sortir sont des moyens de diminuer votre probabilité.

Maintenant, dans tous ces cas, vous devez multiplier ces taux bruts par les probabilités d'être dans tous ces autres états.

Alors, pouvez-vous utiliser l'équation maîtresse pour obtenir ces probabilités si vous êtes hors d'équilibre, hors d'état stable ? C'est donc une question. Alors l'équation maîtresse utile en régime permanent ? Oui. Prêt. 3, 2, 1. Très bien. Nous avons donc un bon nombre de--il y a un certain désaccord, mais oui.

Donc en fait, la réponse est oui. Et c'est parce que vous pouvez commencer avec n'importe quelle distribution de probabilités sur tous les états que vous souhaitez. Il se pourrait que toutes les probabilités à un état. Cela pourrait être comme vous le souhaitez. Et l'équation principale vous indique comment cette distribution de probabilité changera au fil du temps.

Maintenant, si vous laissez cela durer éternellement, vous arrivez à un état stable d'équilibre. Et c'est une quantité très intéressante, c'est la distribution à l'état stationnaire de ces probabilités. Mais vous pouvez en fait calculer à partir de n'importe quelle distribution initiale de probabilités évoluant à un moment ultérieur t quelle serait la probabilité plus tard.

Cela vient à une autre question ici. D'accord. Alors imaginons qu'à l'instant t égal à 0, je vous dis qu'il n'y a pas d'ARNm et P pas -- je fais toujours ça. Je ne sais pas, mon cerveau n'aime pas ça. Parce que les P que nous voulons être des probabilités. Nous commençons avec m pas d'ARNm, n pas de protéine.

Et c'est peut-être une situation compliquée. Nous ne pouvons pas calculer cela analytiquement. Donc, ce que nous faisons, c'est que nous allons à notre ordinateur, et nous lui demandons de résoudre comment cette distribution de probabilité évoluera de sorte que le temps T soit égal à un certain temps - si nous le souhaitons, nous pouvons dire que c'est T1. Je vais vous dire, oh, la probabilité d'avoir m et n ARNm et protéine va être égale à quelque chose P1.

Maintenant, la question est, disons que j'y vais et que je refait cette simulation. Maintenant, je calcule à nouveau un autre au temps T1, la probabilité que vous soyez dans l'état m,n. La question est, obtiendrez-vous à nouveau P1? C'est donc un point d'interrogation. Et A est oui, B est non. D'accord. Je vais vous donner 15 secondes. Je pense qu'il est très important que vous compreniez ce que l'équation principale fait et ce qu'elle ne fait pas.

PROFESSEUR : Je suis désolé, qu'est-ce que c'est ? Droit. D'ACCORD. Donc je veux dire, c'est juste-- vous savez, vous programmez dans votre ordinateur pour utiliser l'équation maîtresse pour résoudre comment les probabilités vont évoluer. Je vous dis juste, commencez par une distribution initiale. Et si vous le faites une fois, ça dit, oh, la probabilité que vous ayez m-- cette fois vous allez avoir des protéines d'ARNm va être P1, donc c'est 10%. Super.

Maintenant, je demande simplement, si vous revenez en arrière et recommencez, obtiendrez-vous à nouveau 10 %, ou cette sortie est-elle stochastique ? Ce n'est pas grave si vous êtes confus par cette distinction. Je pense qu'il est facile d'être confus, c'est pourquoi je fais cela. Mais voyons simplement où nous en sommes. Prêt? 3, 2, 1.

D'accord. Donc je dirais encore une majorité. Nous sommes un peu au 80-20, 75-25. Une majorité ici dit que, oui, vous obtiendrez la même probabilité. Et c'est très important que nous comprenions en quelque sorte où cela est où la stochasticité est en quelque sorte ancrée dans ces différentes représentations de ces modélisations.

L'équation maîtresse est un ensemble d'équations différentielles qui vous indiquent comment les probabilités changent au fil du temps en fonction de certaines conditions initiales. Maintenant, nous utilisons ces éléments pour calculer l'évolution d'un processus aléatoire, mais les probabilités elles-mêmes évoluent de manière déterministe. Donc, cela signifie que bien que ces choses soient des probabilités, si vous commencez quelque part et que vous utilisez l'équation principale pour résoudre, vous obtenez la même chose à chaque fois que vous le faites.

Maintenant, ce n'est pas vrai pour la simulation Gillespie, parce que cela, vous regardez une trajectoire individuelle. Une trajectoire individuelle, alors la stochasticité est intégrée dans cette trajectoire elle-même, alors que dans l'équation principale, la stochasticité survient parce que ce sont des probabilités qui calculent, donc toute instanciation individuelle sera probabiliste parce que vous échantillonnez à partir de ces différentes distributions de probabilité.

Maintenant, c'est, je pense, un point suffisamment important pour que s'il y a des questions à ce sujet, nous devrions en parler. Oui.

PUBLIC : Comment faites-vous les simulations ? Voudriez-vous essentiellement-- pouvez-vous prendre une somme sur différents Gillespie?

PROFESSEUR : Donc c'est vrai qu'on peut faire une somme sur différents Gillespie. Mais nous ne vous avons pas encore parlé de ce qu'est l'algorithme de Gillespie, donc je ne peux pas l'utiliser. Mais en effet, vous pouvez simplement utiliser un solveur standard d'équations différentielles. Donc, quel que soit le programme que vous utilisez, il y aura un moyen de le faire.

Et une fois que vous avez écrit ces équations, le fait que ce soient en fait des probabilités n'a pas d'importance. Donc ça aurait pu être autre chose. Donc ça pourrait être le nombre d'œufs, peu importe, n'est-ce pas ? Donc, une fois que vous avez obtenu les équations, les équations vous disent simplement comment les problèmes vont changer au fil du temps. Oui.

PUBLIC : C'est peut-être une question idiote, mais en pratique, devez-vous supposer que toutes les probabilités sont 0 au-dessus d'un certain nombre ?

PROFESSEUR : Oh non, ce n'est pas du tout une question idiote, parce que...

PROFESSEUR : Exactement. Droit. Et oui, c'est une très bonne question. Alors je vous ai dit que c'est un ensemble infini d'équations différentielles. Mais en même temps, je vous ai dit que cette équation maîtresse est censée être utile pour quelque chose, et en quelque sorte, à première vue, ce sont des idées incompatibles.

Et la réponse de base est qu'il faut inclure tous les états où il y a une sorte de probabilité non négligeable. Nous pourrions être concrets, cependant. Alors imaginons que je vous dise que nous voulons regarder le nombre d'ARNm ici. Et je vous dis que OK, Km est égal à-- eh bien, laissez-moi m'en assurer. Gamma m. Quelles sont les durées de vie typiques des ARNm dans les bactéries ?

PROFESSEUR : Exact. Commandez une minute. Cela signifie donc que -- disons que c'est 0,5 minutes moins 1. Pour obtenir une durée de vie d'environ 2 minutes. Et puis imaginons que ce soit alors 50 par minute. Ainsi, un ARNm est en quelque sorte fabriqué une fois par minute. Ils sont 50. C'est beaucoup, mais peu importe. Il y a quelques gènes. Minute. Je voulais que le nombre soit quelque chose.

Il y a donc un bon taux de production d'ARNm. Maintenant, combien d'équations pensez-vous devoir simuler ? Alors on va réfléchir à ça. Tout d'abord, cela dépend-il des conditions initiales ou non ?

PROFESSEUR : Oui. Cela fait. Donc sois prudent. Mais disons que je vous dis que nous commençons avec 50 ARNm. La question est, combien d'équations pensez-vous devoir écrire ? Et disons que nous voulons comprendre cela une fois que cela atteint, disons, l'équilibre.

D'accord. Nombre d'équations. Donnez-moi un moment pour proposer des options raisonnables. Eh bien, ce sont-- disons que cela pourrait apparaître sur vos devoirs. La question est donc : combien d'équations allez-vous programmer dans votre intersimulation ? Et il se peut que cela ne soit pas nécessairement l'un de ces nombres, mais l'ordre. Les gars, comprenez-vous la question ?

Nous avons donc besoin d'une équation différente pour chacune de ces probabilités. Donc, en principe, nous avons-- l'équation maîtresse nous donne un nombre infini d'équations. Nous avons donc d la probabilité d'avoir 0 ARNm par rapport au temps. Ça va être... une idée de ce que ça va être ?

PROFESSEUR : Exact. Donc on a moins Km fois quoi ? Fois p0, à droite. C'est donc parce que si nous commençons ici à P0. Maintenant, nous avons Km. J'étais donc sur le point de violer ma règle et d'écrire une équation sans dessiner cette chose. C'est donc Km fois p0. C'est une façon de perdre de la probabilité, mais vous pouvez également gagner en probabilité à un taux allant de gamma m fois P1.

C'est ainsi que cette probabilité va changer au fil du temps. Mais nous avons une équation différente pour vous pour p1, pour p2, pour p3, pour p4, jusqu'en principe, jusqu'à p1 683 000, bla bla bla, n'est-ce pas ? C'est donc problématique, car si nous devons réellement coder 100 000 000 d'équations dans notre programme, cela pourrait être pire. Ensuite, nous allons avoir des problèmes avec nos ordinateurs. Vous devez donc toujours avoir une idée de ce que vous devriez faire.

Et cela met également en évidence qu'il est vraiment important d'avoir une notion intuitive de ce qui se passe dans votre système avant de commencer à programmer, car dans ce cas, vous risquez d'écrire quelque chose qui ne va pas. Vous ne saurez pas si vous avez la bonne réponse et vous pourriez faire quelque chose qui n'a aucun sens. Vous devez donc avoir une idée de ce à quoi le système devrait ressembler avant même de commencer à le coder. Ma question est, combien de ces équations devrions-nous simuler?

D'ACCORD. Voyons simplement où nous en sommes. Prêt. 3, 2, 1. D'accord. Donc je dirais que nous avons, c'est essentiellement entre C et D. Ouais. Je dirais que certaines personnes sont peut-être plus prudentes que moi. L'un des D peut-il peut-être défendre pourquoi il dit D ?

PROFESSEUR : La moyenne est de 100, et quand vous dites... Je veux dire, je pense que tout ce que vous pensez est correct, mais je pense que les mots sont un peu dangereux. Et pourquoi est-ce que je suis préoccupé par-- vous avez dit-- est la moyenne de 100 pour tous les temps ?

PUBLIC : [INAUDIBLE] et en régime permanent.

PROFESSEUR : Et en régime permanent. Droit. Je pense que c'était le - pendant longtemps, le nombre moyen d'ARNm sera effectivement de 100. Donc le nombre moyen de m, dans ce cas, sera Km divisé par gamma m, qui sera égal à 50 divisé par cela. Cela nous donne 100. Est-ce que ce sera exactement 100 ? Non. Ça va être 100 plus ou moins quoi ? Plus ou moins 10. D'accord. Parce que cette distribution à l'état stationnaire est quoi?

LE PROFESSEUR : C'est Poisson. Quelle est la variance d'une distribution de Poisson ? C'est égal à la moyenne. Donc pour Poisson, la variance est égale à la moyenne. La variance est le carré de l'écart type, ce qui signifie que cela va être plus ou moins 10. C'est en quelque sorte la largeur typique de la distribution. Donc, cela signifie qu'à l'équilibre, nous allons être à 100 et ça va ressembler à ça. Cela pourrait donc être 2 sigma, donc cela pourrait être 20. Mais chacun d'entre eux est 10.

Donc, si vous voulez capturer cela, vous voudrez peut-être aller à quelques sigma. Alors disons que vous voulez sortir à 3 sigma, alors vous voudrez peut-être sortir à 130. Donc, si vous voulez être plus prudent, vous allez jusqu'à 140 ou 150. Mais cette chose va décroître de façon exponentielle, vous n'avez donc pas besoin d'aller jusqu'à 1 000, car la probabilité va être 0 0 0. Certaine une fois que vous êtes à 200, vous n'avez pas à vous en soucier.

Mais bien sûr, vous devez vous rappeler la condition initiale que nous avons commencée à 50 ans. Nous avons donc commencé à ce stade, ce qui signifie que nous devons absolument inclure cette équation. Sinon, nous sommes en difficulté. Maintenant, de combien devons-nous descendre en dessous de 50 ?

PUBLIC : Je suppose que ce ne serait pas beaucoup plus que le [? quelques ?] fois 5, car s'il était déjà à l'équilibre ce serait la moyenne. Mais ce n'est pas le cas, et donc la force motrice va toujours le repousser à [INAUDIBLE].

PROFESSEUR : C'est vrai. Ce sera donc une marche aléatoire biaisée ici, où il sera en quelque sorte peut-être deux fois plus probable à chaque pas de se déplacer à droite que de se déplacer à gauche. Cela signifie qu'il pourrait très bien aller à 49, 48. Mais il ne va pas vraiment descendre en dessous de 40, disons. Bien sûr, vous devez quantifier ces choses si vous voulez être prudent. Mais je dirais certainement que passer de, je ne sais pas, 35 à 135 me conviendrait. Vous obtiendrez un crédit complet sur votre ensemble de problèmes.

Donc on va dire -- je vais rattraper ça -- de 35 à 135, 134 juste pour que ça puisse être 100 équations. Donc je dirais que je serais bien avec 100 équations. Ainsi, vous simulerez le changement des probabilités de P35 à P134, par exemple. Ainsi, bien qu'en principe, l'équation maîtresse spécifie comment les probabilités d'un nombre infini d'équations vont changer, il vous suffit d'en simuler un nombre fini en fonction de la dynamique de votre système. Oui. Merci pour la question, car c'est une chose pratique très importante.

PUBLIC : Donc, dans la pratique, vous ne savez pas quelle est la solution, c'est en quelque sorte pourquoi vous le feriez [INAUDIBLE]. Expliquez-vous votre gamme et voyez si la solution change ?

PROFESSEUR : Donc la question est, dans ce cas, c'est un peu de la triche parce que nous connaissions déjà en quelque sorte la réponse. Nous ne savions pas exactement comment la dépendance temporelle allait se dérouler. Comment se fait-il que la moyenne va changer au fil du temps en moyenne ? De façon exponentielle, non ? Donc, en moyenne, vous commencerez à 50. Vous vous détendrez de façon exponentielle jusqu'à 100. Mais dans de nombreux cas, nous ne savons pas grand-chose sur le système. Et je dirais que ce que vous pouvez faire, en général, c'est que vous devez toujours spécifier un nombre fini d'équations. Mais ensuite, ce que vous pouvez faire, c'est mettre, par exemple, des conditions aux limites reflétantes ou ainsi de suite à la fin, afin de ne pas permettre à la probabilité de s'échapper.

Mais ensuite, ce que vous pouvez faire, c'est exécuter la simulation, et si vous avez une probabilité raisonnable d'atteindre l'une de vos limites, alors vous savez que vous avez des problèmes et vous devez l'étendre à partir de là. Vous pouvez donc chercher à dire, oh, est-ce au-dessus de 10 à moins 3 ou 4, peu importe. Et puis si c'est le cas, alors vous savez que vous devez aller plus loin. Toute autre question sur la façon dont vous allez réellement faire des simulations de cela, ce sont donc des questions pertinentes pour vous. D'accord.

C'est donc l'équation maîtresse. Mais je dirais que la clé, l'élément clé à retenir, c'est qu'il vous indique comment calculer l'évolution déterministe de la probabilité de ces états étant donné un ensemble d'interactions potentiellement compliqué.

Maintenant, une vue plutôt orthogonale de l'équation maîtresse consiste à utiliser l'algorithme de Gillespie, ou en général, à faire des simulations stochastiques directes de trajectoires individuelles. Oui. Question avant de partir.

PUBLIC : Donc, si nous le réglons simplement sur 0, les probabilités en dehors de la plage dont nous pensons avoir besoin, perdrions-nous des probabilités ?

PROFESSEUR : La question est donc de savoir si nous perdons en quelque sorte des probabilités. Donc ce que je proposais avant, c'est que vous voulez toujours que les probabilités soient égales à 1. Sinon ce n'est pas notre probabilité et les mathématiciens s'énervent. Et l'essentiel est que vous vouliez commencer par -- vous devez inclure tous les états qui ont une probabilité au début.

Donc, dans ce sens, on vous donne une distribution initiale, et vous devez inclure tous ces états. Sinon, vous allez certainement faire quelque chose de drôle. Vous commencez avec une distribution de probabilité normalisée. Et puis je suppose que ce que je proposais, c'est que vous ayez un nombre fini d'équations, mais vous ne laissez pas la probabilité partir ou venir de ces extrémités.

Et si vous faites cela, vous aurez toujours une distribution de probabilité normalisée. Bien sûr, aux extrémités, vous avez en quelque sorte violé les équations réelles, et c'est pourquoi vous devez vous assurer que vous n'avez pas de probabilité significative à aucune de vos limites. Cela répond-il ? Pas assez?

PUBLIC : Parce que je me demande si [INAUDIBLE].

PROFESSEUR : Donc je ne suggérais pas que vous définissiez les probabilités égales à 0. Je suggérais que vous fassiez ce qui ressemble un peu aux équations ici, c'est-à-dire que vous ne permettez à aucune probabilité de partir. Il n'y a probablement pas de flux sur ce bord.

Ainsi, par exemple, à P134, je dirais simplement, OK, eh bien, voici la probabilité que vous ayez 134 ARNm. Et en principe, il y a ces deux flèches, mais vous pouvez simplement vous en débarrasser.Alors maintenant, toute probabilité qui entre ici ne peut que revenir. Et j'ai en quelque sorte violé mes équations. Mais si P134 est essentiellement 0, alors cela n'a pas d'importance.

Donc, au lieu de regarder ces probabilités évoluer comme un tout, nous pouvons plutôt regarder des trajectoires individuelles, n'est-ce pas ? Donc l'idée ici est que si nous commençons par la situation-- en fait, nous pouvons prendre cette chose ici. Donc, nous savons qu'à l'état d'équilibre, ce sera 100. Commence à 50. Et dans ce cas, avec l'équation maîtresse, vous dites, OK, eh bien, vous commencez avec toutes les probabilités ici.

Vous avez donc une sorte de fonction delta à 50. Mais ensuite, ce qui se passe, c'est que cette chose évolue, et avec le temps, cette chose se propage jusqu'à ce que vous ayez quelque chose qui ressemble à ceci, où vous avez une distribution de Poisson centrée autour de 100. Et cette distribution de Poisson va être très proche d'une gaussienne, car vous avez un nombre important.

Ainsi, l'équation maîtresse vous indique comment évolue cette distribution de probabilité. Maintenant, c'est le nombre m et c'est en quelque sorte la fréquence à laquelle vous l'observez. Nous pouvons donc aussi inverser les choses et tracer à la place le nombre m sur l'axe des y. Et nous avons déjà dit que les équations déterministes ressembleront à ceci. Et l'échelle de temps caractéristique pour cela, c'est quoi?

1 sur mm, non? Donc cette chose se détend à l'équilibre, échelle de temps déterminée par le temps de dégradation de l'ARNm. Donc ce sont des choses qui devraient être vraiment -- vous voulez être en quelque sorte percé dans votre tête, et j'essaie de percer, donc vous les entendrez encore et encore.

Maintenant, l'équation principale, en effet, puisque tout est linéaire ici, la valeur attendue sur les distributions de probabilité se comporte en fait comme ceci. Donc la moyenne des distributions en fonction du temps ressemble à ça. Et à certains égards, si nous devions tracer cela, nous dirions, OK, eh bien, tout d'abord, tout est là. Ensuite, ça ressemble à ça. C'est donc en quelque sorte la façon dont ces distributions de probabilités s'étendent au fil du temps.

Maintenant, pour une trajectoire individuelle, si nous exécutons un tas de simulations stochastiques, nous obtiendrons quelque chose qui ressemble en moyenne à ceci, mais cela pourrait ressembler à ceci. Un autre pourrait ressembler à ceci, et ainsi de suite, bien qu'ils ne devraient pas y converger car ce n'est pas cohérent.

Et si vous avez fait un histogramme à tous ces moments différents des trajectoires stochastiques individuelles, vous devriez récupérer la distribution de probabilité que vous avez obtenue pour l'équation principale.

C'est donc un moyen puissant de vous assurer que, par exemple, vos simulations fonctionnent, que vous pouvez vérifier pour vous assurer que tout se comporte de manière cohérente.

Maintenant, il y a une question majeure, cependant, comment se fait-il que vous devriez générer ces trajectoires stochastiques ? Et le genre de chose la plus simple à faire est de simplement diviser le temps en un tas de petits delta t, et de simplement demander si quelque chose s'est passé. Alors laisse moi...

Donc ce que nous voulons faire, c'est imaginer que nous avons peut-être m espèces chimiques. Alors maintenant, ce sont des m et des n différents. Fais attention. m espèces chimiques, ça peut être n'importe quoi, ça peut être des protéines, ça peut être de petites molécules, quelque chose. Et il y a n réactions possibles.

Et en effet, dans certains cas, les gens veulent étudier la dynamique stochastique des grands réseaux. Vous pourriez donc avoir 50 espèces chimiques et 300 réactions différentes. Cela peut donc être assez compliqué. Et ces m espèces chimiques ont, disons, des nombres ou si vous voulez, dans certains cas, il peut s'agir de concentrations, Xi, alors le tout peut être décrit comme un vecteur X.

Et la question est, comment devrions-nous assimiler cela? Le soi-disant, ce que nous appelons souvent le protocole naïf - et c'est en effet ce que j'ai fait à l'université parce que personne ne m'a dit que je n'étais pas censé le faire - c'est que vous divisez le temps en petits segments de temps delta t .

Petit delta t. Et tu fais ça encore et encore. Et pour chaque delta t que vous demandez, quelque chose s'est-il passé ? Si c'est le cas, vous mettez à jour. Sinon, vous continuez. Maintenant, le problème avec cette approche-- eh bien, quel est le problème avec cette approche ?

PROFESSEUR : Oui. Le temps est continu. Donc, un problème est que, eh bien, vous n'aimez pas le temps discret. C'est compréhensible. Mais je vais dire, eh bien, vous savez, les détails-- un delta t peut être petit, donc vous ne le remarquerez pas. Je dis, si j'ai dit que le delta t est petit, alors je vais prétendre que vous n'allez pas remarquer que j'ai--

PROFESSEUR : Mais alors la simulation est lente, n'est-ce pas ? Il y a donc un compromis fondamental ici. Et en particulier, le problème avec ce protocole est que pour qu'il se comporte raisonnablement, le delta t doit être très petit. Et qu'est-ce que je veux dire par très petit, cependant?

PROFESSEUR : C'est vrai. Pour que cela fonctionne, le delta t doit être tel qu'il soit peu probable que quoi que ce soit se produise. Mais c'est déjà un problème, car cela signifie que nous faisons beaucoup de simulations, et puis il ne se passe rien. Comment pouvons-nous déterminer quelle est cette probabilité?

Donc, en particulier, nous pouvons poser des questions sur... eh bien, étant donné les réactions possibles, nous dirons avec des taux rs de i. Donc, la probabilité que la ième réaction se produise est égale à ri fois delta t pour un petit delta t, parce que chacune de ces réactions se produira en quelque sorte à un rythme -- ce seront des distributions exponentielles des temps pour qu'elles se produire. Il s'agit d'un processus de Poisson car il est aléatoire.

Maintenant, ce que nous voulons savoir, c'est la probabilité que rien ne se passe parce que c'est ainsi que nous allons définir le delta t. Eh bien, ce que nous pouvons imaginer est, alors nous disons, eh bien, quelle est la probabilité qui est, disons, pas la réaction 1 et pas 2 et point point point. D'ACCORD. Eh bien, et c'est dans un certain temps delta t.

Eh bien, en fait, nous savons que si le processus fondamental ressemble à ceci, alors nous allons obtenir des distributions exponentielles pour chacun d'entre eux. On se retrouve donc avec e jusqu'au r1, et en effet, une fois qu'on écrit une exponentielle, on n'a pas à écrire delta t. C'est juste un certain temps t. Pour que cela soit vrai, il faut un delta t très petit. Mais si nous voulons simplement demander quelle est la probabilité que la réaction 1 ne se soit pas produite dans un certain temps t, cela est en fait précisément égal à e au r1t. Oui, des détails.

Et c'est e au moins r2t point point point moins. Et nous montons jusqu'à n, r jusqu'au nt, parce que chacune de ces réactions chimiques va être distribuée de manière exponentielle en termes de temps d'attente avant qu'elles se produisent.

Et ce qui est bien à ce sujet, c'est que cela signifie que si vous posez simplement des questions sur la distribution de probabilité pour tous combinés en disant qu'aucun d'entre eux ne s'est produit, c'est en fait juste égal à l'exposant de moins - maintenant nous pourrions tirer le t out et nous somme juste sur ri.

C'est donc en fait, d'une certaine manière, un peu surprenant, à savoir que chacune de ces réactions chimiques se produit, et elles se produisent à des rythmes différents. Certains d'entre eux peuvent être rapides, d'autres peuvent être lents. Les ri peuvent être différents par ordre de grandeur. Mais quand même, au cours de ces centaines de réactions chimiques, si la seule chose que vous voulez savoir est, oh, quelle est la probabilité qu'aucune d'entre elles ne se soit produite, cela va également finir - cela va décroître de façon exponentielle.

Et cela nous dit en fait quelque chose de très intéressant, à savoir que si nous voulons connaître la distribution des temps pour que la première chose se produise, cela va également être distribué de manière exponentielle. Et c'est juste distribué de façon exponentielle avec un taux qui est donné par la somme de ces taux. Maintenant, c'est l'idée de base derrière cet algorithme de GIllespie, où au lieu de diviser les choses en un tas de petites fois delta t, à la place, vous demandez, combien de temps vais-je devoir attendre avant que la première chose n'arrive ? Et vous venez d'échantillonner à partir d'une exponentielle avec ce taux r qui est la somme des taux.

Peut-être que ça vaut même la peine de dire ça, OK, donc il y a l'algorithme naïf où vous divisez juste un tas de delta t, vous faites juste quelques pas, vous dites, OK, rien, rien, rien, rien, et puis finalement quelque chose se passe, et puis vous mettez à jour, vous continuez.

Il y a l'algorithme un peu moins naïf, qui est exact, donc ce n'est pas les mêmes préoccupations, le chapeau j qui est que vous pouvez simplement échantillonner à partir de n exponentielles différentes, chacune avec ses propres taux, puis prendre le minimum d'entre elles et dire, OK, c'est ce qui s'est passé en premier, puis mettez à jour à partir de cela. Et c'est un algorithme exact.

Mais le problème est que vous devez échantillonner à partir de nombreuses exponentielles différentes. Et ce n'est pas un désastre, mais encore une fois, le calcul est lent. Ainsi, l'algorithme de Gillespie supprime l'exigence de de ces n exponentielles, car au lieu de cela, vous dites simplement que les nombres ou les concentrations, donnent tous les ri, vous donnent tous les taux.

Et puis ce que vous faites est d'échantillonner à partir d'une exponentielle avec le taux r, qui est la somme de tous les ri. Cela vous indique quand la première réaction va se produire. Et puis ce que vous faites, c'est vous demander, eh bien, quelle réaction s'est produite ? Parce que vous ne le savez pas encore. Et là, ce ne sont que les probabilités de chacun d'eux. Donc, les probabilités Pi seront juste le ri divisé par la somme sur le ri, donc ce grand R.

Il se peut donc que vous ayez eu 300 réactions chimiques possibles, mais vous n'avez qu'à faire deux choses ici. Et ils sont tous les deux assez simples, non ? Vous échantillonnez à partir d'une exponentielle, vous donne combien de temps vous avez dû attendre pour que quelque chose se passe. Et puis vous venez d'échantillonner à partir d'une autre chose de probabilité simple ici qui vous dit simplement laquelle des n réactions chimiques possibles est-ce qui s'est réellement produit. Et bien sûr, les réactions chimiques qui se produisaient à un rythme plus rapide ont une probabilité plus élevée d'être choisies.

Il s'agit donc en fait d'une procédure exacte dans le sens où il n'y a pas de numérisation du temps ou quoi que ce soit du genre. Donc, cela est en fait efficace sur le plan informatique et est exact, en supposant que votre description des réactions chimiques était exacte pour commencer.

Alors, ce que nous faisons, c'est mettre à jour l'heure. C'est à certains égards - lorsque vous faites des calculs, lorsque vous faites des simulations - c'est peut-être la partie ennuyeuse de l'algorithme de Gillespie, c'est que maintenant vos temps ne sont pas également espacés, et alors vous devez juste vous assurer vous vous en souvenez, vous ne complotez pas quelque chose qui est incorrect. Parce que vos temps vont sauter à des intervalles de temps différents. Mais c'est faisable. Vous devez mettre à jour votre temps et vous devez mettre à jour vos abondances. Et puis ce que vous faites, c'est répéter.

Je pense que les notes font en quelque sorte allusion à cet algorithme de Gillespie, mais ne sont pas tout à fait explicites sur ce que vous faites réellement pour suivre ce processus. Pour les simulations que vous allez faire dans cette classe, je dirais que vous n'obtenez pas tous les avantages du Gillespie dans le sens où vous n'allez pas simuler des centaines d'équations différentielles avec des centaines de choses différentes . Mais c'est dans ces modèles compliqués que vous devez vraiment faire ce genre d'approche de Gillespie, par rapport même à ce modèle un peu meilleur, qui consiste à échantillonner à partir des différentes exponentielles.

Y a-t-il des questions sur les raisons pour lesquelles cela pourrait fonctionner, pourquoi vous voudriez le faire ? Oui.

PUBLIC : Qu'entendez-vous par échantillonner les exponentielles ?

PROFESSEUR : Exact. Ce que je veux dire, c'est que vous allez à Matlab et vous dites, au hasard-- Je suis plutôt sérieux, mais-- désolé, j'essaye d'avoir un nouveau-- D'accord. Donc vous l'exponentiel. C'est donc une distribution de probabilité. C'est donc la probabilité est une fonction du temps et puis t. Et ça va ressembler à quelque chose comme ça. Cette chose va être quelque-- étant donné qu'en général, ce sera la probabilité t va être e au moins rt. Et puis est-ce que je mets r ici ou dois-je mettre 1 sur r ?

PROFESSEUR : Est-ce 1 sur r ? Eh bien, quelles devraient être les unités d'une distribution de probabilité ? 1 au fil du temps, dans ce cas. C'est 1 sur tout ce qui se trouve sur cet axe des x, parce que si vous voulez obtenir la probabilité réelle, honnête à bonté -- donc si vous voulez la probabilité que t soit, disons, entre t1 et t1 plus delta t. Si vous voulez une probabilité réelle, alors cette chose est égale à la densité de probabilité à t1, dans ce cas, multipliée par delta t. Cela signifie donc que la chose doit avoir un 1 au fil du temps, et cela nous donne r ici.

C'est donc la densité de probabilité, et ce que je dis, c'est que quand je dis échantillon de cette distribution de probabilité, cela signifie que c'est comme lancer un dé, mais que c'est un dé biaisé parce que c'est une chose continue dans le temps. Mais tout comme quand vous avez un dé à six faces et que je dis, OK, échantillon du dé, vous jouez au Monopoly, vous lancez le dé et vous obtenez 1, 2, 3, 4, 5, 6. Et vous le faites ça encore et encore.

Même chose ici. Vous lancez le dé et voyez ce qui se passe. Et en effet, vous allez vous entraîner avec les distributions de probabilité sur les devoirs que vous faites en ce moment parce qu'on vous demande de démontrer que vous pouvez échantillonner à partir d'une distribution uniforme, ce qui est tout aussi probable à travers la ligne d'unité , et faire une transformation et obtenir une distribution exponentielle.

Et avant, tout le monde connaissait toutes ces astuces parce qu'il fallait en quelque sorte les connaître pour faire du calcul. Mais maintenant, Matlab, ou quel que soit le programme que vous utilisez, ils connaissent toutes les astuces, vous lui demandez donc simplement d'échantillonner à partir d'une exponentielle avec cette propriété et il le fait pour vous. Mais encore faut-il savoir ce qu'il fait.

Alors juste pour être clair, quel est le moment le plus probable que vous allez sortir de l'exponentiel ? 0. Il y a un pic ici mais la moyenne est là-bas. Avez-vous d'autres questions sur le fonctionnement de l'algorithme de Gillespie ?

Quelqu'un peut-il me dire comment survient une explosion de protéines? Nous avons donc eu cette question originale de savoir s'il y avait des explosions de protéines dans ce modèle que j'ai écrit, où nous avons juste eu m point est égal à--

Maintenant, ce que nous avons dit, c'est que l'équation maîtresse ne le ferait pas - l'explosion de protéines serait d'une manière ou d'une autre mais vous ne les verriez jamais, ou d'une manière ou d'une autre, l'explosion de protéines influencerait la façon dont la moyenne et tout ont évolué, mais vous ne verriez pas réellement tous les grands sauts. Mais ensuite nous avons dit, oh, mais si vous faisiez une simulation stochastique, vous le feriez. Donc, l'affirmation ici est que l'algorithme de Gillespie, ce que je viens de vous dire ici, conduira à des explosions de protéines. Quand je fais cette déclaration, qu'est-ce que je veux dire en fait ?

Si on fait un Gillespie de ça, est-ce que le-- OK, attendons. Permettez-moi de faire un vote rapide. Aurons-nous des cas où delta n est supérieur à 1 ? Si je passe par ce processus, si j'utilise le Gillespie et que je surveille comment l'ARNm et le nombre de protéines changent au fil du temps, vais-je obtenir ces choses, des explosions de protéines, où delta n est supérieur à 1 dans l'une de ces périodes cycles ?

Prêt? 3, 2, 1. Donc, la plupart des membres du groupe disent que ce sera non. Mais encore une fois, c'est mitigé. Alors quelqu'un peut-il dire pourquoi nous n'obtenons pas...

PUBLIC : [INAUDIBLE] Il semble que la structure de la simulation soit de s'assurer que [INAUDIBLE].

PROFESSEUR : C'est vrai. Oui. Donc la simulation telle qu'elle est écrite -- vous pouvez imaginer une sorte de version phénoménologique de ceci où vous autorisez, en fait, les explosions de protéines. Mais comme c'est en quelque sorte spécifié, c'est que nous demandons, quel est le temps pour qu'une chose se produise ? Mais l'affirmation est, d'une manière ou d'une autre, OK, eh bien, nous pouvons toujours obtenir des explosions de protéines à partir de cela. Et comment ça se passe ?

AUDIENCE : Vous pouvez voir le taux d'un événement augmenter soudainement, et cela se produirait si nous passions de m égal 0 à m égal 1--

PROFESSEUR : Oui, par exemple, si nous n'avions pas d'ARNm avant et que nous avions un ARNm. Ce que cela signifie que si vous regardez n en fonction du temps pendant l'un de ces sursauts de protéines - avant, je le dessinais en sautant, mais vraiment, dans le contexte du Gillespie, ce serait qu'il sauterait, sauter. Il y aurait donc peu de sauts de temps. C'est donc une explosion de protéines, mais c'est vraiment avant que cet ARNm ne soit dégradé, vous obtenez 1, 1, 1, 1.

Donc chacun de ceux-ci est delta n de 1. Donc c'est n'importe quoi, 6, 7. Et ensuite, ce qui peut arriver, c'est que nous obtenons l'ARNm dégradé. Et alors nous allons avoir un truc plus lent où ça ressemble à ça. Donc le Gillespie, tout est créé et détruit par unités de 1. Mais il se peut que l'intervalle de temps sur cette rafale soit juste très court, alors ça monte très vite, mais ensuite c'est plus lent à disparaître.

Donc, ce que je veux faire au cours des 15 dernières minutes, c'est parler un peu de l'approximation Fokker-Planck. Je dirais que toutes ces différentes approches sont utiles à des degrés divers en termes de simulations, de calculs analytiques, d'intuition. Et l'approche Fokker-Planck, je dirais que c'est plus ou moins utile pour différentes personnes selon ce que vous faites.

Donc l'idée de base, comme vous l'avez en quelque sorte répondu dans la lecture de pré-classe, est que dans les cas où n est suffisamment grand pour que vous n'ayez pas l'impression de devoir prendre en compte la nature discrète des molécules, mais en même temps le temps, ce n'est pas si grand que vous pouvez totalement ignorer les fluctuations, alors l'approche Fokker-Planck est agréable car elle vous permet d'avoir une idée de ce qui se passe sans tous les détails fous de, par exemple, l'équation principale. Et puis ça aussi, à cause de cette idée de potentiel effectif, ça permet d'apporter toute l'intuition qui en découle dans l'étude de ces circuits de gènes.

Maintenant, je ne vais pas passer en revue toute la dérivation, mais si vous avez des questions à ce sujet, veuillez venir après le cours et je serai heureux de le parcourir avec vous, car c'est en quelque sorte amusant. Mais les notes le survolent. Je pense qu'il est peut-être utile de se rappeler comment cela conduit peut-être à une gaussienne avec une certaine largeur en fonction de la forme des courbes de dégradation de la production.

Donc, la notion de base ici est que, en fonction des f et des g, les termes de dégradation de la production, nous obtenons des potentiels effectifs de formes différentes. Donc, en général, nous avons quelque chose qui ressemble à-- nous avons un point n, il y a un fn, et puis il y a un moins gn.

Ainsi, par exemple, pour quelque chose qui n'est qu'une simple expression, dans le cas de - imaginons maintenant qu'il y a - si vous voulez, nous pouvons dire que c'est une protéine où c'est juste un peu de k moins gamma n. Ou si vous le souhaitez, nous pourrions dire, oh, c'est le numéro d'ARNm. Mais quelque chose qui n'est qu'une simple production, puis une dégradation de premier ordre.

La question est, comment allons-nous comprendre cela dans le contexte de l'approximation de Fokker-Planck ? Et il s'avère que vous pouvez l'écrire dans ce qui est essentiellement une équation de diffusion où vous avez un flux de probabilité qui se déplace. Et dans ce domaine, vous pouvez écrire que la distribution de probabilité du nombre va être quelque chose qui-- donc il va y avoir une certaine constante. Il y a f plus g. Et ce sont les deux fonctions de n. Et puis tu as e au moins [INAUDIBLE]

Donc, l'idée ici est que cela se comporte comme un potentiel efficace. Bien sûr, ce n'est pas tout à fait vrai car f et g sont également des fonctions de n, elles ne le sont pas ici. Mais c'est le terme dominant car il est dans l'exponentielle. Et ici phi n est défini comme suit. C'est donc moins cette intégrale sur n des f moins g et f plus g dn que nous intégrons sur n premiers.

Et nous allons en quelque sorte voir à quoi pourraient ressembler certains de ces différents f et g pour essayer de comprendre pourquoi cela s'est produit. Il convient de mentionner que vous pouvez le faire pour n'importe quel f et g quand c'est juste dans une dimension, donc vous n'avez que n. Une fois que vous l'avez en deux dimensions, donc une fois que vous avez réellement de l'ARNm et des protéines, par exemple, vous n'êtes pas assuré de pouvoir l'écrire comme un potentiel efficace. Bien que je suppose que si vous êtes prêt à invoquer un potentiel vectoriel, vous le pouvez peut-être.

Mais en termes de potentiel simple, alors vous pouvez le faire dans une dimension, mais pas nécessairement dans plus. Et je pense que, en général, notre intuition n'est pas aussi utile quand vous avez l'équivalent des champs magnétiques et ainsi de suite ici de toute façon.

Ce que je veux faire, c'est juste essayer de comprendre pourquoi cette chose ressemble à ce qu'elle fait pour ce simple cas de réglementation. Et puis nous allons nous demander si nous changeons une chose ou une autre, comment cela affecte-t-il la variance résultante.

Donc, pour une expression non régulée, comme ici, si nous regardons la production et la dégradation en fonction de n, fn n'est qu'une constante k, tandis que gn est une droite qui monte en gamma n. Maintenant, dans cette situation, si vous faites cette intégrale -- et vraiment, ce que vous pouvez imaginer, c'est à quoi ressemble cette intégrale juste autour de cet état stable, parce que c'est un peu ce que nous voulons savoir, si nous voulons quelque chose, par exemple , la largeur d'une distribution.

Eh bien, il va y avoir deux termes. Au numérateur, il y a un f moins g. Au dénominateur, il y a un f plus g. Maintenant, f moins g est en fait égal à 0 à cet état stable, et c'est pourquoi c'est un état stable, car la production et la dégradation sont égales. Maintenant que vous vous éloignez de cet endroit, vous intégrez la différence entre le f et le g.

Et vous pouvez voir qu'ici, ces choses se séparent en quelque sorte - eh bien, tout est une ligne ici. Et en effet, même si f et g n'étaient pas linéaires, près de cet état stationnaire, ils seraient linéaires. Ce que nous pouvons voir, c'est qu'au fur et à mesure que vous vous intégrez, vous intégrez quelque chose qui croît linéairement. C'est ce qui vous donne un quadratique. Et c'est pourquoi cet effet de potentiel finit par se comporter comme si vous étiez dans un piège quadratique.

Maintenant, je vous encourage à aller de l'avant et à faire cette intégrale à un moment donné. J'avais prévu de le faire pour vous aujourd'hui, mais nous manquons de temps. Encore une fois, je suis content de le faire, juste après le cours. Et en effet, ce que vous pouvez voir, c'est que parce que vous vous intégrez ici, vous finissez par obtenir une augmentation quadratique du potentiel effectif. Et si vous regardez quelle est la variance de cette chose, vous trouvez en effet que la variance est égale à la moyenne ici.

Donc, ce que je veux demander pour essayer d'avoir une intuition, c'est que se passe-t-il si nous abaissons ces courbes ? Donc en particulier, imaginons que nous ayons une situation où - je vais reparamétrer les choses, donc encore une fois, nous gardons en quelque sorte le nombre d'équilibre constant. Mais maintenant, ce que je vais faire, c'est que je vais avoir un fn qui ressemble à ceci, et gn ressemble à-- maintenant gn va être environ 1/2 de lambda, et ce fn est égal à k moins 1/2 de gamma n.

Maintenant, la question est, dans cette situation, quelle sera la variance par rapport à la moyenne ? Eh bien, tout d'abord, la variance par rapport à la moyenne ici était égale à quoi ? Mais devrions-nous voter? Voici quelques options.

La question est la variance par rapport à la moyenne dans cette situation. Je crains que cela ne fonctionne pas, mais voyons simplement où sont. Prêt, 3, 2, 1. D'accord. Je dirais donc qu'au moins globalement, les gens s'accordent pour dire que la variance par rapport à la moyenne ici est égale à 1.

Et encore une fois, c'est la situation que nous avons analysée à plusieurs reprises, à savoir que dans cette situation, nous obtenons un poisson, où le poisson n'a qu'un seul paramètre libre, et ce paramètre spécifie à la fois la moyenne et la variance. Donc, pour un poisson, la variance de la moyenne est bien égale à 1. Donc l'approximation de Fokker-Planck récapitule avec précision cela.

Maintenant, la question est, quelle sera la variance par rapport à la moyenne dans la situation que je viens de dessiner ici ? Je vais donc vous donner une minute pour essayer de réfléchir à ce que cela signifie. Et il y a plusieurs façons de le découvrir. Vous pouvez regarder, peut-être, l'intégrale. Vous pouvez penser à l'intuition biologique pour faire au moins une estimation de ce qu'elle devrait faire.

La question est, si le taux de production et le taux de dégradation ressemblent à ceci, qu'est-ce que cela signifie pour la variance par rapport à la moyenne ? Alors je vais vous donner une minute pour jouer avec.

Pourquoi ne pas aller de l'avant et voter, juste pour que je puisse avoir une idée d'où nous en sommes ? Et aussi, ce n'est pas grave si vous ne pouvez pas vraiment comprendre cela ou si vous êtes confus. Mais allez-y et faites votre meilleure estimation de toute façon, car c'est aussi utile si vous pouvez deviner la direction dans laquelle il ira, même si vous ne pouvez pas comprendre son ampleur.

Alors votons. Prêt, 3, 2, 1. OK. C'est donc un mélange maintenant, je dirais, de A, B, C, Ds. Oui, je pense que c'est, je pense, difficile et déroutant. Je n'aurai peut-être pas... d'accord. Je vais peut-être dire quelque chose. Il se peut que se parler n'aide pas beaucoup.

OK, donc dans ce cas, ce qui est pertinent, c'est à la fois le f moins g et le f plus g. Et il s'avère que f moins g se comporte en fait de la même manière, car au point fixe, ou à l'équilibre, il commence à 0 et puis il grandit de la même manière que vous vous en éloignez. La différence est le f plus g, où c'est très différent de 0. Et f plus g à l'équilibre, ce f plus g ici est d'environ 2k, alors que f plus g ici est d'environ 1k.

Cela signifie que dans les deux cas, vous avez un potentiel quadratique. Mais ici, le potentiel quadratique finit par être plus raide. Donc, si ce n'était pas réglementé, alors ici, nous obtenons toujours un quadratique, mais c'est avec des murs plus raides. Donc en fait ici, ceci, la variance par rapport à la moyenne, finit par être 1/2.

Il est utile d'aller de l'avant et de jouer avec ces équations pour voir pourquoi cela se produit. Et je pense que c'est une bonne façon de penser à cela, dans cette limite, où nous ramenons ce point de croisement jusqu'à 0, maintenant nous avons quelque chose qui ressemble un peu à ça. Donc très, très faible taux de dégradation.

Mais alors aussi le taux de production passe essentiellement à 0 lorsque nous en sommes à ce stade. Donc, nous pourrions toujours paramétrer comme k sur gamma si nous le voulons, avec certains - mais nous pourrions simplement penser à cela comme étant à 100 de ces ARNm, disons. Mais ensuite, nous modifions le taux de dégradation de la production.

Et la variance par rapport à la moyenne ici - quelqu'un a-t-il une idée de l'endroit où cela va ? Dans ce cas, il passe en fait à 0. Et c'est une situation intéressante, car vraiment, dans la limite où il n'y a pas de dégradation, et tout est du côté de la production, ce que cela dit c'est que vous produisez, vous produisez, vous produisez, jusqu'à ce que vous arrivez à ce nombre, qui peut être 100, puis vous arrêtez simplement de faire quoi que ce soit. Vous ne dégradez pas, vous ne produisez pas. Dans ce cas, toutes les cellules auront exactement 100, peut-être, ARNm.

Et ce que le formalisme de type Fokker-Planck vous dit, c'est que ce n'est pas parce que les taux de production et de dégradation sont égaux que f moins g est égal à 0 que cela vous dit que c'est l'équilibre, mais ce n'est pas le cas. vous dire quel écart il y aura autour de l'équilibre. Si f et g sont chacun plus grands, cela conduit à un plus grand écart car il y a plus d'aléatoire, alors qu'ici, f et g sont tous les deux essentiellement 0 à ce stade. Cela signifie que vous vous accumulez juste à cette valeur précise.

Nous n'avons plus de temps, donc je pense que nous devrions arrêter. Mais je suis disponible pour la prochaine demi-heure si quelqu'un a des questions. Merci.


Résultats

Modèle stochastique d'une réaction enzymatique

Nous considérons un modèle qui combine la cinétique enzymatique et l'expression enzymatique en une seule description stochastique (Fig. 1a). Le modèle comprend une réaction enzymatique avec une cinétique Michaelis-Menten standard, dans laquelle le substrat et l'enzyme se lient de manière réversible pour former un complexe qui subit une catalyse réversible en un métabolite. Nous supposons que l'expression de l'enzyme suit le modèle en trois étapes bien établi pour l'expression des gènes 3,27, où un gène à copie unique bascule de manière stochastique entre un état inactif (désactivé) et état actif (au). A l'état actif, les ARNm sont transcrits et traduits en protéine. Le modèle inclut également la consommation du métabolite par les voies en aval, la dégradation des transcrits d'ARNm et la dilution par la croissance de toutes les espèces. Étant donné que les réactions métaboliques opèrent loin de l'équilibre thermodynamique, nous supposons que le pool de substrats reste constant de sorte que le système atteigne un flux non nul, par ex. lorsque le substrat est une source de carbone extracellulaire très abondante ou un métabolite intracellulaire variant lentement. Les réactions du modèle sont présentées dans les équations. (R1)–(R9) dans la section Méthodes.

Modèle stochastique d'une réaction enzymatique. une Le modèle intègre la cinétique réversible Michaelis-Menten avec le modèle en trois étapes pour l'expression des gènes 24,27. Le modèle comprend la consommation du métabolite par les voies en aval, la dégradation des transcrits d'ARNm et la dilution de toutes les espèces chimiques par croissance cellulaire (non illustrée dans le diagramme). Les constantes de vitesse sont illustrées dans la figure et les réactions du modèle sont illustrées dans les équations. (R1)–(R9), Méthodes. L'encart montre une simulation typique pour un ensemble de paramètres réaliste illustré dans le tableau 1. b Construction du modèle de mélange de Poisson (PMM) pour le nombre de molécules de métabolites (mp). Cette approximation est valable sous une séparation des échelles de temps entre l'expression enzymatique et la catalyse enzymatique. Le modèle de mélange, montré dans l'Eq. (1), comprend des distributions de Poisson pondérées par la distribution de l'expression enzymatique P(metot). Le paramètre de Poisson ??(metot) dépend de la cinétique enzymatique via la relation non linéaire dans l'Eq. (4). Dans le cas irréversible (ktour = 0), le ??(metot) est mis à l'échelle linéairement et produit des modes de Poisson équidistants. Le premier mode, Poisson (mp, 0), est mis en surbrillance sous forme de barre. c Le PMM fournit une approximation précise des distributions stationnaires. Les encarts montrent les distributions pour l'enzyme et le métabolite, calculées via des simulations de Gillespie et l'approximation PMM pour les ?? = 1080 molécules, K = 8 molécules et trois paramètres de commutation de promoteur différents, indiqués dans le tableau 1

Pour étudier l'émergence de l'hétérogénéité métabolique, nous devons calculer la distribution de probabilité stationnaire des molécules de métabolites (mp) pour les combinaisons pertinentes de paramètres de modèle. La figure 1b montre une simulation typique du modèle obtenu avec l'algorithme de Gillespie 34 . Un défi clé pour de telles simulations, cependant, est la nature multi-échelle des réactions enzymatiques : non seulement les réactions métaboliques fonctionnent dans une échelle de temps beaucoup plus rapide (millisecondes) que l'expression enzymatique (dizaines de minutes) 30,35,36, mais aussi le nombre moyen d'enzymes est bien inférieur au nombre de métabolites. Ces multiples échelles se traduisent par des propensions à réagir qui diffèrent de plusieurs ordres de grandeur, conduisant ainsi à des simulations extrêmement lentes qui rendent l'exploration de l'espace des paramètres infaisable. Une alternative consiste à utiliser des algorithmes de simulation qui exploitent la séparation des échelles pour augmenter la vitesse de calcul, tels que les approximations à saut tau ou à échelle lente 37 . Pourtant, dans notre cas, l'impact de telles approximations numériques sur les prédictions tirées des simulations n'est pas clair.

Pour déterminer l'impact des paramètres génétiques et catalytiques sur l'hétérogénéité métabolique, nous avons obtenu une approximation analytique de la distribution des molécules de métabolites qui peuvent être évaluées efficacement sans simulations stochastiques coûteuses. Notre solution permet l'exploration de l'espace des paramètres pour caractériser les différents régimes favorisant l'hétérogénéité métabolique. L'approximation découle de l'exploitation de la séparation des échelles de temps dans l'équation maîtresse chimique du processus stochastique 38 . Dans les régimes physiologiques, le modèle a trois échelles de temps : une échelle de temps métabolique rapide, dans laquelle le substrat et l'enzyme se lient et se délient, une échelle de temps intermédiaire associée à la catalyse du métabolite (mp) et une échelle de temps lente associée à l'expression de l'enzyme et à la dilution par croissance cellulaire.

La quantité totale d'enzyme (libre et liée au substrat, notée me et mc, respectivement) varie dans l'échelle de temps la plus lente, et donc la liaison/déliaison du substrat et de l'enzyme s'équilibre rapidement. En conséquence, dans l'échelle de temps de l'expression des gènes, le métabolite peut être supposé dépendre directement de l'enzyme totale metot = me + mc plutôt que sur me et mc individuellement. Sous cette approximation, il convient d'utiliser la loi de probabilité totale :

La formule en (1) décompose la distribution du métabolite P(mp) en stochasticité provenant de l'expression enzymatique, P(metot), et des fluctuations de la réaction catalytique elle-même, décrites par la distribution conditionnelle du métabolite compte tenu de la quantité d'enzyme totale, P(mp|metot). Dans l'échelle de temps des fluctuations des métabolites, l'enzyme totale peut être supposée être dans un état quasi-stationnaire. De plus, en exploitant la liaison/déconnexion rapide entre le substrat et l'enzyme, nous avons montré que le métabolite suit un processus de naissance-mort avec des propensions efficaces (détails dans la section Méthodes) :

où ((<>>>n_<>>,n_>>)) et ((<>>>n_<>>,n_>>)) sont les espérances conditionnelles de l'enzyme libre (me) et complexe (mc) étant donné l'enzyme totale et le métabolite. Dans l'éq. (2), ms est le nombre constant de molécules de substrat, les paramètres k1, k−1, kchat, et ktour sont les constantes de vitesse du mécanisme de Michaelis-Menten (défini dans la figure 1a), et kc est une constante de vitesse de premier ordre efficace de la consommation de métabolites par les voies en aval. La distribution conditionnelle nécessaire dans l'équation. (1) peut alors être calculé explicitement :

et (??, K) sont deux paramètres cinétiques effectifs

Les paramètres ?? et K sont en unités de molécules/cellule et dépendent de l'interaction entre l'abondance du substrat, la cinétique enzymatique et les processus en aval.

Comme illustré sur la figure 1b, la distribution dans l'équation. (1) est un PMM 39,40,41 qui convolue la distribution enzymatique P(metot) avec différents modes de Poisson P(mp|metot) résultant de l'activité catalytique. Dans notre modèle, la distribution analytique de l'abondance totale des enzymes suit la solution standard du modèle en trois étapes pour l'expression génique 27, qui peut être calculée explicitement en termes de paramètres du modèle. Dans certaines limites, le modèle en trois étapes produit approximativement des distributions gamma ou normales en fonction du niveau d'expression moyen et des demi-vies des ARNm et des protéines 3,27.

La décomposition dans l'équation. (1) montre que le PMM n'est pas limité au modèle d'expression génique que nous avons considéré ici. D'autres modèles peuvent être utilisés, soit en utilisant des expressions fermées pour P(metot), ou en déduisant la distribution de l'enzyme directement à partir des données d'expression des protéines unicellulaires telles que la cytométrie en flux ou la microscopie unicellulaire 1,17. Le PMM fournit ainsi un outil polyvalent pour prédire l'hétérogénéité des métabolites à partir de l'hétérogénéité enzymatique modélisée ou mesurée considérée comme une source de variation en amont 41 . La figure 1c montre que la distribution PMM fournit une bonne approximation des simulations de Gillespie calculées avec des valeurs de paramètres typiques.

Caractéristiques qualitatives du modèle de mélange de Poisson

Au cœur du PMM se trouve l'interaction entre la variabilité issue de l'expression des gènes et celle issue de la cinétique enzymatique. Plus précisément, le paramètre de Poisson ??(metot) dans l'éq. (4) contrôle l'emplacement et la dispersion des modes de Poisson, qui à leur tour façonnent le modèle global de variabilité. Comme le montre la figure 1b, il existe plusieurs cas intéressants. Par exemple, pour les réactions irréversibles (ktour = 0), le paramètre de Poisson se simplifie en

qui évolue linéairement avec l'abondance de l'enzyme et donc les modes de Poisson ont des moyennes équidistantes. Dans les réactions réversibles, en revanche, le paramètre de Poisson sature et fait que les modes de Poisson se concentrent autour ??. Cet effet est plus fort pour une forte réversibilité (forte ktour), auquel cas le paramètre cinétique K est petite. Notez également que dans les deux cas, comme le nombre d'enzymes metot grandit, les modes de Poisson s'étalent depuis ??(metot) contrôle à la fois leur moyenne et leur variance.

A partir de la construction du PMM dans l'Eq. (1), nous observons que la distribution enzymatique pondère les différents modes de Poisson, produisant potentiellement des distributions de métabolites unimodales, bimodales, voire multimodales. Par exemple, pour les enzymes réversibles hautement exprimées, la distribution P(metot) est non négligeable pour les grands metot seul. Par conséquent, la plupart des modes de Poisson ne contribuent pas à la distribution finale des métabolites, à l'exception du mode centré à ??, ce qui conduit à une distribution unimodale des métabolites avec une moyenne proche de la moyenne déterministe.

A l'inverse, pour les enzymes faiblement exprimées, il existe une probabilité non négligeable que les enzymes ne soient pas exprimées, et donc le premier terme de la PMM, c'est-à-dire P(0)Poissons(mp, 0), fait que la distribution des métabolites culmine à zéro. Cependant, la distribution des métabolites peut également afficher un deuxième pic à ?? si, par exemple, le ??(metot) provoque la concentration de nombreux modes de Poisson autour de ??. Il en résulte une distribution bimodale des métabolites, dans laquelle une population isogénique se divise en producteurs et non-producteurs de métabolites. Un raisonnement similaire peut être utilisé pour comprendre l'émergence de distributions multimodales de métabolites, qui correspondent à trois sous-populations ou plus avec des activités métaboliques variables. Cette analyse qualitative suggère que des sous-populations métaboliques peuvent émerger même dans les cas où les enzymes présentent des distributions unimodales à travers la population. Surtout, cela indique également que les sous-populations métaboliques émergent par des mécanismes qui ne découlent pas trivialement de la seule hétérogénéité transcriptionnelle, comme nous l'explorons plus en détail dans la section suivante.

Mécanismes de la bimodalité métabolique

Tout d'abord, nous avons exploré l'impact du changement de promoteur stochastique sur l'émergence de la bimodalité des métabolites. La figure 2a montre le résumé des calculs lors de l'évaluation du PMM pour les variations de l'échelle de temps du promoteur et de l'activité du promoteur sur plusieurs ordres de grandeur pour différentes valeurs du paramètre cinétique ??. Nous avons trouvé trois régimes de paramètres qualitativement distincts pour la distribution des métabolites qui émergent de la combinaison de la commutation stochastique et de la catalyse : régime où l'enzyme et le métabolite ont des distributions bimodales et (3) un régime dans lequel l'enzyme est unimodale mais le métabolite est bimodal.

Mécanismes de la bimodalité des métabolites. une Nous avons évalué le modèle de mélange de Poisson sur un large éventail d'échelles de temps de changement de promoteur et d'activité de promoteur. Les distributions unimodales pour l'enzyme et le métabolite (similaires à celles illustrées sur la figure 1c) couvrent une grande partie de l'espace des paramètres. Nous avons identifié deux régimes dans lesquels les métabolites sont bimodaux : dans le régime induit par la commutation, la bimodalité se propage de l'enzyme au métabolite. Dans le régime induit par catalyse, la bimodalité provient d'une enzyme peu abondante et de la forte séparation des échelles de temps entre l'expression et la catalyse. Les petits panneaux montrent les prédictions du modèle pour un paramètre cinétique fixe K = 0,1333 molécules, et croissant ?? = <300, 3000, 30000>molécules, obtenu en augmentant la constante de vitesse de rotation kchat. b Des simulations exactes pour deux ensembles de paramètres vérifient les prédictions tirées de l'approximation PMM. Nous avons simulé sur un long horizon temporel pour obtenir des estimations précises des distributions stationnaires. Les encarts ne montrent qu'une petite partie des cours du temps. Les valeurs des paramètres pour les taux de commutation du promoteur sont indiquées dans le panneau (une) et nous avons corrigé ?? = 500 molécules. Les deux types de bimodalité peuvent être clairement distingués dans les cours temporels, mais nous notons qu'ils conduisent à des distributions presque identiques pour le métabolite. Dans les deux cas, le PMM fournit une approximation précise des distributions stationnaires

On peut montrer que la version déterministe de notre modèle dans les équations. (R1)–(R9) a un seul état stable. Par conséquent, le régime (1) peut être considéré comme une correction stochastique consistant en des distributions unimodales autour d'un état stationnaire déterministe. C'est le comportement attendu sous les hypothèses traditionnelles d'une abondance élevée de molécules d'enzymes et de métabolites.

Les deux autres régimes, cependant, correspondent à des voies alternatives de bimodalité induite par le bruit qui ne peuvent être expliquées à l'aide de modèles déterministes 42,43,44. Le régime (2) est un régime hautement stochastique dominé par la commutation stochastique lente du promoteur, qui entraîne et entraîne la réponse métabolique. C'est pourquoi nous l'appelons bimodalité induite par la commutation. Les promoteurs à commutation lente sont connus pour produire une expression génique bimodale 29,41, et donc ce régime correspond à un cas dans lequel la bimodalité se propage des enzymes aux métabolites. La figure 2a montre que ce comportement apparaît de manière robuste pour une commutation lente et une activité de promoteur élevée à travers les valeurs de la ?? paramètre.

Le régime (3), la deuxième voie pour la bimodalité des métabolites, provient d'une enzyme unimodale mais faiblement exprimée (faible kau/kdésactivé) exprimé à partir de promoteurs à commutation rapide. Dans ce cas, la naissance d'un petit nombre de molécules enzymatiques est suffisante pour relancer la catalyse et la faire s'installer rapidement en régime quasi-stationnaire. Ce phénomène distinct est le résultat de la séparation des échelles de temps entre l'expression enzymatique et la catalyse, et nous l'appelons bimodalité induite catalytiquement. À partir de la figure 2a, nous observons que cette forme de bimodalité apparaît pour une gamme étroite de paramètres de commutation de promoteur correspondant à des gènes à commutation rapide avec une activité de promoteur moyenne à faible. Ce comportement disparaît complètement pour un faible ?? paramètre, par exemple en cas de forte réversibilité.

Pour valider les prédictions de l'approximation PMM, nous avons exécuté des simulations Gillespie complètes sur un long horizon temporel pour différents ensembles de paramètres. La figure 2b montre les cours de temps de simulation et les histogrammes résultants. Pour la bimodalité induite par la commutation, nous observons la lenteur avec laquelle les promoteurs de commutation font qu'une seule cellule manque d'enzyme sur plusieurs cycles cellulaires, une période pendant laquelle le métabolite n'est pas produit. Dans le cas de la bimodalité induite par catalyse, cependant, une commutation rapide combinée à un faible niveau d'expression moyen entraîne une chute de l'abondance des métabolites pour des intervalles plus courts mais plus fréquents. Dans les deux cas, le PMM fournit une excellente approximation des histogrammes bimodaux obtenus à partir des simulations stochastiques. En outre, nous observons que les distributions bimodales des métabolites dans les deux régimes sont presque indiscernables l'un de l'autre, mais elles sont produites par des enzymes avec des évolutions temporelles et des distributions sensiblement différentes. Ces régimes correspondent donc à des formes distinctes de bimodalité, issues de mécanismes fondamentalement différents.

Emergence de la multimodalité métabolique

Pour explorer l'émergence de la multimodalité, nous avons examiné la formule analytique du PMM dans l'équation. (1) pour identifier les régimes cinétiques associés à des distributions d'enzymes distinctes. Une condition nécessaire à l'émergence de modes multiples est que les composantes de Poisson ne se chevauchent pas et soient suffisamment espacées les unes des autres. De la définition du ??(metot) paramètre dans l'Eq. (5), cela se produit lorsque le paramètre cinétique K est large. Comme discuté précédemment, selon la distribution de l'enzyme, les modes de Poisson peuvent apparaître ou s'annuler dans la distribution finale des métabolites. Nous avons ainsi balayé le paramètre K et évalué le PMM à travers divers niveaux d'expression enzymatique, y compris une faible expression avec une distribution asymétrique et une expression élevée avec une enzyme normalement distribuée.

Comme le montre la figure 3, nous avons trouvé des modèles complexes de distributions multimodales, en fonction de l'interaction entre l'hétérogénéité de l'enzyme, P(metot), et la cinétique enzymatique encapsulée par le K paramètre. La multimodalité apparaît lorsque les niveaux d'expression enzymatique sont faibles par rapport au paramètre K. Par exemple, les valeurs de K dans la figure 3 sont environ 5, 20 et 100 fois celles utilisées dans les exemples bimodaux de la figure 2. Pour les enzymes exprimées à des niveaux intermédiaires, de l'ordre de dizaines de molécules/cellule en moyenne, nous avons trouvé des distributions de métabolites qui sont unimodales mais fortement asymétriques. Dans le cas des enzymes fortement exprimées, les métabolites ont suivi des distributions approximativement normales pour une large gamme de paramètres cinétiques.

Emergence de la multimodalité métabolique. Nous avons utilisé l'approximation PMM pour trouver des régimes de multimodalité à travers des perturbations de la cinétique enzymatique. On fait varier le paramètre cinétique K pour contrôler la dépendance du paramètre de Poisson ??(metot) dans l'éq. (4) sur l'abondance totale des enzymes. Les valeurs des paramètres sont ?? = 750 molécules et K = <10,0400, 2,1630, 0,4660>molécules obtenues par variation des constantes de vitesse cinétique kchat et ktour avec un rapport constant kchat/ktour. Nous façonnons l'abondance moyenne d'enzymes avec les taux de commutation de promoteur kau = <1,56, 5,9, 20>× 10 −4 s −1 et kdésactivé = <9,8, 9,3, 8>× 10 -4 s -1 . À partir du PMM, nous avons trouvé des modèles complexes de distributions multimodales dans le métabolite, qui montrent tous une excellente correspondance avec les simulations de Gillespie correspondantes. Les cours de temps simulés montrent des nombres de métabolites traversant divers régimes quasi-stationnaires

Les prédictions sont confirmées par les simulations de Gillespie du modèle stochastique complet, qui affichent une correspondance frappante avec l'approximation PMM, même pour des distributions multimodales complexes. Les cours de temps de simulation (montrés dans les encadrés de la figure 3) montrent que les modes multiples pour les enzymes faiblement exprimées correspondent à des cellules restant dans un état métabolique fixe à l'échelle du cycle cellulaire mais fluctuent entre d'autres états sur des échelles de temps plus longues. Pour une expression enzymatique intermédiaire et des valeurs élevées pour K, le métabolite ne se dépose pas dans les états quasi-stationnaires et affiche une distribution à longue queue. Une diminution de K supprime la queue de la distribution conduisant le PMM vers une distribution approximativement normale. Au total, ces résultats indiquent que la relation entre l'expression enzymatique et les paramètres cinétiques ?? et en particulier, K sont des déterminants clés de l'émergence de la multimodalité. Cela souligne l'utilité du PMM pour guider la prédiction des caractéristiques qualitatives et quantitatives des distributions de métabolites pour un large éventail de combinaisons de paramètres.


Analyse des modèles SPN d'interactions moléculaires

On peut distinguer trois grandes approches de l'analyse des SPN. La première approche utilise l'analyse structurelle du réseau de Petri sous-jacent au SPN (13), où les transitions du SPN sont converties en transitions instantanées pour former un réseau de Petri. Cette approche de l'analyse est similaire au problème de la classification des états d'une chaîne de Markov en états transitoires, fixes ou récurrents. Certaines des utilisations possibles de l'analyse structurelle des modèles de réseau de Petri d'interactions moléculaires ont été décrites (22, 23).

Deuxièmement, l'analyse numérique peut être utilisée pour dériver à la fois le comportement en régime permanent et transitoire. Les algorithmes d'analyse numérique génèrent explicitement la chaîne de Markov associée au SPN (13), mais nécessitent que l'espace d'état de la chaîne de Markov soit inférieur à plusieurs centaines de milliers d'états (24, 25). Pour de nombreux modèles d'interactions moléculaires, cependant, la taille de l'espace d'état augmente très rapidement avec le nombre de types de molécules différents, et l'analyse numérique est peu pratique.

Troisièmement, des algorithmes sont disponibles pour simuler à la fois le comportement en régime permanent et transitoire et estimer les distributions des résultats (21). Les intervalles de confiance relatifs peuvent être estimés et utilisés de manière interactive pour déterminer combien d'exécutions de la simulation sont nécessaires pour produire un niveau de précision donné.

À la suite de Sanders (26), les résultats peuvent être associés à des lieux, appelés mesures de récompense, ou à des transitions, appelées mesures d'impulsion. En termes moléculaires, les mesures de récompense pourraient être utilisées pour estimer la distribution du nombre de molécules de certaines espèces à un moment donné, ou du nombre moyen de molécules sur une certaine période de temps. Les mesures d'impulsion peuvent être utilisées pour déterminer le nombre de fois qu'une réaction se produit dans un intervalle de temps particulier.

A titre d'exemple d'analyse numérique et de simulation d'un SPN, le modèle II est un modèle simple de synthèse protéique. Peccoud et Ycart (19) ont résolu symboliquement les équations de Kolmogorov issues de ce système, et nous comparons les résultats de l'analyse numérique et de la simulation utilisant UltraSAN (21) à ces résultats.

Le modèle II contient une seule copie d'un gène, qui est initialement inactif, mais qui par la suite peut être actif ou inactif. La protéine peut être produite lorsque le gène est actif et peut être dégradée à tout moment. La représentation SPN de ce modèle est donnée sur la figure 2. Le gène lieu actif est à la fois une entrée et une sortie de la synthèse de transition (v), car il est nécessaire à la synthèse mais non consommé, agissant efficacement comme catalyseur. La dégradation des protéines est dessinée comme une transition sans arc de sortie, représentant une réaction sans produits.

Représentation SPN d'un modèle simple de synthèse protéique. Le SPN contient trois emplacements : p1 = gène inactif, p2 = gène actif, et p3 = protéine. Les quatre transitions et leurs paramètres de vitesse respectifs sont l'activation (λ), l'inactivation (μ), la synthèse (ν) et la dégradation (δ). Le point à l'intérieur du gène inactif représente un seul jeton (une seule copie du gène). Ainsi, le marquage initial du SPN est M0 = <1, 0, 0>. D'autres molécules dans ce système, telles que l'ARN polymérase, sont supposées être en concentration constante et ne sont pas explicitement représentées.

Nous définissons deux mesures de sortie pour ce modèle. Le premier est la distribution de probabilité du nombre de molécules de protéines. Pour rendre l'espace d'état du SPN fini pour l'analyse numérique, il est nécessaire de limiter le nombre de molécules de protéines autorisées dans le système, en fixant une frontière réfléchissante sur l'espace d'état si cette frontière est suffisamment élevée, l'erreur dans l'approximation est négligeable. Dans UltraSAN , cette contrainte peut facilement être implémentée en utilisant une porte d'entrée. Une deuxième mesure de sortie estime la probabilité que le nombre de protéines soit à cette limite. Avec les valeurs des paramètres utilisées dans le tableau 2, cette probabilité est de l'ordre de 10 -50 .

Moyenne et variance du nombre de protéines du modèle II

Le tableau 2 présente les résultats sur la moyenne et la variance du nombre de protéines provenant à la fois de l'analyse numérique et de la simulation à l'aide d'UltraSAN, pour le comportement à la fois transitoire et stable. Les résultats sont cohérents avec la solution symbolique de Peccoud et Ycart (19), qui valide l'approche SPN. Peccoud et Ycart n'ont pas dérivé la distribution analytique du nombre de protéines pour ce modèle. La figure 3 montre la distribution du nombre de protéines à l'état stable en utilisant une analyse numérique dans UltraSAN.

Distribution du nombre de protéines dans un modèle simple de synthèse de produits géniques. La distribution a été générée à partir d'une analyse numérique à l'état d'équilibre en utilisant les mêmes valeurs de paramètre que le tableau 2.


Prédisposition génétique et cancer

Ce projet est dirigé par G. Nuel depuis 2013. L'objectif principal de ce projet est d'étudier les facteurs génétiques dans d'importantes maladies liées à l'âge comme le cancer, le diabète ou les maladies génétiques rares. Le défi consiste à combiner des méthodes d'analyse de survie de pointe dans le contexte de la dépendance génétique dans des pedigrees (éventuellement grands) via des réseaux bayésiens.

Notre projet s'est initialement concentré sur les cancers du sein et de l'ovaire et les mutations BRCA en partenariat avec Institut Curie. A côté de cette collaboration en cours, nous travaillons maintenant avec l'hôpital Saint-Antoine sur le cancer MSI (syndrome de Lynch). Cette thématique de recherche est l'un des deux axes prioritaires du SIRIC CURASMUS (Sorbonne Université) récemment obtenu. SIRIC (sites de recherche intégrée sur le cancer &mdash 7 SIRIC en France) est une excellence de l'Institut National du Cancer (INCA) pour reconnaître un site de cancer fortement impliqué dans la recherche translationnelle.

  • propagation des croyances dans les pedigrees
  • détection et estimation des effets de cohorte
  • développement de modèles de guérison
  • génétique clinique du cancer
  • LPSM (CNRS 8001), Sorbonne Université : G. Nuel, A. Lefebvre
  • Institut Curie: D. Stoppa-Lyonnet, A. de Pauw
  • MAP5 (CNRS 8145), Paris Descartes : F. Alarcon, O. Bouaziz, V. Goepp
  • MSI Cancers, Hôpital Saint-Antoine : A. Duval, V. Jonchère

Bourses : DECURION INSERM/IRESP (2013-2016, 120K€), Bourse de thèse LNCC (2013-2016, 100K€), Bourse de thèse LNCC (2018-2021, 100K€), SATT IDF, SIRIC CURASMUS.


FAQ sur les modèles stochastiques

Quelle est la différence entre les modèles stochastiques et déterministes ?

Contrairement aux modèles déterministes qui produisent les mêmes résultats exacts pour un ensemble particulier d'entrées, les modèles stochastiques sont à l'opposé, le modèle présente des données et prédit des résultats qui tiennent compte de certains niveaux d'imprévisibilité ou d'aléatoire.

Que signifie beaucoup de variation dans un modèle stochastique ?

Les modèles stochastiques consistent à calculer et à prédire un résultat en fonction de la volatilité et de la variabilité, plus la variation d'un modèle stochastique se reflète dans le nombre de variables d'entrée.

Qu'est-ce qu'un exemple d'événement stochastique ?

La simulation Monte Carlo est un exemple de modèle stochastique qui peut simuler les performances d'un portefeuille en fonction des distributions de probabilité des rendements des actions individuelles.

Quelle est la différence entre stochastique et probabiliste?

Ils sont généralement considérés comme synonymes les uns des autres. Le stochastique peut être considéré comme un événement aléatoire, tandis que le probabiliste est dérivé de la probabilité.


Voir la vidéo: Géostatistique ENSG 13 - La simulation stochastique (Juin 2022).