Informations

Prédiction de site de protéine PTM

Prédiction de site de protéine PTM


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Existe-t-il une méthode d'analyse in silico pour prédire les sites de modification post-traductionnelle sur une protéine donnée ?


Il y a en fait beaucoup de ces sites disponibles, j'ai utilisé certains de ceux énumérés ci-dessous. De plus, il existe une énorme liste d'autres services disponibles dans ce domaine auprès d'ExPASy, vous pouvez le trouver ici et le Center for Biological Sequence Analysis, qui peut être trouvé ici.


Incorporant des réseaux de neurones convolutifs et une transformation de graphe de séquence pour identifier les sites PTM de la protéine multimarqueur Lysine

Une méthode de calcul pour identifier plusieurs sites de modification post-traductionnelle Lysine avec des performances élevées.

Les caractéristiques d'apprentissage sont extraites en utilisant la transformation de graphe à partir de séquences de protéines.

Optimisation des hyper-paramètres pour les réseaux de neurones convolutifs profonds.

Par rapport aux méthodes de pointe, notre méthode a eu une amélioration significative dans toutes les métriques de mesure.

Une base pour d'autres recherches qui peuvent améliorer les prédictions de la fonction des protéines en utilisant la transformation de graphes et l'apprentissage en profondeur.


Annales de protéomique et de bioinformatique

Md. Mehedi Hasan 1* et Mst. Shamima Khatun 2

1 Département de biosciences et de bioinformatique, Institut de technologie de Kyushu, 680-4 Kawazu, Iizuka, Fukuoka 820-8502, Japon
2 Laboratoire de bioinformatique, Département de statistique, Université de Rajshahi, Rajshahi, Bangladesh

*Adresse pour correspondance: Md. Mehedi Hasan, Département des biosciences et de la bioinformatique, Institut de technologie de Kyushu, 680-4 Kawazu, Iizuka, Fukuoka 820-8502, Japon, Courriel : [email protected]

Rendez-vous: Soumis : 27 février 2018 Approuvé: 01 mars 2018 Publié : 02 mars 2018

Comment citer cet article : Hasan MM, Khatun MS. Prédiction des sites de modification post-traductionnelle des protéines : un aperçu. Ann Proteom Bioinform. 2018 2: 049-057. DOI : 10.29328/journal.apb.1001005

Droits d'auteur: &copier 2018 Hasan MM, et al. Il s'agit d'un article en libre accès distribué sous la licence Creative Commons Attribution, qui permet une utilisation, une distribution et une reproduction sans restriction sur n'importe quel support, à condition que l'œuvre originale soit correctement citée.


Serveur NetPhos 3.1

AU M, CKI, CKII, CaM-II, DNAPK, EGFR, GSK3, INSR, PKA, PKB, PKC, PKG, RSK, SRC, cdc2, cdk5 et p38MAPK.


REMARQUE: le service en ligne sur http://www.cbs.dtu.dk/services/NetPhosK est actuellement hors ligne
pour les prédictions spécifiques à la kinase, ce service doit être utilisé à la place.

CITATIONS

Pour la publication des résultats, veuillez citer :

Prédiction basée sur la séquence et la structure des sites de phosphorylation des protéines eucaryotes.
Blom, N., Gammeltoft, S. et Brunak, S.
Journal de biologie moléculaire: 294(5): 1351-1362, 1999.

Prédictions spécifiques à la kinase :

Prédiction de la glycosylation post-traductionnelle et de la phosphorylation des protéines à partir de la séquence d'acides aminés.
Blom N, Sicheritz-Ponten T, Gupta R, Gammeltoft S, Brunak S.
Protéomique: juin4(6):1633-49, révision 2004.


Méthodes

Présentation de PTMselect

PTMselect détermine l'ensemble optimal de protéases pour améliorer la couverture globale de la découverte de modifications de protéines par analyse MS en simulant des digestions parallèles avec toutes les combinaisons possibles de protéases. Quatre types d'optimisations peuvent être effectuées avec PTMselect :

Global découverte de couverture de site modifiée pour au moins une protéine : tous les sites modifiés sont considérés comme ayant la même importance et PTMselect calcule les meilleurs paramètres de digestion pour obtenir le plus grand nombre de modifications.

Prévu découverte de couverture de site modifiée pour au moins une protéine : les sites modifiés avec la plus forte probabilité d'être modifié reçoivent les scores les plus élevés. PTMselect calcule le paramètre de digestion pour correspondre au plus grand nombre de sites avec une forte probabilité d'être modifié.

Ciblé découverte de site modifié pour au moins une protéine : une liste de positions de modification cibles est donnée par l'utilisateur pour chaque protéine. PTMselect optimise la découverte du plus grand nombre de sites modifiés dans les listes ou du nombre total de protéines ciblées, c'est-à-dire les protéines avec au moins une modification cible.

La dernière possibilité est de combiner global, prédit et ciblé optimisation pour n'importe quel nombre de protéines et toutes modifications.

PTMselect sélectionne ou rejette les peptides modifiés d'un paramètre de digestion en fonction de leur longueur. En effet, un décalage entre les in silico la distribution des peptides trypsiques et la longueur optimale des peptides pour une spectrométrie de masse réussie sont toujours observées 5 . PTMselect effectue des simulations avec une longueur de peptide de 7 à 40 acides aminés par défaut, ce qui est un bon réglage initial pour l'analyse des cellules humaines par MS dans notre expérience et d'autres 5 . Cette plage peut être ajustée par l'utilisateur.

Facilité d'utilisation PTMselect

PTMselect a été développé dans un souci de convivialité et de rapidité.

Le didacticiel de base PTMselect (vidéo supplémentaire PhosphoSelect_Basic_Tutorial_and_Install_v3.mp4) montre que PTMselect peut être installé en quelques minutes sur MS Windows. La tâche principale de l'utilisateur est de télécharger les fichiers de protéines Fasta, puis de lancer PTMselect et de saisir le nombre de digestions parallèles à simuler.

Le didacticiel avancé PTMselect (vidéo supplémentaire VideoTutorial2_TCRpathway_v3.mp4) montre que la simulation des meilleurs paramètres de digestion pour la détection des phosphorylations régulant une voie de signalisation entière est également facile. Tous les fichiers fasta de protéine sont copiés dans le répertoire fasta, et les fichiers de phosphosite cible sont de simples fichiers texte avec les positions des sites cibles dans la séquence protéique. Les résultats sont obtenus en quelques secondes.

Les acides aminés portant le PTM peuvent être facilement modifiés. Un nombre illimité d'acides aminés peut être ciblé, ce qui permet l'optimisation simultanée de la détection de nombreux sites de modification avec de multiples modifications également.

Algorithme PTMselect

Entrée PTMselect

PTMselect traite les séquences de protéines au format FASTA (Fig. 1a). Deux types de fichiers supplémentaires peuvent être éventuellement chargés et traités par PTMselect :

Tables de prédiction avec des positions modifiées et leurs scores de prédiction. Ces tableaux peuvent être obtenus à partir de n'importe quel outil de prédiction. PTMselect est compatible par défaut avec PhosphoPICK 11 . Pour chaque phosphosite d'un peptide donné, PTMselect additionne le « score combiné » de phosphosite de PhosphoPICK pour calculer le score global prédit du peptide.

Listes des positions du site de modification cible. Ces listes sont des fichiers texte contenant les positions connues des sites de modification obligatoires pour le projet du biologiste, par exemple les phosphosites impliqués dans une voie de signalisation (Fig. 1c).

Digestion in silico des protéines et filtrage des peptides

PTMselect demande à l'utilisateur de saisir le nombre maximum n de digestions parallèles qu'il souhaite simuler. PTMselect commence par calculer toutes les combinaisons de n protéases à partir de un ([1], [2]. [1, 2], [1, 3]..). Ensuite, pour chaque combinaison, il effectue in silico digestions parallèles de la protéine. PTMselect utilise par défaut 8 protéases et CNBr. Cette liste peut être réduite ou augmentée si nécessaire. Il élimine ensuite les peptides sans sites de modification ou en dehors de la plage de longueur des peptides.

Calcul des notes

PTMselect calcule cinq scores : maximal, dissociation par électro-transfert (ETD), dissociation induite par collision (CID), prédite appariée et prédite non appariée.

Le score maximal est le nombre total de sites modifiés dans la protéine.

Le score ETD est le nombre total de sites modifiés dans les peptides après digestion et filtrage. En effet, tout site modifié labile peut être attribué sans ambiguïté par dissociation électro-transfert 19,20.

Le score CID. Les sites modifiés labiles ne peuvent pas toujours être attribués sans ambiguïté lorsque les peptides modifiés sont analysés par dissociation induite par collision 19,20 car les spectres sont souvent dominés par de grands pics de perte neutre compromettant une identification fiable spécifique au site 21 . C'est pourquoi PTMselect donne plus de poids aux peptides mono modifiés dans le calcul du score CID.

Le score CID d'un peptide à n sites modifiés est :

Le score de la protéine entière avec k peptides modifiés est :

Le score apparié prédit est la somme de chaque score de site modifié individuel prédit par un logiciel de prédiction pour tous les peptides sélectionnés après digestion et filtrage.

Le score non apparié prédit est la somme de chaque score de site modifié individuel prédit par un logiciel de prédiction pour tous les peptides rejetés après digestion et filtrage.

Sortie des résultats

Les cinq scores de modification (maximal, ETD, CID, prédit apparié et non apparié) pour chaque combinaison de protéases sont exportés dans un tableau. PTMselect calcule également le nombre de peptides mono-modifiés, le nombre de peptides cibles accessibles ou non accessibles et les listes correspondantes de positions de sites cibles. Une carte graphique représentant les peptides modifiés et les positions des sites de modification est générée pour chaque combinaison de protéases (Fig. 1d). Les détails des sites modifiés dans chaque séquence peptidique et dans la séquence protéique entière sont exportés dans un fichier texte. PTMselect comprend un récapitulateur capable de traiter un nombre illimité de tableaux de scores pour calculer la somme de tous les scores. Lorsque des sites de modification cible sont utilisés, le synthétiseur construit une table avec un site cible par colonne. Ainsi, il est très facile de voir quels sites cibles sont identifiables ou non par un ensemble de protéases.

PTMselect Benchmarks

Le temps de simulation dépend du nombre de protéases et de la taille de la protéine (cf. Fig. supplémentaire S2). Sur un poste Linux 64 bits avec un processeur CORE i7 le temps de simulation pour 5 paramètres de digestion sur 14, c'est à dire. la simulation de 2379 combinaisons de protéases était de <6 sec pour Lamin et <12 sec pour Citron-kinase.

Simulations de digestions parallèles de protéases

Séquences de protéines

Nous avons utilisé six séquences de protéines accessibles au public pour évaluer PTMselect (voir les fichiers supplémentaires). PD-1, p53, Huntingtin, Citron-kinase, Cortactin et Lamin ont été choisis pour leur niveau élevé de phosphorylation, leur gamme de tailles et leur pertinence biologique. Leurs séquences fasta ont été obtenues à partir de la base de données UniProt 22 .

Simulations PTMselect pour six protéines

Des digestions de protéases parallèles ont été simulées pour p53, PD-1, Huntingtine, Citron-kinase, Cortactin et Lamin en utilisant la liste de protéases par défaut fournie avec PTMselect (8 protéases + CNBr). Jusqu'à cinq digestions parallèles ont été simulées avec une gamme de tailles de peptides de 7 à 40 acides aminés (fichiers supplémentaires).

Analyse ciblée PTMselect de la voie de signalisation TCR

Les séquences Fasta de protéines de la voie de signalisation TCR ont été téléchargées à partir de la base de données UniProt 22 . Les positions de phosphosite pour les protéines dans cette voie ont été obtenues à partir de la référence 17 et du site Web de PhosphoSitesPlus 23 . Pour chaque protéine, un fichier texte contenant les positions du site cible a été créé et utilisé comme entrée dans PTMselect (Fig. 1a). Les fichiers Fasta et les sites cibles ont été traités ensemble dans PTMselect pour produire un tableau de scores pour chaque protéine. Dans chaque tableau de score, les phosphosites cibles identifiables et non identifiables par aucun paramètre de digestion ont été répertoriés. Une combinaison de tous les tableaux de scores a été calculée automatiquement par le synthétiseur PTMselect (Fig. 1a) dans un tableau récapitulatif. Le tableau récapitulatif a ensuite été trié par nombre de phosphosites cibles identifiables par ordre décroissant, afin d'identifier les meilleurs paramètres de digestion pour l'analyse MS de l'ensemble de la voie TCR (fichiers supplémentaires).

Prédiction PTMselect de plusieurs PTM dans un exemple de diaphonie

Séquence Fasta de la protéine H3.1 (Mus musculus) a été obtenu à partir de la base de données UniProt 22 . La méthionine N-terminale a été retirée de la séquence. Des digestions de protéases parallèles ont été simulées pour H3.1 en utilisant la liste de protéases par défaut fournie avec PTMselect (8 protéases + CNBr). Pour pouvoir analyser la diaphonie de l'acétylation K9 et K14 dans le même peptide, nous avons fixé le nombre de clivages manqués à 3 pour Lys-C, Lys-N et Trypsine. Le nombre de clivages manqués pour la chymotrypsine était de 2, un pour V8 et zéro pour Arg-C et Asp-N (Fig. supplémentaire S5). Pour valider uniquement les peptides contenant à la fois K9 et K14 et ne se terminant pas par K14 (nous avons considéré que l'acétylation de la lysine induisait un clivage manqué si la lysine est modifiée) une filtration peptidique par expression régulière a été utilisée. L'expression régulière "KSTGGK” a été utilisé pour filtrer les peptides. Le point après KSTGGK implique que non seulement la séquence KSTGGK est présente dans les peptides mais aussi que les peptides ne se terminent pas par K14.

Disponibilité des codes

PTMselect a été développé à l'aide du langage multiplateforme Julia hautes performances 24 pour le calcul numérique. Les fichiers sont accessibles à l'adresse (https://sites.google.com/site/fredsoftwares/products/ptm-select). Un manuel d'utilisation de PTMselect pour effectuer une recherche de base et avancée de phosphosites est disponible dans les fichiers supplémentaires. L'outil d'alignement des peptides, PepAlign, et l'outil de comparaison de listes, nwCompare 25 , utilisé pour calculer la concordance des PTM sont disponibles gratuitement sur (https://sites.google.com/site/fredsoftwares/products/pepalign) et (https://sites .google.com/site/fredsoftwares/products/nwcompare-julia).


3. Résultats

Dans cette étude, nous avons compilé manuellement 199 paires de diaphonie PTM inter-protéines à partir de 82 paires de protéines sur 86 protéines humaines (voir les détails dans la section 2 et le tableau supplémentaire S1). En comptant le nombre d'événements de diaphonie PTM dans lesquels chaque protéine est impliquée (tableau supplémentaire S2), il est intéressant de noter que quelques protéines ont beaucoup plus que la majorité (médiane 4 événements), en particulier CDC25C avec 26 événements, CDK1 avec 22 événements et AKT1 avec 16 événements. En outre, quelques paires de protéines ont plus d'événements de diaphonie PTM que d'autres (tableau supplémentaire S3), par ex. 17 événements de diaphonie PTM se produisent le plus souvent entre CDC25C et CDK1. Nous présentons en outre la diaphonie PTM dans un réseau d'interaction protéique (Fig. supplémentaire S1), et nous avons découvert de manière surprenante que 47 des 86 protéines forment un sous-graphe, suggérant les rôles importants de la diaphonie PTM dans la signalisation cellulaire et réseau de régulation.

3.1 Co-évolution des séquences au niveau des résidus et au niveau des motifs

La co-évolution des séquences est largement utilisée pour étudier l'association fonctionnelle entre deux acides aminés, car elle présente une interdépendance de conservation entre les espèces dans des réseaux écologiques complexes ( de Juan et al., 2013). Ici, nous explorons la co-évolution de séquence de la diaphonie PTM inter-protéines à la fois au niveau d'un seul résidu et au niveau du motif 7-mer.

Nous avons d'abord utilisé le NHD pour mesurer la fréquence à laquelle deux résidus conservent ou mutent conjointement sur une cinquantaine de vertébrés. La figure 1A montre un exemple d'AKT1 et de prohibitine (PHB) sur 20 vertébrés avec un événement de diaphonie entre S473 sur AKT1 et Y114 sur PHB. Comme décrit dans la section 2, seules les espèces partagées par les deux protéines sont prises en compte, donc Carlito syrichta est rejeté car il manque pour le PHB. Pour les 19 espèces partagées restantes, 17 espèces ont les mêmes états de conservation pour les deux résidus PTM (16 co-conservés et 1 co-muté), ce qui donne un score de co-évolution des résidus de 17/19 pour cet exemple. Les scores de co-évolution des résidus ont été en outre calculés pour 168 des 199 paires de diaphonie et 8574 des 11 585 paires de contrôle. Les 31 paires de diaphonie et 3011 de contrôle restantes n'ont pas cette fonctionnalité car l'une des protéines n'a pas de MSA ou l'acide aminé du PTM d'entrée ne correspond pas au MSA même si un ou deux décalages de position sont autorisés. En comparant les échantillons disponibles dans ces deux jeux de données, nous avons constaté que les paires de PTM de diaphonie ont une co-évolution de résidus significativement plus élevée que celle des paires de PTM de contrôle (moyenne : 0,807 versus 0,704, P < 10 − 5 par test de permutation, figure 1B).

Sur la base des mêmes données MSA, nous avons étendu la co-évolution de séquence du niveau de résidu au niveau de motif de séquence. Sur le même exemple entre la protéine AKT1 et le PHB (Fig. 2A), nous avons d'abord extrait les ±3 acides aminés entourant les sites PTM en tant que motif 7-mer. Pour S473 sur AKT1, les deux résidus en position -1 et 0 chez Dipodomys ordii étaient différents de leurs références humaines, donc la conservation du motif pour cette espèce est 5/7 = 0,714. De même, nous pouvons avoir les scores de conservation des motifs pour toutes les espèces partagées sur ces deux protéines, formant deux vecteurs de conservation des motifs. Ensuite, le score de co-évolution des motifs est calculé en prenant le produit scalaire entre ces deux vecteurs de conservation des motifs avec une normalisation au nombre d'espèces communes. A partir des mêmes jeux d'échantillons que le niveau de résidus, soit 168 paires de diaphonie et 8574 paires de contrôle, on voit clairement que les paires de PTM de diaphonie ont également une co-évolution de motifs significativement plus élevée que celle de l'ensemble de contrôle (moyenne : 0,754 versus 0,679, P < 10 − 5 par test de permutation, Fig. 2B). Ensemble, les deux résultats suggèrent que la co-évolution de séquence à la fois au niveau du résidu PTM et au niveau du motif peut être de bons indicateurs de la diaphonie PTM entre les protéines.

3.2 Co-modification entre différentes espèces et différentes conditions chez l'homme

L'efficacité de l'utilisation de la conservation des séquences protéiques pour analyser l'importance fonctionnelle des PTM est probablement due au fait qu'elle donne un état de conservation approximatif des PTM à travers les espèces. Ainsi, le statut PTM vérifié directement et expérimentalement sur plusieurs espèces peut être très instructif pour étudier les fonctions des PTM et leurs interactions ( Beltrao et al., 2012 Landry et al., 2009). En effet, dans notre étude précédente ( Huang et al., 2015), nous avons montré que la co-conservation des modifications entre trois espèces a un lien potentiel avec l'interaction fonctionnelle entre deux PTM au sein d'une protéine et peut être utilisée pour prédire la diaphonie PTM intra-protéine. Ici, nous appliquons la co-modification à travers Homo sapiens, Mus musculus et Rattus norvegicus mesurer la co-conservation de la modification. Identique à Huang et al. (2015), la co-modification mesure la proportion que les deux PTM conservent simultanément sur les résidus de référence à travers les trois espèces. La figure 3A montre un exemple de statut de modification de deux paires de PTM sur les protéines AKT1 et PHB chez les trois espèces. La paire de diaphonie entre S473 sur AKT1 et Y114 sur PHB a des états de co-modification chez l'homme et la souris, donnant un score de co-modification de 2/3, tandis que la paire sans diaphonie, S475 sur AKT1 et S121 sur PHB , n'a de co-modification que chez l'humain, avec un score de 1/3. Même si les deux paires de PTM ont des résidus entièrement co-conservés dans les trois espèces, les niveaux de co-modification sont différents et peuvent impliquer une dépendance fonctionnelle différente. Ici, par souci d'équité, nous avons supprimé les 13 échantillons de diaphonie PTM dont un ou deux PTM ne sont pas inclus dans l'ensemble PTM humain dans PhosphoSitePlus, et par conséquent nous avons 186 paires de diaphonie et 11 585 paires de contrôle pour une analyse plus approfondie. En comparant ces deux ensembles d'échantillons, nous avons constaté que le score de co-modification entre les espèces est significativement plus élevé dans les paires de diaphonie que celui des paires de contrôle (moyenne : 0,507 contre 0,429, P < 10 - 5 par test de permutation, Fig. 3B ).

Co-modification à travers l'analyse des espèces des PTM de diaphonie. (UNE) Démonstration de co-modification à travers les espèces avec des alignements de séquences chez l'homme, la souris et le rat. (B) Comparaison des co-modifications entre les scores des espèces entre l'ensemble de dialogue (positif) et l'ensemble de contrôle (négatif)

Co-modification à travers l'analyse des espèces des PTM de diaphonie. (UNE) Démonstration de co-modification à travers les espèces avec des alignements de séquences chez l'homme, la souris et le rat. (B) Comparaison des co-modifications entre les scores des espèces entre l'ensemble de dialogue (positif) et l'ensemble de contrôle (négatif)

Outre le processus évolutif, la corrélation du statut de modification dans différentes conditions chez une espèce peut également suggérer des associations fonctionnelles. Dans une étude précédente, nous avons proposé une méthode de co-occurrence pour explorer les connexions fonctionnelles entre les sites PTM en calculant leur tendance à être modifiés simultanément dans 88 conditions différentes chez l'homme (Li et al., 2017). Ici, le même ensemble de données de phosphorylation humaine à l'échelle du protéome est utilisé pour mesurer la co-modification dans les conditions pour les paires PTM inter-protéines (voir la section 2 pour plus de détails). La figure 4A montre deux exemples de co-modification dans les 88 conditions : un échantillon de diaphonie entre Y412 sur la protéine FGR (tyrosine-protéine kinase Fgr) et Y281 sur SLAF1 (molécule d'activation lymphocytaire de signalisation), et un échantillon de contrôle entre S132 sur SHIP2 et Y281 sur SLAF1. Leur état de phosphorylation (rouge : activé, bleu : désactivé) dans 88 conditions est indiqué dans la carte thermique, où nous pouvons calculer les scores de co-modification, c'est-à-dire −log10(p) dans le test exact de Fisher, pour ces deux exemples et ont 12,549 pour l'échantillon de diaphonie et 0,397 pour l'échantillon de contrôle. Comme cette fonctionnalité n'est disponible que pour les paires phosphorylation-phosphorylation, nous n'avons que des scores de co-modification pour 87 des 199 paires de diaphonie et 3040 des 11 585 paires de PTM de contrôle. Pourtant, nous voyons que les paires de diaphonie montrent une co-modification clairement plus élevée dans plusieurs conditions que celle des paires de contrôle (moyenne : 2,111 contre 1,044, P < 10 − 5 par test de permutation, Fig. 4B), indiquant que le les paires PTM de diaphonie ont beaucoup plus de chances de rejeter l'hypothèse nulle d'indépendance que les paires PTM aléatoires. Ensemble, les deux analyses ci-dessus révèlent que la co-modification entre différentes espèces et différentes conditions peut être des caractéristiques prédictives pour identifier les paires de diaphonie interprotéique.

Co-modification dans différentes conditions d'analyse des PTM de diaphonie. (UNE) Démonstration de co-modification dans 88 conditions pour deux paires de PTM (toutes les phosphorylations diaphonie : Y412 sur FGR et Y281 sur SLAF1 contrôle : S132 sur SHIP2 et Y281 sur SLAF1, a obtenu le score de 12,549 et 0,017, respectivement). Les informations spécifiques de 88 conditions sont répertoriées dans le tableau supplémentaire S2 . (B) Comparaison des co-modifications dans différentes conditions scores entre l'ensemble de diaphonie (positif) et l'ensemble de contrôle (négatif)

Co-modification dans différentes conditions d'analyse des PTM de diaphonie. (UNE) Démonstration de co-modification dans 88 conditions pour deux paires de PTM (toutes les phosphorylations diaphonie : Y412 sur FGR et Y281 sur SLAF1 contrôle : S132 sur SHIP2 et Y281 sur SLAF1, a obtenu le score de 12,549 et 0,017, respectivement). Les informations spécifiques de 88 conditions sont répertoriées dans le tableau supplémentaire S2 . (B) Comparaison des co-modifications dans différentes conditions scores entre l'ensemble de diaphonie (positif) et l'ensemble de contrôle (négatif)

3.3 Prédiction intégrative de la diaphonie PTM entre les protéines

Comme démontré ci-dessus, les paires de diaphonie interprotéique PTM présentent des corrélations évolutives à la fois au niveau de la séquence et au niveau de la modification. Par conséquent, nous demandons si ces quatre propriétés peuvent être utilisées pour prédire la diaphonie PTM entre les protéines. Tout d'abord, nous avons testé le pouvoir de discrimination de chacune des quatre caractéristiques par des validations croisées de 10 fois. Les valeurs de l'aire sous la courbe (AUC) de la figure 5A montrent que la co-évolution de la séquence sur le résidu PTM est la caractéristique la plus discriminante (AUC = 0,785), et qu'elle a également un taux de non-appel relativement faible, à savoir seulement 31 sur sur 199 paires de diaphonie et 3011 sur 11 585 paires de contrôle n'ont pas les mesures de co-évolution des résidus. Les caractéristiques suivantes sont la co-évolution des motifs de séquence (168 échantillons de diaphonie, AUC = 0,685) et la co-modification à travers les conditions (87 échantillons de diaphonie, AUC = 0,654). En revanche, les performances de co-modification entre les espèces étaient relativement médiocres (186 échantillons de diaphonie, AUC = 0,558), en partie à cause de l'incomplétude des données PTM chez la souris et le rat. Ensuite, nous demandons en outre si l'intégration de ces quatre fonctionnalités peut améliorer la prédiction par rapport à l'utilisation d'une seule fonctionnalité. Par souci d'équité, nous n'avons utilisé que les 76 échantillons de diaphonie et les 2593 échantillons de contrôle qui présentent toutes ces quatre caractéristiques pour comparer les modèles à caractéristique unique et le modèle intégratif. Sans surprise, les performances avec chaque caractéristique unique diminuent légèrement sur cet ensemble de données plus petit par rapport à l'utilisation de tous les échantillons disponibles auparavant (voir caractéristique unique sur les figures 5A et B). Cependant, l'intégration de trois caractéristiques prédictives, c'est-à-dire la co-évolution de séquence et la co-modification dans toutes les conditions, a les meilleures performances et augmente l'AUC à 0,814 de 0,756 par une seule caractéristique (c'est-à-dire la co-évolution des résidus). En raison du pouvoir de prédiction limité de la co-modification entre les espèces, cette fonctionnalité ne parvient pas à améliorer les performances du modèle intégratif en l'ajoutant. Par conséquent, nous omettons cette fonctionnalité dans le modèle intégratif.

Évaluation des performances de prédiction de la diaphonie PTM à l'aide de différentes combinaisons de caractéristiques Une validation croisée 10 fois avec répétition 100 fois est regroupée pour générer une courbe ROC globale. (UNE) L'évaluation est effectuée sur tous les échantillons disponibles pour chaque caractéristique (combinaison), la taille des échantillons de diaphonie est présentée entre parenthèses. (B) L'évaluation est effectuée sur 76 échantillons de diaphonie et 2593 échantillons de contrôle complets. Abréviations : co-évolution de résidus de séquence (Seq_residue), co-évolution de motifs de séquence (Seq_motif), co-modification entre espèces (PTM_species), co-modification dans différentes conditions (PTM_conditions), les deux co-évolution de séquences (Seq both), les deux co-modification (PTM les deux)

Évaluation des performances de prédiction de la diaphonie PTM à l'aide de différentes combinaisons de caractéristiques Une validation croisée 10 fois avec répétition 100 fois est regroupée pour générer une courbe ROC globale. (UNE) L'évaluation est effectuée sur tous les échantillons disponibles pour chaque caractéristique (combinaison), la taille des échantillons de diaphonie est présentée entre parenthèses. (B) L'évaluation est effectuée sur 76 échantillons de diaphonie et 2593 échantillons de contrôle complets. Abréviations : co-évolution de résidus de séquence (Seq_residue), co-évolution de motifs de séquence (Seq_motif), co-modification entre espèces (PTM_species), co-modification dans différentes conditions (PTM_conditions), les deux co-évolution de séquences (Seq both), les deux co-modification (PTM les deux)

Bien que la co-modification entre les conditions contribue beaucoup au modèle intégratif, un grand nombre d'échantillons n'ont pas cet attribut. Par conséquent, nous recommandons également d'utiliser uniquement les deux fonctionnalités de co-évolution de séquence pour la plupart des candidats de paires PTM. En outre, la combinaison de caractéristiques de séquence donne plus du double de la taille de l'échantillon de diaphonie par rapport à celle de la co-modification dans toutes les conditions (168 contre 76). De plus, la figure 5B suggère que dans ce petit ensemble d'échantillons, l'intégration de la co-évolution des résidus et des motifs donne de meilleures performances que l'un ou l'autre seul, bien que cette amélioration soit marginale et doive être examinée plus en détail.

3.4 Influence du biais de type PTM sur les performances de prédiction

Parmi les 199 paires de diaphonie PTM inter-protéines, 150 paires sont des événements de diaphonie entre deux sites de phosphorylation (tableau 1). En d'autres termes, l'ensemble de diaphonie compilé est orienté vers les types PTM phosphorylation-phosphorylation. Il n'est pas clair si le modèle de prédiction peut être utilisé pour les types de PTM qui ne sont pas inclus ou sous-représentés dans l'ensemble d'apprentissage. Pour tester l'influence des types de PTM, nous avons formé des modèles MBRF avec uniquement des paires de diaphonie phosphorylation-phosphorylation (150 paires d'ensembles de diaphonie et 7312 paires de contrôle), et testé les performances de prédiction sur les autres types de PTM (49 paires de diaphonie et 4273 paires de contrôle). La figure 6 montre que l'ensemble de données de phosphorylation-phosphorylation est prédictif pour d'autres types de PTM (AUC = 0,777), même si seules deux caractéristiques de co-évolution de séquence sont disponibles. Avec un seuil de 0,65, le taux de faux positifs peut être aussi bas que 9,7 % et le taux de vrais positifs est de 38,5 %. Cette prédiction est équivalente à un test indépendant, démontrant la puissance de notre méthode pour prédire la diaphonie PTM interprotéique et sa robustesse au biais de type PTM.

Évaluation de la robustesse du modèle de prédiction à l'aide d'ensembles d'apprentissage biaisés (ensemble de données de phosphorylation-phosphorylation). Les courbes ROC du classificateur MBRF utilisant l'ensemble de données de phosphorylation-phosphorylation comme ensemble d'apprentissage et le reste comme ensemble de test. Le taux de faux positifs et le taux de vrais positifs sont présentés entre parenthèses suivant le seuil correspondant 0,35, 0,5 et 0,65

Évaluation de la robustesse du modèle de prédiction à l'aide d'ensembles d'apprentissage biaisés (ensemble de données de phosphorylation-phosphorylation). Les courbes ROC du classificateur MBRF utilisant l'ensemble de données de phosphorylation-phosphorylation comme ensemble d'apprentissage et le reste comme ensemble de test. Le taux de faux positifs et le taux de vrais positifs sont présentés entre parenthèses suivant le seuil correspondant 0,35, 0,5 et 0,65

3.5 Serveur en ligne PTM-X

En combinant notre précédente méthode de prédiction intra-protéique, nous fournissons un serveur Web nommé PTM-X pour la prédiction de la diaphonie PTM intra- et inter-protéine (http://bioinfo.bjmu.edu.cn/ptm-x/) . Le modèle de prédiction MBRF du site Web a été entraîné avec toutes les paires de diaphonie et de contrôle humaines, pour deux types de combinaisons de caractéristiques : (i) la co-évolution des séquences de résidus et de motifs et (ii) l'ajout de co-modification dans toutes les conditions. Les utilisateurs peuvent saisir des paires PTM candidates en spécifiant le numéro d'accession UniProt de la protéine et les positions PTM sur les séquences protéiques. Ensuite, le serveur PTM-X donnera un résultat de prédiction final pour chaque paire PTM en utilisant les mêmes combinaisons de fonctionnalités, en affichant sur le Web avec un lien de téléchargement vers un fichier texte (voir l'exemple dans la Fig. S3 supplémentaire). Les paires PTM d'entrée peuvent être considérées comme des paires de diaphonie potentielles si leurs scores de prédiction sont supérieurs à un seuil donné. Généralement, un seuil strict donne un taux de faux positifs plus faible mais des faux négatifs plus élevés, tandis qu'un seuil plus clément peut être utilisé pour obtenir des prédictions plus sensibles. Nous fournissons une interface pour faciliter cette procédure, si les utilisateurs cliquent sur le score de prédiction sur la page Web, la courbe ROC de la validation croisée 10 fois apparaîtra et affichera le taux de faux positifs et de vrais positifs associé avec le score de prédiction comme un seuil sélectionné ( Fig. supplémentaire S3 ).


Ressources de la base de données

La SM et d'autres techniques expérimentales ont produit une grande quantité de données d'annotation PTM ( Figure 1), qui sont partagées à l'échelle mondiale via des bases de données. Chaque base de données a ses propres caractéristiques, avec un accent différent sur le type d'espèce, des virus aux humains. En raison de la complexité et de la particularité des différents PTM, aucune base de données ne peut fournir une ressource complète et exhaustive pour l'étude des PTM [ 11]. Par exemple, certaines bases de données contiennent des données sur un type spécifique de PTM, telles que PhosphoBase [12] et O-glycobase [13], tandis que d'autres contiennent des données sur une variété de PTM, telles que UniProt [14] et HPRD [15]. D'autres bases de données couramment utilisées [16–31] sont présentées dans le tableau 1.


Prédiction de site de protéine PTM - Biologie

a Saw Swee Hock School of Public Health, Université nationale de Singapour, Singapour
E-mail: [email protected]

b Center for Genomics and Systems Biology, Department of Biology, New York University, New York, NY 10003, États-Unis

c Institut de biologie moléculaire et cellulaire, Agence pour la science, la technologie et la recherche, Singapour

Résumé

Alors que la spectrométrie de masse en tandem peut détecter les modifications post-traductionnelles (PTM) à l'échelle du protéome, les sites PTM signalés sont souvent incomplets et incluent des faux positifs. Les approches informatiques peuvent compléter ces ensembles de données par des prédictions supplémentaires, mais la plupart des outils disponibles utilisent des modèles de prédiction pré-formés pour un seul type de PTM par les développeurs et il reste une tâche difficile d'effectuer une prédiction par lots à grande échelle pour plusieurs PTM avec un contrôle utilisateur flexible, y compris le choix des données d'entraînement. We developed an R package called PTMscape which predicts PTM sites across the proteome based on a unified and comprehensive set of descriptors of the physico-chemical microenvironment of modified sites, with additional downstream analysis modules to test enrichment of individual or pairs of PTMs in protein domains. PTMscape is flexible in the ability to process any major modifications, such as phosphorylation and ubiquitination, while achieving the sensitivity and specificity comparable to single-PTM methods and outperforming other multi-PTM tools. Applying this framework, we expanded proteome-wide coverage of five major PTMs affecting different residues by prediction, especially for lysine and arginine modifications. Using a combination of experimentally acquired sites (PSP) and newly predicted sites, we discovered that the crosstalk among multiple PTMs occur more frequently than by random chance in key protein domains such as histone, protein kinase, and RNA recognition motifs, spanning various biological processes such as RNA processing, DNA damage response, signal transduction, and regulation of cell cycle. These results provide a proteome-scale analysis of crosstalk among major PTMs and can be easily extended to other types of PTM.


Prediction of S-Sulfenylation Sites Using Statistical Moments Based Features via CHOU’S 5-Step Rule

Post-translation modification (PTM) of cysteine S-sulfenylation sites in protein is important in cellular biology. S-sulfenylation plays a significant role in protein functioning, cell signaling and transcriptional regulation. Cysteine, S-sulfenylation site prediction is crucial in order to interpret the S-sulfenylation molecular mechanisms. In this study, statistical moments based methodology is proposed for cysteine S-sulfenylation site predictions. The system proposed has achieved accuracy far better than current state-of-the-art methods using tenfold cross validations and independent tests. The outcomes from the proposed method revealed that using statistical moments based features could produce more efficient and effective results. For the accessibility of the scientific community, we have developed a GitHub repository for cysteine S-sulfenylation sites prediction system which is freely accessible at https://www.github.com/ahmad-umt/S-Sulfenylation.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


Introduction

Post translational modifications (PTMs) are alterations of the primary protein structure, including both new covalent links and cleavage events. Almost every protein in the cell undergoes modification during its lifetime [1] and more than 600 different amino acid modifications are catalogued in UniProtKB [2]. PTMs provide a way to expand the spectrum of protein functions as well as an additional layer for pathway regulation [3]. They are catalyzed by enzymes that identify a specific site in the substrate protein, with a plurality of PTM motifs residing in intrinsically disordered regions in order to facilitate enzyme accessibility [4]. Over the last few years, a deluge of methods have been proposed to predict PTM sites from sequence, for a recent review see e.g. [5]. The reasons for this popularity are broadly twofold. Given the paucity of experimental data for PTMs and their relevance for cellular regulation, there is a legitimate expectation that computational methods should fill in the experimental void. Computational methods can become hypothesis generators for an effective design of PTM experiments. Their implementation is straightforward due to the sequence specificity and peculiar physico-chemical properties of PTM motifs. This simplicity makes PTM prediction from sequence easily accessible to machine learning methods, but also presents several potential pitfalls [6]. In order to be useful for experimentalists, PTM predictors should provide good performance and be robust. Performance should be high enough to limit false positives to a minimum, while ensuring sufficient amount of correct predictions (true positives). Perhaps more importantly, the method should be robust enough to maintain performance across a range of different datasets, as it is often not clear which experimental conditions may introduce biases. On both accounts, PTM predictors may be problematic as they are rarely assessed by independent third parties. Indeed, their ability to identify new modification sites has been questioned [7] and effective results have been obtained only for a few PTM types [5]. The problem of validating machine learning methods has already been raised and best practices have been proposed [6]. Self-reported accuracy may be overestimated, with PTM predictors overfitting and not performing better than random when adopting the wrong training strategy [7]. Generalizing models for PTM site recognition is difficult as the number of experimental observations is low and many new types of motifs are still poorly characterized.

In this work, proline hydroxylation is taken as a case study to answer the question of how useful PTM predictors, especially those trained on small datasets, are to design experiments. Hydroxylation is one of the most abundant PTMs in the cell [8]. However, despite improvements in mass-spectrometry (MS) techniques, likely only a small fraction of all hydroxylated sites has so far been experimentally detected.

Proline hydroxylation (PH) is a PTM carried out by prolyl hydroxylases, catalyzing the addition of a hydroxyl group to the sidechain pyrrolidine ring at the gamma position. This modification is crucial for correct folding of the collagen triple-helix, which contains the conserved xPG motif. PH also plays a crucial role in signaling, in particular in oxygen sensing pathways, angiogenesis [9] and tumor cell proliferation [10, 11]. An example is HIF1α, the main target of the von Hippel-Lindau (pVHL) E3 ubiquitin ligase complex [12]. In normoxia, the prolyl hydroxylase domain-containing enzymes (PHDs) hydroxylate HIF1α, promoting its degradation through pVHL binding [13]. Under low oxygen concentration, the PHDs are inactivated and HIF-1α translocates into the nucleus to activate vascular proliferation and angiogenesis genes [14].

The first hydroxylation predictor [15] was trained to predict only collagen modifications. Several further PH predictors exist as web servers: HydPred [16], PredHydroxy [17], RF-Hydroxysite [18], iHyd-PseAAC [19] and iHyd-PseCp [20]. The latter has not been considered in our analysis as the server proved unstable, with frequent freezes. The stand-alone PH software OH-Pred [21], ModPred [4] and AMS3 [1] are also available. All are potential tools for large-scale analysis, taking only the protein sequence as input. Implementations include standard machine learning algorithms like Support Vector Machines, artificial Neural Networks and Random Forests, as well as alternative techniques like logistic regression and probabilistic classifiers. All methods were trained on SwissProt [22] annotation, with varying strategies to define positive and negative examples and different approaches to evaluate model quality. None of the PH predictors used a real independent dataset for validation, i.e. unaffected from SwissProt biases.

Here, we evaluate PH methods considering separately collagen and signalling examples as well as single proteins versus high throughput mass-spectrometry (MS) experiments. The majority of new hydroxylated prolines (Hyp) come from two MS recently published experiments, one on HeLa cells and another from a large experiment involving multiple tissues and samples [23–25]. These datasets are unseen for the PH predictors being tested, as they were not yet available in public databases when the predictors were trained. The number of MS hydroxylated sites is comparable to the entire SwissProt database and the new datasets allowed us to perform an unbiased blind test. A Naïve HMM predictor trained including MS data has also been implemented to simulate the effect of integrating new examples. The analysis presented here provides a starting point for a critical discussion on the problem of reliably predicting new PTMs.



Commentaires:

  1. Welton

    What words ... Great, an excellent phrase

  2. Fagan

    C'est la bonne idée. Je le garde.

  3. Kigajora

    Cette excellente idée est à peu près

  4. Dajinn

    Je vous recommande d'aller sur le site, où il y a beaucoup d'informations sur le sujet qui vous intéresse.



Écrire un message