Prédire quelles mutations missense produisent des protéines pathogènes
Un algorithme d’apprentissage automatique utilise la prédiction de structure pour repérer les mutations pathogènes
Ainsi, l’utilisation de Variant Effects Predictor (VEP) informatiques pour générer des cartes d’effets variants in silico reste essentielle. Cheng et al. (2023)(ici) présentent AlphaMissense, un algorithme d’apprentissage automatique, VEP qui s’appuie sur AlphaFold pour prédire les structures protéiques à partir de séquences de gènes.
Les auteurs montrent qu’AlphaMissense a des performances supérieures sur plusieurs critères de référence par rapport par rapport aux autres VEP actuellement disponibles.
Il est donc susceptible d’améliorer l’interprétation des données de séquençage et de faire progresser le rôle des prédictions informatiques dans le diagnostic des maladies génétiques. » Traduction Google modifiée encourage le lecteur à aller vérifier dans le commentaire d’origine : ici
Résumé structuré de Cheng et al. (2023) (traduit).
« INTRODUCTION
Rationale (justification de ce que leur recherche apporte de nouveau)
RÉSULTATS
Nous avons développé AlphaMissense pour tirer parti des avancées sur plusieurs fronts : (i) modélisation non supervisée du langage protéique pour apprendre les distributions d’acides aminés conditionnées par le contexte de la séquence ; (ii) incorporer un contexte structurel en utilisant un système dérivé d’AlphaFold ; et (iii) affiner les signaux faibles à partir des données de fréquence de population, évitant ainsi les biais liés aux annotations organisées par l’homme. AlphaMissense réalise des prédictions de pathogénicité faux-sens de pointe dans l’annotation clinique, les variants de novo de la maladie et les tests expérimentaux sans formation explicite sur ces données. En tant que ressource pour la communauté, nous fournissons une base de données de prédictions pour toutes les substitutions possibles d’un seul acide aminé dans le protéome humain.
Nous classons 32 % de toutes les variants faux-sens comme probablement pathogènes et 57 % comme probablement bénignes en utilisant un seuil donnant une précision de 90 % sur l’ensemble de données ClinVar, fournissant ainsi une prédiction fiable pour la plupart des variants faux-sens humaines. cf. fig 2 Nous montrons comment cette ressource peut être utilisée pour accélérer la recherche dans plusieurs domaines. Les biologistes moléculaires pourraient utiliser la base de données comme point de départ pour concevoir et interpréter des expériences visant à sonder les substitutions saturantes d’acides aminés à travers le protéome humain. Les généticiens humains pourraient combiner les prédictions AlphaMissense au niveau des gènes avec des approches basées sur des cohortes de population pour quantifier la signification fonctionnelle des gènes, en particulier pour les gènes humains plus courts pour lesquels les approches basées sur des cohortes manquent de puissance statistique. Enfin, les cliniciens pourraient bénéficier d’une couverture accrue des variants pathogènes classées avec confiance lorsqu’ils donnent la priorité aux variants de novo pour le diagnostic des maladies rares, et les prédictions d’AlphaMissense pourraient éclairer les études sur la génétique des traits complexes qui utilisent des annotations de variants rares et probablement délétères.Traduction Google adaptée encourage le lecteur à aller vérifier dans l’article d’origine : ici
CONCLUSION
Les méthodes en résumé
Comme nous l’avons vu -cf. AlphaFold dans JTS – un programme d’IA est capable de prédire (plutôt bien) la structure d’une protéine à partir de la séquence du gène. Cheng et al. ont alors examiné les variants de gènes (ils se sont limités aux mutations d’une base de type missense (faux-sens) ) et ont examiné si la protéine prédite par AlphaFold2 différerait. Ils ont combiné i)la prédiction de la structure avec d’autres stratégies qui se sont révélées efficaces dans la prédiction des effets variables, en particulier ii) la modélisation du langage protéique (Frazer et al. (2021) résument ici leur approche: « En modélisant la distribution des variations de séquences entre de nombreux organismes pour chaque protéine, ils révèlent les contraintes évolutives sur les séquences protéiques qui maintiennent leur fitness adaptative ») et iii) l’ajustement précis des fréquences alléliques dans les populations de primates humains et non humains. AlphaFold a été affiné sur les données de fréquence des populations de variantes humaines et de primates et calibré pour la confiance sur les variantes de maladies connues.
Les résultats d’AlphaMissense sont des scores de pathogénicité, qui reflètent la probabilité que les mutations provoquent une maladie, plutôt que seulement les changements prévus dans les structures protéiques.(cf. fig 2) encourage le lecteur à aller vérifier dans l’article d’origine : ici
Fig 2: Prédiction de la pathogénicité par AlphaMissense. Ce logiciel prend en entrée une variante faux-sens et prédit sa pathogénicité. les résultats d’AlphaFold ont été affinés sur les données de fréquence des populations de variantes humaines et de primates et calibré pour la confiance sur les variantes de maladies connues. AlphaMissense prédit la probabilité qu’une variante faux-sens soit pathogène et la classe comme probablement bénigne, probablement pathogène ou incertaine. Il fournit des prédictions pour toutes les variantes possibles du faux-sens humain en tant que ressource pour la communauté scientifique. [img]. Source :Cheng et al., (2023)
Une mise en perspective: ne pas extrapoler trop vite …
En discutant avec un expert de l’IA et de l’informatique médicale de cet article, nous en sommes venus à nous demander combien d’entre nous seraient là si cet algorithme avait éliminé toutes les mutations pathogènes de la nature ?
Peut-on vraiment définir la notion de pathogène de manière objective ?
Quelques exemples; Darwin était intolérant au lactose, Stephen Hawking atteint d’une maladie neurodégénérative peut-être génétique, l’anémie falciforme est souvent vue comme une maladie génétique… mais elle aussi une protection précieuse contre la malaria, certaines formes de surdité congénitales donnent une cicatrisation exceptionnellement efficace, les personnes atteintes du syndrome de Down (trisomie du 21) n’ont quasiment jamais de cancer… cf. JTS :L’idée qu’un gène soit bon ou mauvais est … inadaptée ?
Qu’est-ce que le « normal » ?
Compte tenu de notre regard biaisé sur l’évolution et notre compréhension limitée des mécanismes en jeu, ne serait-ce pas téméraire d’extrapoler à partir des résultats fascinants de Cheng et al., (2023) des décisions précipitées de prévention, de classement des différences, menant à la stigmatisation plutôt qu’à l’intégration… ne sommes-nous pas tous différents.
Références:
- Cheng, J., Novati, G., Pan, J., Bycroft, C., Žemgulytė, A., Applebaum, T., Pritzel, A., Wong, L. H., Zielinski, M., Sargeant, T., Schneider, R. G., Senior, A. W., Jumper, J., Hassabis, D., Kohli, P., & Avsec, Ž. (2023). Accurate proteome-wide missense variant effect prediction with AlphaMissense. Science, 381(6664), eadg7492. https://doi.org/10.1126/science.adg7492
- Fowler, D. M., Adams, D. J., Gloyn, A. L., Hahn, W. C., Marks, D. S., Muffley, L. A., Neal, J. T., Roth, F. P., Rubin, A. F., Starita, L. M., & Hurles, M. E. (2023). An Atlas of Variant Effects to understand the genome at nucleotide resolution. Genome Biology, 24(1), 147. https://doi.org/10.1186/s13059-023-02986-x
- Frazer, J., Notin, P., Dias, M., Gomez, A., Min, J. K., Brock, K., Gal, Y., & Marks, D. S. (2021). Disease variant prediction with deep generative models of evolutionary data. Nature, 599(7883), Article 7883. https://doi.org/10.1038/s41586-021-04043-8
- Marsh, J. A., & Teichmann, S. A. (2023). Predicting pathogenic protein variants. Science, 381(6664), 1284‑1285. https://doi.org/10.1126/science.adj8672