l'IA pour prédire quelles variantes d'un gène produisent des protéines pathogènes

Prédire quelles mutations missense produisent des protéines pathogènes

Un algorithme d’apprentissage automatique utilise la prédiction de structure pour repérer les mutations pathogènes

Dans un commentaire sur l’article original, Marsh & Teichmann(2023) ici écrivent « La plupart des mutations génétiques à l’origine de maladies chez l’homme se produisent dans des régions codant pour des protéines. Même si la capacité à séquencer l’ADN et à identifier ces variants a considérablement augmenté, la capacité à interpréter leurs effets reste limitée. Ce problème est particulièrement aigu pour les variants faux-sens, qui impliquent la substitution d’un seul acide aminé et constituent l’écrasante majorité des « variants de signification incertaine » (VUS), telles que classées par les cliniciens. Les auteurs évoquent les approches expérimentales récentes (MAVE) pour caractériser les effets des variants -notamment dans le projet Atlas of Variant Effects (Fowler,& al.,.2023))ici, mais indiquent qu’à l’heure actuelle, les cartes d’effets des variants produites expérimentalement ne sont disponibles que pour une infime fraction du génome humain.
Ainsi, l’utilisation de Variant Effects Predictor (VEP) informatiques pour générer des cartes d’effets variants in silico reste essentielle. Cheng et al. (2023)(ici) présentent AlphaMissense, un algorithme d’apprentissage automatique, VEP qui s’appuie sur AlphaFold pour prédire les structures protéiques à partir de séquences de gènes.
Les auteurs montrent qu’AlphaMissense a des performances supérieures sur plusieurs critères de référence par rapport par rapport aux autres VEP actuellement disponibles.
Il est donc susceptible d’améliorer l’interprétation des données de séquençage et de faire progresser le rôle des prédictions informatiques dans le diagnostic des maladies génétiques. » Traduction Google modifiée Jump-To-Science : donner envie d'accéder aux articles              plutot que vulgariser encourage le lecteur à aller vérifier dans le commentaire d’origine :  ici

Résumé structuré de Cheng et al. (2023) (traduit).

« INTRODUCTION
Le séquençage du génome a révélé d’importantes variations génétiques dans les populations humaines. Les variants faux-sens (missense) sont des variants génétiques qui modifient la séquence d’acides aminés des protéines. Les variants faux-sens pathogènes perturbent la fonction des protéines et réduisent la condition physique de l’organisme, tandis que les variants faux-sens bénignes ont un effet limité.
Rationale (justification de ce que leur recherche apporte de nouveau)
La classification de ces variants constitue un défi important et permanent en génétique humaine. Sur plus de 4 millions de variants faux-sens observées, seulement 2 % environ ont été cliniquement classées comme pathogènes ou bénignes, tandis que la grande majorité d’entre elles ont une signification clinique inconnue. Cela limite le diagnostic des maladies rares, ainsi que le développement ou l’application de traitements cliniques ciblant la cause génétique sous-jacente. Les approches d’apprentissage automatique pourraient combler le fossé dans l’interprétation des variants en exploitant les modèles des données biologiques pour prédire le pouvoir pathogène des variants non annotées. Plus précisément, AlphaFold, qui prédit avec précision la structure des protéines à partir de la séquence protéique, peut être utilisé comme base pour prédire le pouvoir pathogène des variants des protéines.Traduction Google adaptée Jump-To-Science : donner envie d'accéder aux articles              plutot que vulgariser encourage le lecteur à aller vérifier dans l’article d’origine :  ici
Acknowledgments, References and Notes, eLetters                    (0),, Information & Authors, Metrics &                    Citations, View Options, References, Media,,                    Share,,Related Research Article,Accurate proteome-wide                    missense variant effect prediction with                    AlphaMissense,By Jun Cheng, Guido Novati, Joshua Pan,                    et al.,AlphaMissense predicts the effects of variants                    by building on the AlphaFold algorithm that predicts                    protein structures from gene sequences.,GRAPHIC: C.                    BICKEL/SCIENCE
Fig 1 : AlphaMissense prédit les effets des variants en s’appuyant sur l’algorithme AlphaFold qui prédit les structures protéiques à partir des séquences génétiques. GRAPHIQUE : [img] C. BICKEL/SCIENCE
RÉSULTATS

Nous avons développé AlphaMissense pour tirer parti des avancées sur plusieurs fronts : (i) modélisation non supervisée du langage protéique pour apprendre les distributions d’acides aminés conditionnées par le contexte de la séquence ; (ii) incorporer un contexte structurel en utilisant un système dérivé d’AlphaFold ; et (iii) affiner les signaux faibles à partir des données de fréquence de population, évitant ainsi les biais liés aux annotations organisées par l’homme. AlphaMissense réalise des prédictions de pathogénicité faux-sens de pointe dans l’annotation clinique, les variants de novo de la maladie et les tests expérimentaux sans formation explicite sur ces données. En tant que ressource pour la communauté, nous fournissons une base de données de prédictions pour toutes les substitutions possibles d’un seul acide aminé dans le protéome humain.
Nous classons 32 % de toutes les variants faux-sens comme probablement pathogènes et 57 % comme probablement bénignes en utilisant un seuil donnant une précision de 90 % sur l’ensemble de données ClinVar, fournissant ainsi une prédiction fiable pour la plupart des variants faux-sens humaines.
cf. fig 2 Nous montrons comment cette ressource peut être utilisée pour accélérer la recherche dans plusieurs domaines. Les biologistes moléculaires pourraient utiliser la base de données comme point de départ pour concevoir et interpréter des expériences visant à sonder les substitutions saturantes d’acides aminés à travers le protéome humain. Les généticiens humains pourraient combiner les prédictions AlphaMissense au niveau des gènes avec des approches basées sur des cohortes de population pour quantifier la signification fonctionnelle des gènes, en particulier pour les gènes humains plus courts pour lesquels les approches basées sur des cohortes manquent de puissance statistique. Enfin, les cliniciens pourraient bénéficier d’une couverture accrue des variants pathogènes classées avec confiance lorsqu’ils donnent la priorité aux variants de novo pour le diagnostic des maladies rares, et les prédictions d’AlphaMissense pourraient éclairer les études sur la génétique des traits complexes qui utilisent des annotations de variants rares et probablement délétères.
Traduction Google adaptée Jump-To-Science : donner envie d'accéder aux articles              plutot que vulgariser encourage le lecteur à aller vérifier dans l’article d’origine :  ici

CONCLUSION
Les prédictions d’AlphaMissense peuvent éclairer les effets moléculaires des variants sur la fonction des protéines, contribuer à l’identification de mutations faux-sens pathogènes et de gènes pathogènes jusqu’alors inconnus, et augmenter le rendement diagnostique des maladies génétiques rares. AlphaMissense favorisera également le développement de prédicteurs spécialisés d’effets de variants protéiques à partir de modèles de prédiction de structure. » Traduction Google adaptée Jump-To-Science : donner envie d'accéder aux articles              plutot que vulgariser encourage le lecteur à aller vérifier dans l’article d’origine :  ici

Les méthodes en résumé

Comme nous l’avons vu -cf. AlphaFold dans JTS un programme d’IA est capable de prédire (plutôt bien) la structure d’une protéine à partir de la séquence du  gène. Cheng et al. ont alors examiné les variants de gènes (ils se sont limités aux mutations d’une base de type missense (faux-sens) ) et ont examiné si la protéine prédite par AlphaFold2 différerait. Ils ont combiné i)la prédiction de la structure avec d’autres stratégies qui se sont révélées efficaces dans la prédiction des effets variables, en particulier ii) la modélisation du langage protéique (Frazer et al. (2021) résument ici leur approche: « En modélisant la distribution des variations de séquences entre de nombreux organismes pour chaque protéine, ils révèlent les contraintes évolutives sur les séquences protéiques qui maintiennent leur fitness adaptative ») et iii) l’ajustement précis des fréquences alléliques dans les populations de primates humains et non humains. AlphaFold a été affiné sur les données de fréquence des populations de variantes humaines et de primates et calibré pour la confiance sur les variantes de maladies connues.
Les résultats d’AlphaMissense sont des scores de pathogénicité, qui reflètent la probabilité que les mutations provoquent une maladie, plutôt que seulement les changements prévus dans les structures protéiques.(
cf. fig 2) Jump-To-Science : donner envie d'accéder aux                  articles plutot que vulgariser encourage le lecteur à aller vérifier dans l’article d’origine :  ici

AlphaMissense pathogenicity prediction.,AlphaMissense              takes as input a missense variant and predicts its              pathogenicity. We fine-tuned AlphaFold on human and primate              variant population frequency data and calibrated the              confidence on known disease variants. AlphaMissense predicts              the probability of a missense variant being pathogenic and              classifies it as either likely benign, likely pathogenic, or              uncertain. We provide predictions for all possible human              missense variants as a resource for the community.

Fig 2: Prédiction de la pathogénicité par AlphaMissense. Ce logiciel prend en entrée une variante faux-sens et prédit sa pathogénicité. les résultats d’AlphaFold ont été affinés sur les données de fréquence des populations de variantes humaines et de primates et calibré pour la confiance sur les variantes de maladies connues. AlphaMissense prédit la probabilité qu’une variante faux-sens soit pathogène et la classe comme probablement bénigne, probablement pathogène ou incertaine. Il fournit des prédictions pour toutes les variantes possibles du faux-sens humain en tant que ressource pour la communauté scientifique. [img]. Source :Cheng et al., (2023)

Une mise en perspective: ne pas extrapoler trop vite …

En discutant avec un expert de l’IA et de l’informatique médicale de cet article, nous en sommes venus à nous demander combien d’entre nous seraient là si cet algorithme avait éliminé toutes les mutations pathogènes de la nature ?
Peut-on vraiment définir la notion de pathogène de manière objective ?
Quelques exemples; Darwin était intolérant au lactose, Stephen Hawking atteint d’une maladie neurodégénérative peut-être génétique, l’anémie falciforme est souvent vue comme une maladie génétique… mais elle aussi une protection précieuse contre la malaria, certaines formes de surdité congénitales donnent une cicatrisation exceptionnellement efficace, les personnes atteintes du syndrome de Down (trisomie du 21) n’ont quasiment jamais de cancer…  cf. JTS :L’idée qu’un gène soit bon ou mauvais est … inadaptée ?

Qu’est-ce que le « normal » ?

Compte tenu de notre regard biaisé sur l’évolution et notre compréhension limitée des mécanismes en jeu, ne serait-ce pas téméraire d’extrapoler à partir des résultats fascinants de Cheng et al., (2023) des décisions précipitées de prévention, de classement des différences, menant à la stigmatisation plutôt qu’à l’intégration… ne sommes-nous pas tous différents.

Références:

  • Cheng, J., Novati, G., Pan, J., Bycroft, C., Žemgulytė, A., Applebaum, T., Pritzel, A., Wong, L. H., Zielinski, M., Sargeant, T., Schneider, R. G., Senior, A. W., Jumper, J., Hassabis, D., Kohli, P., & Avsec, Ž. (2023). Accurate proteome-wide missense variant effect prediction with AlphaMissense. Science, 381(6664), eadg7492. https://doi.org/10.1126/science.adg7492
  • Fowler, D. M., Adams, D. J., Gloyn, A. L., Hahn, W. C., Marks, D. S., Muffley, L. A., Neal, J. T., Roth, F. P., Rubin, A. F., Starita, L. M., & Hurles, M. E. (2023). An Atlas of Variant Effects to understand the genome at nucleotide resolution. Genome Biology, 24(1), 147. https://doi.org/10.1186/s13059-023-02986-x
  • Frazer, J., Notin, P., Dias, M., Gomez, A., Min, J. K., Brock, K., Gal, Y., & Marks, D. S. (2021). Disease variant prediction with deep generative models of evolutionary data. Nature, 599(7883), Article 7883. https://doi.org/10.1038/s41586-021-04043-8
  • Marsh, J. A., & Teichmann, S. A. (2023). Predicting pathogenic protein variants. Science, 381(6664), 1284‑1285. https://doi.org/10.1126/science.adj8672

Ce contenu a été publié dans Perspective sur les savoirs, Savoirs en classe, Savoirs en sciences, avec comme mot(s)-clé(s) , , , , , , , , , . Vous pouvez le mettre en favoris avec ce permalien.