Nouvelle ère de la biologie … numérique

Prédire la structure d’une protéine à partir de sa séquence,
puis déterminer la séquence d’une protéine qui aura la forme et la fonction désirée

En quelques mois une des grandes questions en biologie obtient une réponse: des chercheurs ont développé AlphaFold un système d’Intelligence Artificielle (IA) capable de prédire avec précision les formes 3D des protéines à partir de leurs séquences d’acides aminés (a.a.) -leur structure secondaire et tertiaire à partir de la structure primaire en somme. Ils mettent librement à disposition de tous les structures très probables de presque toutes les protéines connues, plus de 200 millions, des bactéries aux humains.

A              computer render illustration of hallucinated ring proteins.Peu après cela l’équipe de Baker utilisant cette IA et d’autres ont pu faire l’inverse : trouver une séquence d’a.a. qui se repliera en prenant la forme d’une protéine souhaitée (médicament, vaccin, traitement de déchets etc.).
Ils ont même pu produire des protéines qui n’ont jamais existé par un procédé qu’ils ont joliment nommé « hallucination » (ils en font un verbe transitif : nous avons halluciné une protéine qui a telle fonction …). Leur procédé n’est pas sans ressembler à l’évolution : effectuer de nombreuses modifications aléatoires de la séquence ( comme les mutations et recombinaisons), puis prédire par IA la structure de chacune (comme l’expression du génome en phénotype) et choisir la séquence qui donner la structure la plus proche de ce qu’on cherche (comme la sélection naturelle), et recommencer jusqu’à satisfaction. Ensuite faire exprimer cette protéine dans une bactérie et vérifier son activité.
Ils sont récemment passé au niveau supérieur et ont même halluciné des assemblages de protéines  (structure quaternaire) cf. fig 2 et ci-contre.

Implications pour l’enseignement de la biologie

JTS a sélectionné ces recherches parce qu’elles soulèvent plusieurs question importantes pour les enseignants. Elles sont importantes pour aider les élèves à comprendre ce que les médias en disent. Aussi parce que la biologie change, qu’elle est de plus en plus in silico mais s’articule avec la biologie moléculaire où ces prédictions reprennent contact avec le monde matériel pour vérifier leurs effets. Également parce que cela pose la question du naturel et des limites du vivant – qui définit en principe la biologie. Enfin parce que le métier de biologiste change pour devenir plus ingénieur ? C’est une différence de posture très significative.
Faut-il refléter ces changements dans nos cours ?  Et comment ?  JTS développe un peu ces questions plus bas.

« Nouvelle ère de la biologie numérique » : l’IA révèle les structures de presque toutes les protéines connues

Travis, J. (2022), dans une News de Science ici , écrit :  « L’avancée du logiciel AlphaFold de DeepMind pourrait révolutionner la biologie et la médecine » Il y a douze mois, la société d’intelligence artificielle (IA) DeepMind avait surpris de nombreux scientifiques avec la publication de structures prédites pour quelque 350 000 protéines Tunyasuvunakool,…Hassabis, et al.(2021)ici . Cette recherche a été sélectionnée comme une des percées scientifiques de l’année 2021.
Cette structure prédite par AlphaFold représente une          protéine de surface à un stade d'un parasite du paludisme en          cours de développement pour devenir un candidat vaccin
Fig 1 : à droite Structure prédite par AlphaFold d’une protéine sur un stade d’un parasite du paludisme

Depuis, Hassabis, et al. (2022) ici ont dévoilé les structures probables de presque toutes les protéines connues – plus de 200 millions – des bactéries aux humains, une réalisation remarquable pour l’IA et un trésor potentiel pour le développement de médicaments et la recherche en biologie. (Travis, J. (2022), traduction Google  par IA 😉 retouchée)

Un défi scientifique résolu ?

AlphaFold, est l’un des nouveaux programmes d’IA qui a résolu ce défi de longue date : déterminer avec précision les formes 3D des protéines à partir de leurs séquences d’acides aminés. (leur structure tertiaire à partir de la structure primaire).
Il faut noter que l’IA n’explique pas le mécanisme par lequel la protéine se replie – alors que la biologie cherche   habituellement les mécanismes sous-jacents. Cet IA est une « boite noire » qui produit un résultat très utilisable, mais ce qu’il y a dedans reste mystérieux. Alphafold ayant été nourri d’un grand nombre de séquences d’.a.a (trouvées chez UniProt 🙂 et des structures correspondantes (de chez PDB) « apprend » et – une fois cette longue phase réalisée – peut très vite associer une structure 3D à partir de la séquence d’a.a. qu’on lui donne.
Les protéines résolues par AlphaFold proviennent d’organismes allant des bactéries aux plantes en passant par les vertébrés, y compris les souris, les poissons zèbres et les humains. Kathryn Tunyasuvunakool, chercheuse chez DeepMind, a déclaré qu’il fallait environ 10 à 20 secondes à AlphaFold pour faire chaque prédiction de protéine. (Travis, J. (2022), traduction google translate (par IA 😉 retouchée)

Jump-To-Science : donner envie d'accéder aux                  articles plutot que vulgariser encourage le lecteur à aller vérifier dans l’article d’origine :

  • Tunyasuvunakool, K., Adler, J., Wu, Z., Green, T., Zielinski, M., Žídek, A., Bridgland, A., Cowie, A., Meyer, C., Laydon, A., Velankar, S., Kleywegt, G. J., Bateman, A., Evans, R., Pritzel, A., Figurnov, M., Ronneberger, O., Bates, R., Kohl, S. A. A., … Hassabis, D. (2021). Highly accurate protein structure prediction for the human proteome. Nature, 596(7873), 590‑596. https://doi.org/10.1038/s41586-021-03828-1
Ces structures sont aussi disponibles pour tous depuis les banques de données UniProt et PDB qui ont fourni le « matériel » pour éduquer AlphaFold
Uniprot propose l’accès aux structures expérimentales et prédites (computed )directement depuis la page pour chaque protéine

Un  concert de superlatifs

« AlphaFold est une avancée capitale des sciences de la vie qui démontre la puissance de l’IA »
« Avec ce nouvel apport de structures qui révèle presque tout l’univers des protéines, nous pouvons nous attendre à ce que davantage de mystères biologiques soient résolus chaque jour. » (in Travis, J. (2022), traduction google translate (par IA 😉 retouchée)

Des potentiels fascinants …

Des chercheurs utilisent déjà les prédictions de structure pour développer des vaccins potentiels, sonder des questions de biologie fondamentale telles que la façon dont le complexe de pore nucléaire contrôle quelles molécules pénètrent dans le noyau d’une cellule, ou examinent l’évolution des protéines dans l’origine de la vie. Hassabis, cependant, rappelle que la mise à disposition des structures n’est qu’un point de départ. « Il y a encore évidemment beaucoup de biologie, et de chimie, qui doivent être faites. »
Une « nouvelle ère de la biologie numérique » dans laquelle les développeurs de médicaments pourraient disposer plus vite des structures de protéines impliquées dans diverses maladies et affections afin de mieux concevoir de petites molécules qui agissent sur ces protéines et donc traiter ces maladies. (Travis, J. (2022), traduction google translate (par IA 😉 retouchée) Jump-To-Science : donner envie d'accéder aux articles              plutot que vulgariser encourage le lecteur à aller vérifier dans l’article d’origine :  ici

Depuis une prédiction de ce qu’on pourrait observer
vers une ingénierie de protéine originales composées à volonté

A peine remis de l’étonnement émerveillé de voir l’IA réussir à prédire la structure d’une protéine à partir de sa séquence, …(et peut-être perturbé par les implications dans nos cours ?) voici que des chercheurs ont réussi la fonction inverse : établir la séquence d’acides aminés qui donnera la forme d’une protéine souhaitée !

A computer render illustration of              hallucinated ring proteins.
Fig 2: L’IA a permis aux chercheurs de produire des protéines qui ne ressemblent à rien de connu dans la nature [img].
Source : Callaway, E. (2022) credit Ian C Haydon/UW Institute for Protein Design

En quelques secondes plutôt que péniblement en plusieurs mois

(Callaway, E. (2022), dans une News de Nature écrit  » le tout premier médicament à être fabriqué à partir d’une nouvelle protéine conçue par l’homme a été autorisé. Ce vaccin COVID 19 est basé sur une « nanoparticule » de protéine sphérique qui a été créée par des chercheurs il y a près de dix ans, grâce à un processus d’essais et d’erreurs très long et fastidieux. (Hsia, et al., 2016) ici.

Une équipe dirigée par David Baker, biochimiste à l’Université de Washington (UW) à Seattle, rapporte dans Science (Dauparas,2022)ici, et  (Wicky,2022) ici qu’elle a mis au point des IA capables de concevoir de telles molécules en quelques secondes au lieu de plusieurs mois ou années. (d’après Callaway, E. (2022))

Jump-To-Science : donner envie d'accéder aux                  articles plutot que vulgariser encourage le lecteur à aller vérifier dans l’article d’origine :

  • Dauparas, J., Anishchenko, I., Bennett, N., Bai, H., Ragotte, R. J., Milles, L. F., Wicky, B. I. M., Courbet, A., de Haas, R. J., Bethel, N., Leung, P. J. Y., Huddy, T. F., Pellock, S., Tischer, D., Chan, F., Koepnick, B., Nguyen, H., Kang, A., Sankaran, B., … Baker, D. (2022). Robust deep learning–based protein sequence design using ProteinMPNN. Science, 0(0), eadd2187. https://doi.org/10.1126/science.add2187
  • Wicky, B. I. M., Milles, L. F., Courbet, A., Ragotte, R. J., Dauparas, J., Kinfu, E., Tipps, S., Kibler, R. D., Baek, M., DiMaio, F., Li, X., Carter, L., Kang, A., Nguyen, H., Bera, A. K., & Baker, D. (2022). Hallucinating symmetric protein assemblies. Science, 0(0), eadd1964. https://doi.org/10.1126/science.add1964
La plupart de ces recherches se concentrent sur des outils qui peuvent aider à fabriquer des protéines originales, dont la forme ne ressemble à rien dans la nature (cf. Fig 2), sans trop se concentrer sur ce que ces molécules peuvent faire. Mais les chercheurs – et un nombre croissant d’entreprises qui appliquent l’IA à la conception de protéines – aimeraient concevoir des protéines capables de fonctions utiles, du nettoyage des déchets toxiques au traitement des maladies.
Partant de zéro Le laboratoire de Baker a passé les trois dernières décennies à fabriquer de nouvelles protéines. Un logiciel appelé Rosetta, que son laboratoire a commencé à développer dans les années 1990, divise le processus en étapes. Initialement, les chercheurs ont conçu une forme pour une nouvelle protéine – souvent en bricolant des morceaux d’autres protéines – et le logiciel a déduit une séquence d’acides aminés qui correspondait à cette forme. Mais ces protéines de « première ébauche » se repliaient rarement dans la forme souhaitée lorsqu’elles étaient fabriquées en laboratoire. Une autre étape était donc nécessaire pour modifier la séquence protéique de manière à ce qu’elle ne se replie que dans la structure souhaitée. Cette étape, qui impliquait de simuler toutes les manières dont différentes séquences pourraient se replier, était très lente : il fallait 10 000 ordinateurs fonctionnant pendant des semaines…  (Callaway, E. (2022), traduction google translate (par IA 😉 retouchée)


Halluciner une protéine !  Halluciner devient un verbe transitif?
« De novo protein design by deep network hallucination »

En ajustant leurs programmes pour itérativement tester des variantes aléatoires, l’équipe de Baker a développé une nouvelle approche appelée hallucination, dans laquelle les chercheurs introduisent itérativement de très nombreuses séquences aléatoires d’acides aminés – puis ils testent avec AlphaFold et un outil similaire appelé RoseTTAFold de quelle manière cela a modifié la structure et sélectionnent les plus adaptées afin qu’elle ressemblent de plus en plus à la protéine souhaitée. Ces séquences finales d’acides aminés codent pour des protéines qui peuvent ensuite être fabriquées et étudiées en laboratoire. (D’après Callaway, E. (2022))
JTS suggère qu’on peut le comparer aux mutations, recombinaisons, expression du génome en phénotype et à la sélection naturelle dans l’évolution.
Fig 3: Production itérative de la protéine désirée. [img]. Source Baker Lab. (2021)

Commencer par du charabia puis muter, prédire la forme, et sélectionner les plus adaptées.

Pour expliquer comment les réseaux de neurones « hallucinent » une nouvelle protéine, l’équipe de Baker la compare à la façon dont elle pourrait écrire un livre : « Vous commencez avec un assortiment aléatoire de mots – un charabia total. Ensuite, vous imposez une exigence telle que  dans le paragraphe d’ouverture, il faut que ce soit une nuit sombre et orageuse. Ensuite, l’ordinateur changera les mots un par un et se demandera : « Est-ce que l’histoire a plus de sens ? ». Si c’est le cas, il conserve les modifications jusqu’à ce qu’une histoire complète soit écrite », Traduction de Baker Lab. (2022, juillet 21). Training A.I. to generate medicines and vaccines. Baker Lab.

Dans un article de 2021 dans Science, « De novo protein design by deep network hallucination »  l’équipe de Baker révèle qu’ils avaient créé plus de 100 petites protéines «hallucinées» en laboratoire et environ un cinquième ressemblait à la forme prédite (Anishchenko, et al. 2021) ici.

Ils sont ensuite passé au wet lab la  pour confirmer ces prédictions « nous avons caractérisé expérimentalement les hallucinations générées par ordinateur en obtenant des gènes synthétiques pour les 129 protéines, et en les exprimant et en les purifiant à partir d’E. coli »
Deux lignes de
biologie moléculaire dans un article essentiellement de biologie numérique… La biologie change !

    Designer une protéine c’est bien, en concevoir plusieurs s’assemblant, c’est mieux ?

    Les chercheurs ont rapidement découvert que de tels réseaux pouvaient également modéliser des assemblages de plusieurs protéines. Sur cette base, Baker et son équipe (Baek,…Baker et al.,(2021)ici. ont montré qu’ils pouvaient halluciner des protéines qui s’auto-assembleraient en nanoparticules de différentes formes et tailles. Jump-To-Science : donner envie d'accéder aux articles              plutot que vulgariser encourage le lecteur à aller vérifier dans l’article d’origine :
    • Wicky,…, Baker,et al., (2022). Hallucinating symmetric protein assemblies. Science, eadd1964. https://doi.org/10.1126/science.add1964
    • Baek, M., DiMaio, F., Anishchenko, I., Dauparas, J., Ovchinnikov, S., Lee, G. R., Wang, J., Cong, Q., Kinch, L. N., Schaeffer, R. D., Millán, C., Park, H., Adams, C., Glassman, C. R., DeGiovanni, A., Pereira, J. H., Rodrigues, A. V., van Dijk, A. A., Ebrecht, A. C., … Baker, D. (2021). Accurate prediction of protein structures and interactions using a three-track neural network. Science, 373(6557), 871‑876. https://doi.org/10.1126/science.abj8754
    How              to design a protein: infographic that shows four techniques              to design new protein structures or sequences using AI.
    Fig 4: commentaire [img]. Source : Nik Spencer/Nature Adapted from N. Ferruz et al. Preprint at bioRxiv  (2022); and J. Wang et al. Science377, 387–394 (2022).

    Implications pour l’enseignement de la biologie

    JTS estime que ces recherches soulèvent des question importantes et méritent l’attention des enseignants à plusieurs titres.

    • Parce que c’est passionnant de voir une des grandes questions de la biologie obtenir une réponse… qui pose de nouvelles questions.
    • Ces recherches sont reprises dans les médias, forcément simplifiées et en général surtout les conclusions sensationnalistes et les applications potentielles, mais pas les méthodes, le contexte et les limites. Les comprendre pour faire face à des questions d’élèves peut les aider à comprendre et … participer à leurs prises de décision en tant que citoyen-ne future ou actuelle.
    • Parce que cela montre encore une fois que les savoirs de recherche que la recherche produit sont établis non plus par des opérations moléculaires, mais de biologie numérique (et peut-être apprivoiser le terme  bioinformatique ?).
      Si la biologie change profondément, la question de l’intégration dans nos programmes et pratiques en classe pourra-t-elle encore longtemps être écartée ?
    • Parce que – quand même – à la fin on vérifie dans le « wet lab » par des techniques classiques de génie génétique si la protéine est bien celle attendue. In fine c’est dans le monde des molécules qu’on juge de la réussite. Hassabis (2022) dit que la mise à disposition de ces structures n’est qu’un point de départ. « Il y a encore évidemment beaucoup de biologie, et beaucoup de chimie, qui doivent être faites. » Ouf !  La biologie in silico – ou numérique ne remplace pas mais complète la biologie in vitro.
    • Parce que la délimitation du naturel devient plus délicate : ces protéines synthétisée par des processus de biosynthèse classique – le génie génétique que nous avons découverts et non inventé peuvent encore être considérés comme naturels par certains, mais la production de protéines nouvelles n’existant pas dans la nature est-elle encore naturelle ? biologique ? fait-elle parie de l’étude du vivant ?
    • Parce que la biologie devient avec la biologie de synthèse (cf. JTS Au-delà du génie génétique : la biologie synthétique. ) et ces travaux encore plus une ingénierie au service de production humaines – Callaway (2022) mentionne médicaments, vaccins, traitement des déchets.
    • Parce qu’on s’éloigne encore plus du naturaliste contemplatif qui a dominé la biologie de la première moitié du siècle passé, de la biologie moléculaire, une recherche fondamentale, qui cherche à comprendre – en termes moléculaires – les mécanismes sous-jacents des phénomènes vivants. Avec cette nouvelle biologie, on ne se limite plus au vivant, on utilise la compréhension – ou du moins les possibilités d’application – pour produire de l’utile.
      C’est un changement de posture très significatif. Faut-il le refléter dans nos cours ?  Et comment ?

    Un important chantier de réflexion sur l’essence de notre discipline mérite d’être ouvert – y participer avant qu’on nous impose une réforme ?

    Références:

    • Anishchenko, I., Pellock, S. J., Chidyausiku, T. M., Ramelot, T. A., Ovchinnikov, S., Hao, J., Bafna, K., Norn, C., Kang, A., Bera, A. K., DiMaio, F., Carter, L., Chow, C. M., Montelione, G. T., & Baker, D. (2021). De novo protein design by deep network hallucination. Nature, 600(7889), 547‑552. https://doi.org/10.1038/s41586-021-04184-w
    • Baker Lab. (2021). Training A.I. to generate medicines and vaccines. Baker Lab (juillet 2021). https://www.bakerlab.org/2022/07/21/training-generate-medicines-vaccines/
    • Callaway, E. (2022). Scientists are using AI to dream up revolutionary new proteins. Nature. https://doi.org/10.1038/d41586-022-02947-7
    • Dauparas, J., Anishchenko, I., Bennett, N., Bai, H., Ragotte, R. J., Milles, L. F., Wicky, B. I. M., Courbet, A., de Haas, R. J., Bethel, N., Leung, P. J. Y., Huddy, T. F., Pellock, S., Tischer, D., Chan, F., Koepnick, B., Nguyen, H., Kang, A., Sankaran, B., … Baker, D. (2022). Robust deep learning–based protein sequence design using ProteinMPNN. Science, 0(0), eadd2187. https://doi.org/10.1126/science.add2187
    • Hassabis, D. (2022). AlphaFold reveals the structure of the protein universe. Consulté 5 août 2022, à l’adresse https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe
    • Hsia, Y., Bale, J. B., Gonen, S., Shi, D., Sheffler, W., Fong, K. K., Nattermann, U., Xu, C., Huang, P.-S., Ravichandran, R., Yi, S., Davis, T. N., Gonen, T., King, N. P., & Baker, D. (2016). Design of a hyperstable 60-subunit protein icosahedron. Nature, 535(7610), 136‑139. https://doi.org/10.1038/nature18010
    • Travis, J. (2022). ‘New era in digital biology’ : AI reveals structures of nearly all known proteins. Science.  https://doi.org/10.1126/science.ade1829
    • Tunyasuvunakool, K., Adler, J., Wu, Z., Green, T., Zielinski, M., Žídek, A., Bridgland, A., Cowie, A., Meyer, C., Laydon, A., Velankar, S., Kleywegt, G. J., Bateman, A., Evans, R., Pritzel, A., Figurnov, M., Ronneberger, O., Bates, R., Kohl, S. A. A., … Hassabis, D. (2021). Highly accurate protein structure prediction for the human proteome. Nature, 596(7873), 590‑596. https://doi.org/10.1038/s41586-021-03828-1
    • Wicky, B. I. M., Milles, L. F., Courbet, A., Ragotte, R. J., Dauparas, J., Kinfu, E., Tipps, S., Kibler, R. D., Baek, M., DiMaio, F., Li, X., Carter, L., Kang, A., Nguyen, H., Bera, A. K., & Baker, D. (2022). Hallucinating symmetric protein assemblies. Science, 0(0), eadd1964. https://doi.org/10.1126/science.add1964
    Ce contenu a été publié dans AuthenTIC Data : des données authentiques pour la classe, Perspective sur les savoirs, Savoirs en classe, Savoirs en sciences, avec comme mot(s)-clé(s) , , , , , , , , . Vous pouvez le mettre en favoris avec ce permalien.