L’intelligence artificielle de DeepMind réalise un pas de géant dans la résolution des structures protéiques
Au risque de se répéter, le Guru va avoir besoin de vous !
La société britannique DeepMind de l’entreprise américaine Alphabet (de Google), a utilisé son système d’Intelligence artificielle (IA) pour résoudre un mystère biologique vieux de cinq décennies, en utilisant AlphaFold pour déterminer le comportement des protéines. La société est devenue célèbre pour ses développements de réseaux neuronaux, qui ont démontré leurs capacités à battre les humains en jouant aux échecs, au go, au shogi, au jeu vidéo Quake III…
Image d’entête : deux exemples de modélisation libre du repliement de protéines. AlphaFold prédit très précisément le repliement des structures (les zones en bleu) par rapport à un résultat expérimental (les zones en vert). (DeepMind)
Google a acquis DeepMind en 2014, non sans une petite controverse en cours de route, et elle est devenue une filiale d’Alphabet en 2015. AlphaGo, son IA de go, a battu le champion du monde humain l’année suivante, tandis qu’AlphaZero a montré comment l’apprentissage par renforcement pouvait être utilisé pour entraîner efficacement l’IA en jouant contre elle-même.
AlphaFold, cependant, relève un défi très différent. Le « problème du repliement des protéines » est un raccourci pour tenter de comprendre comment la séquence d’acides aminés dans une protéine façonne sa structure atomique en 3D.
Une protéine est constituée d’un ruban d’acides aminés qui se replie en plusieurs torsades et enchevêtrements complexes. Cette structure détermine ce qu’elle fait. Et comprendre ce que font les protéines est essentiel pour comprendre les mécanismes de base de la vie, quand elle fonctionne et quand elle ne fonctionne pas.
Cette forme est déterminée par le code de repliement sous-jacent qui prend en compte la thermodynamique et les forces interatomiques. Les prédictions de la structure de la protéine tentent de résoudre la structure native d’une protéine à partir de la séquence d’acides aminés, et la cinétique de la façon dont le repli lui-même se produit.
Illustration du processus de repliement des protéines. (Wikimédia)
Concernant l’image ci-dessous : 1 – Chaque protéine est constituée d’une séquence d’amino-acides liés ensemble. 2 – Ces acides aminés interagissent localement pour former des structures comme des hélices et des feuillets. 3 – Ces formes se replient sur une grande échelle pour former la structure complète de la protéine en 3 dimensions. 4 – Les protéines peuvent interagir avec d’autres protéines, réalisant des fonctions telles que la signalisation et la transcription.
(DeepMind)
Bien que tout cela semble bien “ésotérique”, comprendre le fonctionnement des acides aminés est considéré comme la clé d’un certain nombre de problématiques en biologie. Cela va de la lutte contre les maladies chez les humains à des applications plus larges telles que les enzymes qui décomposent les plastiques ou d’autres résidus.
L’objectif était de mettre au point une méthode de calcul pour prédire le repliement, qui pourrait être bien plus rapide et plus efficace qu’une méthode expérimentale telle que la cryo-microscopie électronique, la résonance magnétique nucléaire et la cristallographie aux rayons X. Ces techniques sont coûteuses et lentes : il faut parfois des centaines de milliers d’euros et des années d’essais pour chaque protéine. AlphaFold peut trouver la forme d’une protéine en quelques jours.
DeepMind précise :
Un défi majeur, cependant, est que le nombre de façons dont une protéine pourrait théoriquement se replier avant de se fixer dans sa structure 3D finale est astronomique.
Un concours a été lancé en 1994, le CASP pour Critical Assessment of protein Structure Prediction, afin de mettre en concurrence les méthodes prédictives dans la recherche d’une solution informatique. La mesure de son succès est le « Global Distance Test« , ou GDT, qui est basé sur le pourcentage d’acides aminés qui sont prédits à une distance seuil de leur bonne position. Il est noté de 0 à 100, le point de référence non officiel étant tout ce qui dépasse 90 GDT, ce qui est comparable aux résultats expérimentaux.
Aujourd’hui, selon DeepMind, sa tentative dans le cadre du quatorzième défi, le CASP14, a obtenu un score de 92,4 GDT.
Cela signifie que nos prédictions ont une erreur moyenne d’environ 1,6 Angströms, ce qui est comparable à la largeur d’un atome (ou 0,1 nanomètre).
C’est un bond significatif par rapport à la participation de DeepMind en 2018, le dernier CASP à avoir été exécuté, qui avait vu la précédente génération AlphaFold échouer à atteindre 60 GDT.
(DeepMind)
Toujours selon DeepMind :
Pour la dernière version d’AlphaFold, utilisée au CASP14, nous avons créé un système de réseau neuronal basé sur l’attention, formé de bout en bout, qui tente d’interpréter la structure de ce graphe, tout en raisonnant sur le graphe implicite qu’il construit. « Il utilise des séquences liées à l’évolution, l’alignement de séquences multiples (MSA) et une représentation des paires de résidus d’acides aminés pour affiner ce graphe.
DeepMind utilise la dernière génération de cœurs de traitement neuronal ou TPU pour Tensor Processing Unit de Google, soit environ 128, avec environ 170 000 structures de protéines provenant de bases de données publiques, ainsi que d’autres bases de données de séquences de protéines. Il a fallu « quelques semaines » pour le réaliser, indique la société. Ensuite, l’espoir est de rendre l’accès au système évolutif aux chercheurs tiers, tout en appliquant la technologie pour mieux comprendre comment les structures des protéines ont un impact sur des maladies spécifiques et qui pourraient orienter le développement de médicaments.
Les résultats complets ne sont pas encore publiés, mais vous pouvez voir le résumé de la recherche publiée dans Science : The Protein-Folding Problem, 50 Years On et présentée sur le site de Deepmind : AlphaFold: a solution to a 50-year-old grand challenge in biology.