L’intelligence artificielle DeepMind prédit la structure de presque toutes les protéines connues


Si quelqu’un vous demande un jour ce que l’intelligence artificielle a apporté à la science, il suffit de lui montrer AlphaFold.

Le programme développé par le groupe d’IA de Google, connu sous le nom de DeepMind, a décodé la structure de presque toutes les protéines figurant dans les catalogues des scientifiques, soit plus de 200 millions d’entre elles.

Éléments de base de la vie, les protéines effectuent la plupart des tâches dans les cellules, de la transmission de signaux qui régulent les organes à la protection du corps contre les bactéries et les virus. La capacité de prédire avec précision les structures 3D des protéines à partir de leurs séquences d’acides aminés est donc un atout considérable pour les sciences de la vie et la médecine, et n’est rien moins que révolutionnaire. Ce n’est pas rien, car avant l’IA, les scientifiques ne pouvaient dévoiler la structure que d’une infime partie de ces protéines.

Ces dernières ont des fonctions très diverses. Certaines sont structurelles, d’autres transportent des molécules, d’autres encore sont des récepteurs, et ainsi de suite. Chacune de ces fonctions est étroitement liée à sa forme spécifique, qui est obtenue par repliement.

Toutes les protéines commencent par une chaîne linéaire d’unités de base appelées acides aminés. Cette structure primaire 1D des acides aminés contient la « recette » qu’une protéine utilise pour se replier. Une protéine passe par des étapes répétées de repliement, adoptant un large éventail de configurations avant d’atteindre sa forme finale, qui se trouve être la plus favorable sur le plan énergétique.

Illustration du processus de repliement des protéines. (Wikimédia)

Cependant, prédire la structure 3D d’une protéine à partir de sa séquence plate 1D d’acides aminés est extrêmement difficile, car le nombre de configurations possibles peut être stupéfiant. Traditionnellement, les biologistes structurels déterminent les structures des protéines par voie expérimentale, en utilisant des méthodes très coûteuses et longues, comme la cristallographie aux rayons X ou la microscopie électronique. Bien que précis, ce type de recherche est très lent, si bien que nous ne connaissions que quelques structures de protéines. Mais passer au crible des quantités insondables de possibilités pour l’esprit humain est exactement le genre de travail pour lequel une IA est la mieux adaptée.

DeepMind a révélé AlphaFold pour la première fois en 2020, et la communauté scientifique a immédiatement été époustouflée. L’année dernière, en collaboration avec le Laboratoire européen de biologie moléculaire (EMBL), DeepMind a publié une base de données publique comprenant 98 % de toutes les protéines humaines, ainsi que les structures protéiques de 20 autres molécules.

Aujourd’hui, la base de données a été étendue pour couvrir toutes les protéines de presque tous les organismes sur Terre dont le génome a été séquencé. Cela représente plus de 200 millions de structures.

(DeepMind)

Selon Demis Hassabis, PDG de DeepMind :

Vous pouvez penser qu’elle couvre l’ensemble de l’univers des protéines. Nous sommes au début d’une nouvelle ère maintenant dans la biologie numérique.

Alors que les données génomiques devraient augmenter considérablement chaque année, les biologistes moléculaires s’en donneront à cœur joie dans les bases de données d’AlphaFold, ce qui leur permettra de poser des questions plus pointues. Par exemple, armés de leurs structures 3D, les scientifiques peuvent désormais comprendre la fonction de milliers de protéines du génome humain encore non résolues, qui peuvent être liées à des variantes génétiques responsables de maladies qui diffèrent d’une personne à l’autre. Ils peuvent également produire de nouveaux médicaments plus rapidement et réagir avec un plus grand zèle aux menaces mondiales telles que les pandémies.

Deux exemples de modélisation libre du repliement de protéines. AlphaFold prédit très précisément le repliement des structures (les zones en bleu) par rapport à un résultat expérimental (les zones en vert). (DeepMind)

Par exemple, au début de 2020, AlphaFold a déterminé les structures d’une poignée de protéines du SRAS-CoV-2 qui avaient été déterminées expérimentalement. Imaginez qu’un nouvel agent pathogène dangereux soit découvert demain, AlphaFold serait en mesure de déchiffrer rapidement la structure de ses protéines et de trouver rapidement les voies d’attaque possibles afin de le neutraliser.

Ailleurs, une équipe de recherche dirigée par le professeur Matthew Higgins à l’université d’Oxford (Royaume-Uni) a utilisé les prédictions d’AlphaFold pour débloquer la structure d’une protéine clé d’un parasite de la malaria, ce qui leur a permis de trouver les anticorps correspondants qui peuvent bloquer la transmission du parasite.

Toutes les structures protéiques découvertes par AlphaFold, et même son code source, ont été publiées gratuitement. Selon DeepMind, plus de 500 000 chercheurs de 190 pays ont accédé à la base de données jusqu’à présent, visualisant deux millions de structures.

Cependant, tout cela ne signifie pas l’aube de la recherche expérimentale de structures protéiques. AlphaFold est entraîné sur des ensembles de données de structures protéiques qui ont été validées expérimentalement, et d’autres travaux de ce type sont nécessaires pour rendre l’algorithme encore plus précis. En fait, lorsqu’il s’agit de travaux très difficiles, une approche hybride combinant technologie et expérimentation semble fonctionner à merveille. Au début de cette année, trois groupes de recherche ont utilisé AlphaFold pour les aider à reconstituer une des plus grandes énigmes de la biologie, le complexe du pore nucléaire humain, qui régule le transport des macromolécules entre le noyau et le cytoplasme de la cellule eucaryote et se compose de plus de 1 000 sous-unités protéiques.

Selon l’équipe de DeepMind :

Sa structure délicate a finalement été révélée en utilisant les méthodes expérimentales existantes pour révéler son contour et les prédictions d’AlphaFold pour compléter et interpréter toutes les zones qui n’étaient pas claires. Cette puissante combinaison devient maintenant une routine dans les laboratoires, débloquant une nouvelle science et montrant comment les techniques expérimentales et informatiques peuvent collaborer.

Annoncée sur le blog de DeepMind : AlphaFold reveals the structure of the protein universe.

Lire aussi : La Chine réalise une intelligence artificielle « à l’échelle du cerveau » à l’aide de son dernier supercalculateur

Source : GuruMeditation – Traduit par Anguille sous roche


Vous aimerez aussi...

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *