Un algorithme fait de nouvelles découvertes scientifiques en lisant d’anciennes études


Quand Alexander Fleming a découvert la pénicilline pour la première fois, il a publié ses découvertes dans un article scientifique – un article qui est resté pour la plupart non lu pendant une décennie, jusqu’à ce qu’un autre scientifique le trouve et mette les découvertes de Fleming à l’épreuve, changeant ainsi le monde.

algorithme-études-découvertes

Quelque chose de semblable s’est produit avec la découverte de la testostérone en 1849. Le fait est qu’il existe une quantité inimaginable de recherches scientifiques publiées, et les scientifiques ne peuvent espérer en comprendre qu’une petite partie. Cela signifie qu’ils pourraient rater des découvertes vraiment bouleversantes pour la Terre. Pour résoudre cette question, une équipe de chercheurs s’est interrogée : L’intelligence artificielle peut-elle passer au peigne fin la recherche pour trouver les percées que les humains ne peuvent pas faire ? La réponse est un oui retentissant.

Siri, fais une découverte

L’auteur principal Vahe Tshitoyan, du Lawrence Berkeley National Laboratory du département de l’Énergie des États-Unis, avait un problème spécifique à son travail de chercheur, mais il était aussi bien connu de tous ceux qui ont essayé de suivre l’actualité, scientifique ou autre.

“Dans tous les domaines de recherche, il y a 100 ans de littérature de recherche, et chaque semaine, des dizaines d’autres études sortent”, a-t-il dit dans un communiqué de presse. “Un chercheur n’a accès qu’à une fraction de ça.”

Tshitoyan et son équipe se sont donc tournés vers l’apprentissage automatique, en particulier une technologie connue sous le nom de traitement du langage naturel (TLN). Chaque fois que vous utilisez Google Translate ou que vous demandez à Siri de vous indiquer le chemin, vous profitez du TLN, qui aide les ordinateurs à lire, déchiffrer et donner un sens au langage humain. L’une des plus grandes percées du TLN a été l’intégration de mots, où une machine apprend l’usage ou le sens d’un mot à partir d’une variété de dimensions individuelles, y compris les mots à côté desquels il apparaît habituellement. Essentiellement, elle déchiffre le sens à partir des relations des mots entre eux.

Les gens font ça tout le temps. Si vous entendez le mot “redondant” chaque fois que quelqu’un utilise deux synonymes pour décrire une chose, vous apprendrez éventuellement qu’il signifie quelque chose comme “répétitif” ou “inutile”. De même, vous comprendrez probablement qu’il a une connotation négative, et vous pourriez même commencer à comprendre qu’il signifie des choses légèrement différentes selon qu’il s’agit de grammaire (“Ce mot est redondant”), d’ingénierie (“Nous avons inclus un composant redondant, au cas où”) ou d’emploi (“Votre poste a été rendu redondant”).

Pour une étude publiée dans la revue Nature, les scientifiques du Berkeley Lab l’ont fait avec des recherches publiées, en utilisant un algorithme d’apprentissage machine appelé Word2Vec. Ils ont alimenté l’algorithme d’un énorme 3,3 millions de résumés scientifiques publiés entre 1922 et 2018, comprenant un vocabulaire d’un demi-million de mots. Étant donné que l’équipe était composée de scientifiques des matériaux, toutes les recherches provenaient de revues qui se concentraient ou incluaient des études sur la science des matériaux. Ensuite, ils laissent tourner l’algorithme, sans intervention humaine supplémentaire ni même formation scientifique.

Potentiel non réalisé

L’algorithme a immédiatement démontré une compréhension approfondie de la recherche. Par exemple, l’oxyde de lithium-cobalt (LiCoO2) composé de cathodes lithium-ion a permis d’identifié cinq autres composés chimiquement similaires – et que les scientifiques savaient déjà être également des matériaux de cathode lithium-ion.

“Sans rien lui dire de la science des matériaux, l’algorithme a appris des concepts comme le tableau périodique et la structure cristalline des métaux”, a déclaré Anubhav Jain, le chercheur principal de l’étude. “Cela laissait entrevoir le potentiel de la technique. Mais ce que nous avons découvert de plus intéressant, c’est que vous pouvez utiliser cet algorithme pour combler les lacunes dans la recherche sur les matériaux, des choses que les gens devraient étudier mais qu’ils n’ont pas étudiées jusqu’ici.”

C’est ce qui est vraiment remarquable dans cette expérience : En analysant uniquement la similitude entre les différents mots et le mot “thermoélectrique”, l’algorithme a pu identifier de nouveaux matériaux thermoélectriques. C’est un matériau qui peut convertir efficacement la chaleur en électricité, ce qui, espérons-le, est sûr, bon marché et facile à produire. L’équipe a pris les 10 meilleurs matériaux que l’algorithme prévoyait être de bons candidats thermoélectriques et a effectué des calculs pour déterminer leur facteur de puissance – essentiellement, combien d’énergie ils pouvaient produire. Tous avaient des facteurs de puissance supérieurs à la moyenne, et les trois premiers étaient égaux ou supérieurs au 95e centile des matériaux thermoélectriques connus.

Pour voir si l’algorithme aurait pu faire des découvertes matérielles qui ont été faites depuis par de vrais scientifiques, ils l’ont alimenté par des études datant d’au moins quelques décennies. Encore une fois, un nombre important de ses prédictions sont apparues dans des études ultérieures, et une poignée d’entre elles avaient été découvertes dans les années qui ont suivi.

“Cette étude montre que si cet algorithme avait été mis en place plus tôt, certains matériaux auraient pu être découverts des années à l’avance.”

Les chercheurs ont publié les 50 principaux matériaux thermoélectriques prédit par l’algorithme, et les mots intégrés afin que d’autres chercheurs puissent utiliser leurs travaux. Ensuite, l’équipe veut créer un moteur de recherche qui peut faciliter la recherche de résumés scientifiques pour ces nouvelles relations. Cela n’arrive pas tous les jours, mais parfois, lorsque les machines et les humains travaillent ensemble, de grandes choses peuvent en résulter.

Lire aussi : Un algorithme d’apprentissage automatique pourrait prédire la mort ou une crise cardiaque avec une précision de plus de 90%

Source : Curiosity – Traduit par Anguille sous roche


Vous aimerez aussi...

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *