Une IA reconstitue une vidéo de « haute qualité » directement à partir de lectures cérébrales, dans le cadre d’une étude


Des chercheurs ont utilisé l’IA pour reconstruire des vidéos de haute qualité à partir de l’activité cérébrale, selon une nouvelle étude.

Les chercheurs Jiaxin Qing, Zijiao Chen et Juan Helen Zhou de l’Université nationale de Singapour et de l’Université chinoise de Hong Kong ont utilisé des données d’imagerie par résonance magnétique fonctionnelle (IRMf), et le modèle d’IA de génération d’images Stable Diffusion pour créer un modèle appelé MinD-Video qui génère des vidéos à partir des lectures cérébrales.

Leur démonstration montre un parallèle entre les vidéos qui ont été montrées aux sujets et les vidéos générées par l’IA à partir de leur activité cérébrale. Les différences entre les deux vidéos sont légères et contiennent pour la plupart des sujets et des palettes de couleurs similaires. MinD-Video est défini par les chercheurs comme un « pipeline à deux modules conçu pour combler le fossé entre le décodage du cerveau par l’image et par la vidéo ».

Décodage cérébral et reconstruction vidéo

Les chercheurs proposent une approche d’apprentissage progressif pour récupérer l’expérience visuelle continue à partir de l’IRMf. Des vidéos de haute qualité avec une sémantique et des mouvements précis sont reconstruites.

La tâche recréée la vision humaine à partir d’enregistrements cérébraux, notamment à l’aide d’outils non invasifs tels que l’imagerie par résonance magnétique fonctionnelle (IRMf), est une tâche passionnante mais difficile. Les méthodes non invasives, bien que moins intrusives, capturent des informations limitées, sensibles à diverses interférences comme le bruit. En outre, l’acquisition de données de neuro-imagerie est un processus complexe et coûteux. Malgré ces difficultés, des progrès ont été réalisés, spécialement dans l’apprentissage de caractéristiques IRMf précieuses avec des paires IRMf-annotation limitées.

L’apprentissage profond et l’apprentissage par représentation ont permis d’obtenir des résultats significatifs dans la détection de classes visuelles et la reconstruction d’images statiques, faisant progresser notre compréhension du spectacle vivant et en constante évolution de la perception humaine. Pour entraîner le système, les chercheurs ont utilisé un ensemble de données publiquement disponible contenant des vidéos et des lectures cérébrales d’IRMf de sujets qui les ont regardées. Le « pipeline à deux modules » comprenait un encodeur d’IRMf entraîné et une version affinée de Stable Diffusion, un modèle d’IA de génération d’images largement utilisé.

Les vidéos publiées par les chercheurs montrent la vidéo originale de chevaux dans un champ et ensuite une vidéo reconstruite d’une version plus colorée des chevaux. Dans une autre vidéo, une voiture roule dans une zone boisée et la vidéo reconstruite affiche un point de vue à la première personne de quelqu’un qui voyage sur une route sinueuse. Les chercheurs ont constaté que les vidéos reconstruites étaient de « haute qualité », selon les critères du mouvement et de la dynamique des scènes. Ils ont également rapporté que les vidéos avaient une précision de 85 %, ce qui représente une amélioration par rapport aux approches précédentes.

« Nous pensons que ce domaine a des applications prometteuses à mesure que les grands modèles se développent, de la neuroscience aux interfaces cerveau-ordinateur », ont écrit les auteurs. Plus précisément, ils ont déclaré que ces résultats mettaient en lumière trois découvertes majeures. L’une est la dominance du cortex visuel, révélant que cette partie du cerveau est un élément essentiel de la perception visuelle.

Une autre est que l’encodeur d’IRMf fonctionne de manière hiérarchique, commençant par des informations structurelles puis passant à des caractéristiques plus abstraites et visuelles sur des couches plus profondes. Enfin, les auteurs ont constaté que l’encodeur d’IRMf évoluait à chaque étape d’apprentissage, montrant sa capacité à prendre en compte des informations plus nuancées au fur et à mesure qu’il poursuit sa formation.

Cette étude représente un autre progrès dans le domaine de la lecture de l’esprit des gens à l’aide de l’IA. Auparavant, des chercheurs de l’université d’Osaka avaient réussi à reconstruire des images haute résolution à partir de l’activité cérébrale avec une technique qui utilisait également des données d’IRMf et Stable Diffusion. Le modèle Stable Diffusion augmenté dans cette nouvelle recherche permet à la visualisation d’être plus précise.

Contrairement aux images fixes, notre vision est un flux continu et diversifié de scènes, de mouvements et d’objets. Pour retrouver l’expérience visuelle dynamique, le défi réside dans la nature de l’IRMf, qui mesure les signaux dépendants du niveau d’oxygénation (BOLD) et capture des instantanés de l’activité cérébrale toutes les quelques secondes. Chaque balayage IRMf représente essentiellement une « moyenne » de l’activité cérébrale pendant l’instantané.

En revanche, une vidéo typique comporte environ 30 images par seconde (FPS). Si une image IRMf dure 2 secondes, pendant ce temps, 60 images vidéo – contenant potentiellement divers objets, mouvements et changements de scène – sont présentées comme stimuli visuels. Ainsi, le décodage de l’IRMf et récupérer des vidéos à un FPS beaucoup plus élevé que la résolution temporelle de l’IRMf est une tâche complexe.

La réponse hémodynamique (RH) fait référence aux délais entre les événements neuronaux et l’activation dans les signaux BOLD. Lorsqu’un stimulus visuel est présenté, le signal BOLD enregistré présente certains retards par rapport à l’événement du stimulus. En outre, la FC varie selon les sujets et les régions du cerveau. Par conséquent, la pratique courante qui décale l’IRMf d’un nombre fixe dans le temps pour compenser la FC serait sous-optimale.

Dans ce travail, les chercheurs Jiaxin Qing, Zijiao Chen et Juan Helen Zhou de l’Université nationale de Singapour et de l’Université chinoise de Hong Kong présentent MinD-Video, un pipeline à deux modules conçu pour combler le fossé entre le décodage cérébral d’images et de vidéos. Leur modèle apprend progressivement à partir des signaux cérébraux, en acquérant une compréhension plus profonde de l’espace sémantique à travers de multiples étapes.

Contexte

Reconstruction d’images : la reconstruction d’images à partir de l’IRMf a été explorée pour la première fois dans T. Horikawa and Y. Kamitani, Generic decoding of seen and imagined objects using hierarchical visual features, Nature communications, qui a montré que les caractéristiques hiérarchiques des images et les classes sémantiques pouvaient être décodées à partir des données IRMf collectées lorsque les participants regardaient un stimulus visuel statique.

Les auteurs ont conçu un autoencodeur séparable qui permet un apprentissage auto-supervisé en IRMf et en images afin d’augmenter les données de formation. Sur la base d’une philosophie similaire, ils ont proposé d’effectuer un apprentissage auto-supervisé sur un ensemble de données IRMf à grande échelle en utilisant la modélisation de données masquées comme tâche préalable. En utilisant un modèle de diffusion stable comme a priori génératif et les caractéristiques IRMf pré-entraînées comme conditions, les chercheurs ont reconstruit des images de « haute fidélité » avec une correspondance sémantique élevée avec les stimuli de référence.

Reconstruction vidéo : la méthode conventionnelle a formulé la reconstruction vidéo sous forme de reconstructions d’images multiples, ce qui entraîne des taux d’images faibles et des incohérences au niveau des images. Néanmoins, il a été démontré que les caractéristiques et les classes d’images de bas niveau peuvent également être décodées à partir de l’IRMf collectée avec le stimulus vidéo. En utilisant des représentations IRMf encodées avec une couche linéaire comme conditions, les chercheurs ont généré des vidéos de meilleure qualité et à un taux de trame plus élevé avec un système vidéo conditionnel de type GIS.

Vue d’ensemble de MinD-Video. La méthode comporte deux modules qui sont formés séparément, puis ajustés ensemble

L’encodeur IRMf apprend progressivement les caractéristiques IRMf à travers plusieurs étapes, y compris le pré-entraînement SC-MBM et l’apprentissage contrastif multimodal. L’apprentissage multimodal contrastif. Une attention spatio-temporelle est conçue pour traiter plusieurs IRMf dans une fenêtre coulissante.

La diffusion stable augmentée est entraînée à l’aide de vidéos, puis réglée avec l’encodeur IRMf à l’aide de données annotées. [G. Kupershmidt, R. Beliy, G. Gaziv, and M. Irani, A penny for your (visual) thoughts: Self-supervised reconstruction of natural movies from brain activity,] a adopté une approche similaire à celle de [R. Beliy, G. Gaziv, A. Hoogi, F. Strappini, T. Golan, and M. Irani, From voxels to pixels and back: Self-supervision in natural-image reconstruction from fmri, Advances in Neural Information Processing Systems], qui s’appuie sur le même autoencodeur séparable qui permet l’apprentissage auto-supervisé.

Même si les résultats obtenus sont meilleurs que ceux de [C. Wang, H. Yan, W. Huang, J. Li, Y. Wang, Y.-S. Fan, W. Sheng, T. Liu, R. Li, and H. Chen, Reconstructing rapid natural vision with fmri-conditional video generative adversarial network, Cerebral Cortex], les vidéos générées sont de faible fidélité visuelle et n’ont pas de signification sémantique.

MBM La modélisation cérébrale masquée (MBM) est une tâche pré-textuelle qui permet l’apprentissage auto-supervisé dans un grand ensemble de données d’IRMf, dans le but de construire un modèle de base du cerveau. Il apprend les caractéristiques générales de l’IRMf en essayant de récupérer les données masquées à partir des restes, de manière similaire au GPT et au MAE, après quoi les connaissances peuvent être distillées et transférées à un modèle de base du cerveau.

CLIP Contrastive Language-Image Pre-Training (CLIP) est une technique de pré-entraînement qui construit un espace latent partagé pour les images et les langues naturelles. La formation vise à minimiser la distance en cosinus des paires d’images et de textes latents tout en maximisant les permutations de paires au sein d’un lot. L’espace latent partagé (espace CLIP) contient de bonnes informations sémantiques sur les images et les textes.

Les chercheurs Jiaxin Qing, Zijiao Chen et Juan Helen Zhou de l’Université nationale de Singapour et de l’Université chinoise de Hong Kong proposent MinD-Video, qui reconstruit des vidéos de haute qualité avec des fréquences d’images arbitraires à partir de l’IRMf.

En partant d’un pré-entraînement à grande échelle jusqu’à l’apprentissage multimodal contrastif avec une attention spatiotemporelle augmentée, leur encodeur IRMf apprend progressivement les caractéristiques de l’IRMf. Ensuite, les chercheurs affinent une diffusion stable augmentée pour les générations vidéo, qui est co-entraînée avec l’encodeur.

Enfin, ils montrent qu’avec l’orientation contradictoire de l’IRMf, MinD-Video récupère des vidéos dont la sémantique, les mouvements et la dynamique de la scène sont exacts par rapport à la vérité de base, établissant ainsi un nouvel état de l’art dans ce domaine.

Les chercheurs montrent également, à l’aide de cartes d’attention, que le modèle entraîné décode l’IRMf avec des principes biologiques fiables. La méthode se limite encore au niveau intra-sujet, et la capacité de généralisation inter-sujets reste inexplorée en raison des variations individuelles. En outre, leur méthode n’utilise que moins de 10 % des voxels du cortex pour les reconstructions, alors que l’utilisation de l’ensemble des données cérébrales reste inexploitée.

Des réglementations gouvernementales et des efforts de la part des communautés de recherche sont nécessaires pour garantir la confidentialité des données biologiques des individus et éviter toute utilisation malveillante de cette technologie.

Lire aussi : Un nouvel algorithme de balayage du cerveau peut lire vos pensées

Sources : DeveloppezNational University of Singapore


Vous aimerez aussi...

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *