V-JEPA : L’IA de Meta qui imite le cerveau humain, ou presque (poisson rouge, s’abstenir)

V-JEPA : L’IA qui se met dans la tête d’un humain (sans migraine)

Imaginez une intelligence artificielle qui ne se contente pas de reconnaître des chats qui tombent ou des tutos de slime sur YouTube, mais qui développe carrément une intuition sur le monde réel, comme un enfant qui découvre que si la balle roule derrière le canapé, elle doit forcément ressortir de l’autre côté (sauf si le chien la mange, mais ça, c’est une autre histoire). Chez Meta, ce rêve devient peu à peu réalité avec V-JEPA, leur dernier cerveau électronique qui fait sensation.

Plongeons ensemble dans les méandres de cette nouveauté qui mêle science cognitive, machine learning, et quelques pincées d’émerveillement scientifique.

Peut-on parler de « compréhension » pour une IA ?

Le mot est sur toutes les lèvres : compréhension. Mais alors, qu’est-ce que cela veut dire pour une intelligence artificielle ? Pour certains puristes, une IA qui « comprend » le monde, c’est aussi plausible qu’un poisson rouge ayant son code de la route. Pourtant, Meta vient de brouiller les pistes avec V-JEPA.

La question est simple : une machine peut-elle se créer une « représentation interne » du monde en observant, sans simplement recracher ce qu’on lui a montré ? Est-ce qu’elle fait comme nous lorsque, enfant, on découvre que si papa cache le doudou derrière son dos, il n’a pas disparu dans une faille temporelle ? Attachez vos ceintures, le voyage commence !

V-JEPA : Le modèle d’IA inspiré par les bébés (bave en option)

Une IA qui apprend comme un enfant

V-JEPA, pour Video Joint Embedding Predictive Architecture (on parie que même l’IA n’arrive pas à se souvenir de tout ?), s’inspire du développement cognitif des bébés humains.

Vous vous souvenez de vos premières parties de « coucou-caché » ? Les scientifiques, eux, se sont souvenus : dès notre plus jeune âge, notre cerveau établit des règles simples sur le monde qui nous entoure. Une balle roule, elle doit réapparaître ; une main cache un objet, il n’est pas pour autant annihilé de l’univers. Meta a tenté de reproduire ce mécanisme avec V-JEPA, mais à un détail près : il n’a jamais besoin de changer de couches.

Comment ça marche ?

V-JEPA ingère des millions de vidéos, boit du pixel comme certains boivent du café, puis devine comment le monde devrait se comporter. Il est conçu pour anticiper la suite des événements : si la balle ne réapparaît pas, il « s’étonne ». (Oui, une IA qui fait les gros yeux, c’est la révolution !).

Contrairement à d’autres modèles plus classiques – type ChatGPT ou Gemini – qui analysent chaque pixel indépendamment (et finissent avec la migraine d’un étudiant en partiels), V-JEPA raisonne sur ce que les chercheurs nomment l’« espace latent ». Derrière ce nom barbare, il faut comprendre : il crée des relations entre les objets, leurs mouvements, leurs positions, leurs interactions et même les liens de cause à effet, tout comme le petit humain en herbe. Du moins, en théorie.

Une IA physicienne dans l’âme (et les calculs)

Un test grandeur nature : Le protocole IntPhys

Pour savoir si V-JEPA se contente de faire de jolies figures ou s’il a vraiment compris ce qu’est la continuité spatiale, les chercheurs ont utilisé un test maison : IntPhys. Ce protocole évalue l’intuition physique – ce moment où, dans une vidéo, l’objet fait quelque chose de physiquement « impossible ».

Résultat ? 98 % de réussite pour V-JEPA, contre 55 % pour ses rivaux du type ViViT ou VideoMAE, qui n’ont rien vu venir. Pour faire simple : la compétition, c’est comme si elle essayait de battre Usain Bolt avec une jambe attachée dans le dos.

Concrètement, si une balle disparaît derrière un mur et ne ressort jamais, V-JEPA affiche un pic d’ »erreur de prédiction » : sa version à lui d’un « Hein ? Mais c’est pas normal ! ». Un vrai détecteur d’absurdités.

Un effet « waouh » chez les experts

Micha Heilbron, expert en sciences cognitives, s’enthousiasme devant ces résultats : « On sait grâce à la recherche que les bébés peuvent se forger une intuition des lois physiques très vite. Ce qui est bluffant ici, c’est qu’un modèle d’IA y parvient seul, sans qu’on ait à lui expliquer quoi que ce soit. »

L’apprentissage sans le langage : le super-pouvoir de V-JEPA

V-JEPA n’a pas besoin de voix off ni de sous-titres. Pas de « Voilà, ça c’est un chien, ça c’est une tartine qui tombe côté confiture ». Il observe, assimile, détecte les corrélations, et se bâtit une « carte mentale » du monde sans jamais entendre un mot.

C’est ce qu’on appelle un mode d’ »apprentissage auto-supervisé » : la machine déduit seule ses propres règles. Si elle fait des erreurs, elle révise ses prévisions et améliore sa carte. C’est un peu comme si un enfant apprenait à marcher en tombant (beaucoup), mais sans les bleus et les pleurs.

Le « world model » : la carte mentale sans langage

Les neurosciences appellent ça un « world model ». V-JEPA construit, dans un jargon mathématique, une représentation interne de comment « doit » fonctionner la réalité. Même s’il ne sait pas encore dire « chat », il sait que si l’objet bouge vers la droite, il devrait logiquement continuer à exister quelques instants plus tard.

Mais alors, V-JEPA est-il vraiment « intelligent » ?

Les (gros) bémols

Restons humbles : V-JEPA n’a pas la sagesse d’un sage tibétain. Il ne sait pas pourquoi il pense avoir raison, ni à quel point il se trompe. Karl Friston, chercheur à University College London, précise : « V-JEPA fait bien ses prédictions, mais il ne peut pas juger de leur fiabilité. C’est comme un enfant qui coche au hasard sur une feuille de QCM — parfois c’est juste, parfois c’est faux, mais il n’en saura rien. »

Encore une subtilité : ses souvenirs. Pas besoin de disque dur externe, l’IA a une mémoire de poisson rouge (désolé, Némo !). Sa compréhension du temps s’arrête après quelques secondes. Impossible donc pour V-JEPA de reconstituer une intrigue de film comme Inception ou de suivre un fil Twitter sur la politique française — et ça, ce n’est pas plus mal pour sa santé mentale.

Quentin Garrido, chercheur chez Meta, ironise d’ailleurs sur le sujet : « Sa mémoire reste comparable à celle d’un poisson rouge. » De quoi relativiser la soi-disant omniscience des IA.

Comprendre, modéliser… ou faire semblant ?

V-JEPA fait tomber des records, mais il ne « comprend » pas le monde comme nous l’entendons. Il mime le processus, observe, prédit, confronte, révise… mais tout cela reste un jeu mathématique, sans émotions ni conscience. Il n’a pas ce petit supplément d’âme qui fait passer un humain d’un simple spectateur d’une scène à un acteur qui ressent l’étonnement, la curiosité ou l’empathie.

Ce que V-JEPA change vraiment pour la recherche en intelligence artificielle

Un saut vers une IA plus intuitive

L’arrivée de ce modèle ouvre une porte géante vers des IA « intuitives ». L’avantage ? Elles pourraient, à moyen terme, comprendre tout un tas de situations imprévisibles dans nos foyers (surtout ceux avec enfants et chats rebelles…). Imaginez des assistants virtuels qui anticipent vos besoins, détectent les imprévus, ou nous aident à naviguer dans des environnements nouveaux.

Une IA qui inspire le futur (mais respecte nos mystères)

Malgré ses progrès, V-JEPA reste, pour l’instant, un génie statique, pas un génie de la lampe. Il manipule des statistiques avec une grâce étonnante, mais n’a aucune idée de ce que c’est que d’avoir mal aux dents ou de s’émerveiller devant une aurore boréale.

Pour Meta et toute l’industrie, c’est fascinant : peut-être un jour, ces modèles inspirés du développement cognitif humain trouveront une utilité concrète redoutable dans la robotique, la médecine, la domotique… ou pour gagner à cache-cache contre un bambin de deux ans.

Mais rassurez-vous, la prochaine Skynet n’est pas à l’horizon : V-JEPA ne sait toujours pas qu’il existe. Pas d’inquiétude à avoir s’il commence à parler à vos plantes ou à réclamer un café au bureau. Mais promis : si ça arrive, on vous préviendra !

Ce qu’il faut retenir (et briller à l’apéro)

Meta vient de franchir une étape symbolique : V-JEPA apprend (presque) comme un enfant, uniquement par observation, sans mot, sans guide.
Il excelle dans la détection d’incohérences physiques, bien mieux que les anciens modèles IA.
V-JEPA imite la cognition humaine mais n’a ni conscience ni véritable compréhension. Il simule, il modélise, il s’étonne… mais il ne ressent rien.
Sa mémoire est… oubliable (littéralement), donc rien à craindre côté domination du monde, il aurait du mal à se souvenir de la fin de votre dernier film Netflix.

Pendant que les chercheurs rêvent de machines capables d’empathie et de profondeur, Meta affine des modèles statistiquement bluffants qui laissent entrevoir un futur captivant – mais résolument humain. Voilà une IA qui, pour une fois, aimera peut-être elle aussi jouer à cache-cache.

Vous avez aimé ce tour d’horizon ? Dites-vous que V-JEPA est déjà en train de deviner où se cache la balle… même si, parfois, elle roule beaucoup trop vite pour lui !

Source : Presse-citron