AMI, la start-up à 1 milliard de Yann LeCun : et si la prochaine IA devait d’abord apprendre à « voir » le monde ?

Un milliard pour une IA qui ouvre (vraiment) les yeux

On pensait que la bataille de l’intelligence artificielle se jouerait uniquement à coups de grands modèles de langage, de prompts bien tournés et de conversations qui ressemblent parfois à une séance de psy… mais en plus rapide. Et puis Yann LeCun arrive et pose sur la table une autre idée : la prochaine grande étape de l’IA ne sera pas seulement de parler, mais de comprendre le monde physique.

Le pari est tout sauf timide. Sa nouvelle start-up, Advanced Machine Intelligence (AMI), fraîchement fondée à Paris, vient de boucler un tour de table initial de 1,03 milliard de dollars. Oui, milliard, avec un “m”. Résultat : une valorisation annoncée autour de 3,5 milliards de dollars pour une jeune pousse qui a à peine eu le temps de choisir la plante verte du bureau.

Derrière, on retrouve un casting qui ferait rougir n’importe quel pitch deck : Nvidia, le fonds d’investissement de Jeff Bezos, Samsung, Bpifrance, et même Xavier Niel. Bref, si c’était une série, ce serait un crossover improbable, mais visiblement très solvable.

AMI : une start-up française, un réseau mondial, et zéro obsession LLM

AMI est présidée par Yann LeCun, figure majeure du deep learning, et s’appuie notamment sur Alexandre Lebrun au poste de directeur général, lui aussi passé par Meta. L’entreprise est basée à Paris, avec des bureaux à New York, Montréal et Singapour.

Et un détail est très parlant : pas de bureau à San Francisco. Ce n’est pas un oubli sur Google Maps, c’est volontaire. LeCun explique que la Silicon Valley est un endroit où beaucoup d’investisseurs sont obsédés par les LLM (les grands modèles de langage type ChatGPT ou Gemini). AMI veut donc respirer un autre air, loin de la course au chatbot le plus bavard.

Ce positionnement n’est pas qu’un choix géographique. C’est un choix stratégique : AMI ne veut pas faire “un ChatGPT de plus”, mais construire une IA qui se base sur un principe différent.

L’idée clé : passer du langage à la vision, puis à l’action

Les grands modèles de langage ont un talent impressionnant pour manipuler le texte : résumer, traduire, écrire du code, produire des emails qui sonnent corporate en 12 secondes. Mais ils restent fondamentalement formés sur une immense quantité de données linguistiques. Ils excellent dans le monde des mots.

Yann LeCun pousse une thèse connue mais encore sous-exploitée à grande échelle : pour atteindre une IA plus générale et plus utile dans le réel, il faut investir dans des World Models, autrement dit des systèmes capables de modéliser le monde via la vision artificielle.

En clair, il ne s’agit pas seulement de reconnaître un chat sur une photo. L’objectif est plus ambitieux :

interpréter des images et des vidéos
comprendre le mouvement, les distances, les relations entre objets
anticiper ce qui peut se passer ensuite (par exemple si un objet tombe, roule, se casse)
et, in fine, permettre à une machine d’agir intelligemment dans un environnement physique

Si on veut un robot qui range la cuisine sans transformer les assiettes en puzzle 3D, il faut qu’il sache ce qu’il regarde, ce que ça signifie, et ce que ses actions vont provoquer.

« Voir » le monde : ça veut dire quoi concrètement ?

Dans l’approche “IA qui voit”, la machine apprend à partir de flux visuels : caméras, vidéos, capteurs, parfois données multimodales. Elle ne se contente pas d’associer une image à une étiquette. Elle essaie de capter des structures : volumes, continuité des objets, causalité, dynamique.

Un exemple simple :

un LLM peut très bien expliquer comment saisir une tasse
mais une IA de type world model doit comprendre où est la tasse, comment elle est orientée, si elle est pleine, si la poignée est accessible, et comment la saisir sans la renverser

Dit autrement : on veut une IA qui passe de “je sais en parler” à “je sais le faire”. C’est là que la vision artificielle devient un socle.

Pourquoi ce pari arrive maintenant et pas il y a 10 ans ?

La vision artificielle n’est pas nouvelle. On la retrouve déjà dans :

certaines briques de la voiture autonome
l’imagerie médicale
la robotique industrielle
la surveillance qualité en usine

Mais le saut visé par AMI semble être d’une autre nature : aller vers une compréhension plus “générale” du monde, plus robuste, et moins dépendante d’un dialogue textuel.

Ce timing s’explique par plusieurs facteurs :

La puissance de calcul continue d’augmenter, et Nvidia n’investit pas dans AMI par amour du croissant parisien.
Les capteurs et données visuelles sont partout (caméras, robots, entrepôts, véhicules, etc.).
Les limites des LLM dans le monde réel deviennent plus visibles : hallucinations, raisonnement physique fragile, difficulté à planifier des actions fiables.

En gros, on commence à vouloir des IA qui font des choses, pas seulement des IA qui expliquent qu’elles pourraient faire des choses.

Une IA “différente” des chatbots : le choix radical d’AMI

AMI annonce clairement ne pas chercher à construire un produit grand public. Pas d’assistant à qui demander une recette de cookies à 2 h du matin. Le plan est plutôt de développer une technologie de base et de la vendre à des entreprises, notamment :

constructeurs automobiles
fabricants de robots
acteurs industriels

C’est un choix intéressant, parce qu’il évite la guerre du “meilleur chatbot”, très visible mais aussi très coûteuse en distribution, marketing et bataille d’écosystèmes.

En B2B, si AMI propose une brique technologique qui donne un avantage concret en robotique ou en perception, la valeur peut être énorme. Et surtout, elle est mesurable : moins d’erreurs, plus d’autonomie, meilleure sécurité, meilleur rendement.

LeCun vs la “folie LLM” : une rupture assumée

Le contexte rend l’histoire encore plus croustillante : Yann LeCun a quitté Meta après douze ans, sur fond de désaccords stratégiques. Il reproche notamment au secteur un comportement “grégaire” et une focalisation excessive sur les LLM.

Ce n’est pas une attaque contre le langage en tant que tel. C’est plutôt une critique de l’idée selon laquelle empiler toujours plus de texte et de paramètres suffira à créer une intelligence qui comprend le réel.

Dans sa vision, le monde est d’abord physique, structuré par des objets, de la causalité, des contraintes. Le langage vient ensuite pour décrire ce monde, pas pour le remplacer.

Et quelque part, l’ironie est délicieuse : alors que tout le monde apprend à l’IA à parler mieux que nous, lui veut lui apprendre à regarder avant de répondre. Comme quoi, les bonnes manières, ça commence par écouter, ou ici, par observer.

Ce que ça peut changer : robots, voitures, industrie, et IA plus fiables

Si l’approche d’AMI fonctionne, les impacts potentiels sont massifs.

Robots domestiques : les vrais, pas ceux qui aspirent juste les miettes

Un robot utile au quotidien doit :

se repérer dans un environnement encombré
comprendre la forme des objets
planifier une action
ajuster ses gestes en temps réel

Sans une compréhension visuelle et physique solide, il restera au stade de gadget coûteux qui vous demande où se trouve… le sol.

Automobile et mobilité

La perception du monde est centrale pour les véhicules autonomes et les aides à la conduite. Des world models plus robustes pourraient aider à :

mieux anticiper les comportements d’autres usagers
améliorer la sécurité
réduire la dépendance à des cas d’entraînement ultra spécifiques

Industrie et logistique

Entrepôts, chaînes de production, manutention, tri, contrôle qualité : ce sont des environnements où “voir et agir” vaut de l’or. Une IA qui comprend mieux les scènes peut réduire les erreurs et améliorer l’autonomie des systèmes.

Vers des IA moins “hallucinées”

C’est peut-être l’enjeu le plus subtil : une IA ancrée dans des modèles du monde (visuels, physiques) pourrait produire des comportements plus fiables dans certains contextes, car elle ne dépend pas uniquement d’associations statistiques entre mots.

Les défis : parce qu’un milliard n’achète pas la physique

Évidemment, ce genre d’ambition vient avec des obstacles sérieux :

Données : apprendre à partir du monde réel demande des données riches, variées, parfois difficiles à collecter et annoter.
Généralisation : comprendre une cuisine ne suffit pas, il faut aussi comprendre un garage, une usine, une rue sous la pluie, etc.
Temps réel : voir, interpréter et agir impose des contraintes de latence et de calcul.
Sécurité : une IA qui agit dans le monde réel doit être robuste, prévisible et testée. Une hallucination dans un texte, c’est gênant. Une hallucination dans un bras robotique, c’est une autre histoire.

C’est là que l’approche et l’exécution feront toute la différence. AMI a l’argent, les réseaux et l’ambition. Reste à transformer tout ça en technologie qui tient la route, littéralement et figurativement.

Pourquoi cette levée est un signal fort pour l’IA en Europe

Au-delà de la techno, la levée de fonds d’AMI est aussi un symbole : l’Europe peut attirer des capitaux massifs pour une IA ambitieuse et différente, pas seulement pour répliquer ce qui se fait ailleurs.

Le fait que Paris soit au centre du projet est notable. Et l’absence de San Francisco n’est pas juste un statement, c’est aussi une manière de dire qu’il existe d’autres trajectoires possibles pour l’innovation.

Et puis, soyons honnêtes : voir une start-up parisienne lever 1 milliard sur une vision alternative aux LLM, c’est rafraîchissant. Ça change des annonces “notre chatbot est 12% plus poli et 8% plus motivant”.

À surveiller de près : AMI, les world models et la prochaine vague de l’IA

Les prochains mois diront comment AMI va transformer ce financement en avancées concrètes : publications, prototypes, partenariats industriels, recrutements, démonstrations techniques.

Une chose est sûre : avec un tel tour de table et une telle personnalité à la barre, l’idée d’une IA qui comprend le monde par la vision vient de passer du statut de débat théorique à celui de course mondiale.

Et si, au final, la prochaine révolution de l’IA ne venait pas d’un modèle qui parle mieux, mais d’un modèle qui regarde mieux ? Ce serait presque une leçon de vie : avant de répondre, commence par ouvrir les yeux.

Source : AMI, la start-up à 1 milliard de Yann LeCun : et si la prochaine IA devait d’abord apprendre à « voir » le monde ?