Signaux clés
Cette semaine, plusieurs signaux clés ont été émis dans l'industrie de l'IA :
Gestion de la mémoire : considérée comme le goulot d'étranglement pour le déploiement à grande échelle des agents, des solutions de mémoire à long contexte et à faible coût se développent.
IA comme système d'exploitation : les entreprises leaders adoptent cette stratégie, comme en témoignent les lancements de Googlebook et Gemini Intelligence.
Intégration verticale : OpenAI a fusionné ChatGPT, Codex et API sous la direction de Greg Brockman pour créer une boucle fermée.
OpenAI DeployCo : avec 4 milliards de dollars et 150 ingénieurs embarqués, OpenAI vise à aider les entreprises à intégrer l'IA dans la production.
Politique : la Chine rend obligatoire le marquage AI pour les vidéos courtes, augmentant les exigences de conformité.
En résumé, la compétition se déplace vers l'intelligence efficace à coût unitaire, avec une consommation de tokens réduite et un déploiement plus léger.
Fondamentaux
Cerebras IPO : sursouscription 20 fois, hausse de 68 % le premier jour
Cerebras Systems a fait son entrée en bourse au Nasdaq à 185 $, atteignant 350 $ à l'ouverture et clôturant à 311,07 $, soit une hausse de 68 % le premier jour. La levée de fonds de 5,55 milliards de dollars est la plus grande IPO mondiale depuis 2026. Les ordres des investisseurs institutionnels ont été 20 fois supérieurs aux actions offertes. En 2025, Cerebras a réalisé un chiffre d'affaires de 510 millions de dollars (+76 %), avec un bénéfice net de 87,9 millions. La concentration des clients a été réduite : G42 ne représentait plus que 24 % des revenus après des partenariats avec OpenAI et AWS. OpenAI reste une source de revenus majeure avec un accord potentiel de plus de 20 milliards de dollars pour 2026-2028.
Modèles
Tencent Agent Memory : réduction de 50 % de la consommation de tokens
Tencent Cloud a open sourcé TencentDB Agent Memory, offrant une compression de la mémoire à court terme et une mémoire personnalisée à long terme pour les agents. Le système utilise un déchargement de contexte et un canevas de tâches structuré, réduisant la consommation de tokens jusqu'à 61 % dans les sessions multitâches, améliorant le taux de réussite des tâches de 52 % dans la recherche web, et augmentant la complétion de code de 10 % et la précision de 8 %.
MiniCPM-V 4.6 : modèle edge avec 1,3B de paramètres
Face Intelligence a open sourcé MiniCPM-V 4.6, un modèle multimodal edge avec seulement 1,3B de paramètres, surpassant Qwen3.5-0.8B dans les benchmarks. Il nécessite seulement 6 Go de mémoire pour fonctionner sur appareil, avec un débit 1,5 fois supérieur et un coût de calcul 43 fois inférieur. Utilisant la technologie LLaVA-UHD v4, il réduit de 50 % le calcul d'encodage d'image. Compatible avec iOS, Android et HarmonyOS.
Ant Ring-2.6-1T : modèle de réflexion à 1 trillion de paramètres
Ant Group a open sourcé Ring-2.6-1T, un modèle de réflexion avec 1 trillion de paramètres totaux et 63 milliards activés. Il introduit un mécanisme de raisonnement ajustable (high et xhigh) et est disponible sur OpenRouter avec une offre de lancement jusqu'à fin mai.
NVIDIA SANA-WM : modèle de monde léger pour la génération vidéo
NVIDIA a open sourcé SANA-WM, un modèle de monde de 2,6B de paramètres capable de générer des vidéos 720p de 60 secondes à partir d'une image statique et d'une trajectoire de caméra, sur un seul GPU. Il utilise un Transformer de diffusion linéaire mixte, un contrôle de caméra à 6 degrés de liberté, et un pipeline en deux étapes. L'entraînement n'a nécessité que 213 000 clips vidéo publics et 15 jours sur 64 H100.
Thinking Machines Lab : modèle d'interaction multimodal
Thinking Machines Lab a présenté TML-Interaction-Small, un modèle expert mixte de 276B de paramètres (12B activés) conçu pour l'interaction en temps réel. Il peut générer des réponses en même temps que l'utilisateur parle, en traitant l'audio, la vidéo et le texte par intervalles de 200 ms. Le système se compose d'un modèle d'interaction en surface et d'un modèle de fond pour le raisonnement profond.
Nous Research : Token Superposition Training accélère le pré-entraînement de 2,5x
Nous Research a proposé Token Superposition Training (TST), qui accélère le pré-entraînement des LLM d'environ 2,5 fois sans modifier l'architecture, le tokenizer, l'optimiseur ou la stratégie de parallélisation. TST fusionne plusieurs tokens en un ensemble et utilise un objectif d'entropie croisée multi-chaud, puis reprend l'entraînement standard. Validé sur des modèles de 270M à 10B de paramètres.
Applications
DeepSeek : recherche dans l'historique des conversations
DeepSeek a lancé en test une fonction de recherche dans l'historique des conversations sur son application version 2.1.0. Les utilisateurs peuvent rechercher des mots-clés dans l'historique et accéder directement à la conversation correspondante. La fonctionnalité est également disponible sur le web. Elle comble un manque important par rapport aux concurrents comme ChatGPT et Claude.
Kimi : extension navigateur pour agents
Kimi a lancé WebBridge, une extension de navigateur permettant aux agents d'effectuer des opérations comme la recherche, le défilement, le clic et la saisie sur des pages web réelles, en utilisant les cookies et l'état de connexion de l'utilisateur. Compatible avec Claude Code, Cursor, Codex, Hermes, etc. Par ailleurs, Kimi K2.6 a atteint 44,87 % de précision dans le benchmark Finance Agent V2, se classant premier parmi les modèles open source.
Alibaba Qoder 1.0 : IDE transformé en poste de travail autonome
Alibaba Cloud a publié Qoder 1.0, transformant l'outil d'assistance au codage en un poste de travail autonome pour les agents. Les développeurs peuvent définir des besoins dans une fenêtre dédiée, et l'agent effectue l'analyse, le codage, les tests et la livraison. Qoder introduit un runtime de tâches structuré et un moteur de connaissances d'équipe, améliorant la rétention de code de 11 % et réduisant la consommation de tokens de 40 %. Qoder sert désormais plus de 5 millions d'utilisateurs dans le monde avec un ARR de 60 millions de dollars.
OpenAI DeployCo et Daybreak : aider les entreprises à mettre l'IA en production
OpenAI a annoncé OpenAI Deployment Company (DeployCo) avec un investissement initial de 4 milliards de dollars et 150 ingénieurs de déploiement intégrés. Parallèlement, OpenAI a lancé Daybreak, un programme de défense logicielle comparable à Glasswing d'Anthropic, combinant les modèles OpenAI, Codex et des partenaires comme Intel, Cisco et CrowdStrike. Selon Cisco, seulement 13 % des entreprises sont prêtes pour l'IA, ce qui justifie ces initiatives.
Source : Rapport hebdomadaire AI du think tank Quantum Bit (WeChat : AI123All)