Resumen de la Semana
Esta semana, la industria de la IA ha emitido múltiples señales clave. En primer lugar, se destaca el consenso entre los fabricantes de modelos en la dirección de la evolución tecnológica. La gestión de la memoria se considera el cuello de botella principal para la implementación a escala de los agentes, y se han desarrollado diferentes soluciones de memoria de bajo costo para contextos largos. Sobre esta base, las empresas líderes han comenzado a establecer la 'IA como sistema operativo' como una dirección estratégica para el nuevo ciclo, como lo demuestran los lanzamientos de Googlebook y Gemini Intelligence. Al mismo tiempo, la integración vertical se ha convertido en una palanca importante para que las empresas compitan por cuota de mercado. Esta semana, OpenAI completó una reestructuración a gran escala, fusionando las líneas de productos ChatGPT, Codex y API, con Greg Brockman asumiendo el control total de la estrategia de productos, con la intención de construir un bucle cerrado integrado desde el modelo hasta la aplicación.
Otra señal clave proviene de la creación de OpenAI DeployCo. Con una inversión inicial de 4 mil millones de dólares y 150 ingenieros integrados, OpenAI declara que simplemente ofrecer API no satisface las necesidades empresariales; ayudar a los clientes a poner en marcha los procesos de producción es la ventaja competitiva de la próxima etapa. La brecha entre la capacidad del modelo y la capacidad de implementación determinará directamente la cuota de mercado futura de los fabricantes de modelos grandes.
A nivel de políticas, China ha establecido por primera vez la etiqueta de IA para videos cortos como 'obligatoria en la publicación', y el aumento del umbral de cumplimiento merece una gran atención por parte de todas las plataformas de contenido de IA.
En general, el enfoque de la competencia ha pasado del límite superior de la capacidad del modelo a la inteligencia efectiva por costo unitario. Un menor consumo de tokens, una implementación más ligera y una integración de ingeniería más estrecha determinarán las elecciones de los clientes.
Fundamentos
IPO de Cerebras: Sobresuscripción 20 veces, subida del 68% en el primer día
Cerebras Systems salió a bolsa en el Nasdaq con un precio de emisión de 185 dólares, abriendo a 350 dólares y cerrando a 311,07 dólares, con una subida del 68% en su primer día. El tamaño de la colocación alcanzó los 5.550 millones de dólares, la mayor OPV mundial desde 2026. Las órdenes de suscripción de inversores institucionales superaron en 20 veces las acciones emitidas, y la capitalización bursátil de la empresa superó brevemente los 100.000 millones de dólares durante la sesión. En 2025, Cerebras registró unos ingresos de 510 millones de dólares, un 76% más interanual, y un beneficio neto positivo de 87,9 millones de dólares. Antes de la OPV, la empresa se enfrentaba al reto de una alta concentración de clientes, ya que G42 aportó el 87% de los ingresos en 2024. Sin embargo, a través de acuerdos con OpenAI y AWS, redujo este porcentaje al 24% en solo seis meses, diversificando eficazmente el riesgo de clientes. Actualmente, OpenAI sigue siendo la fuente de ingresos más importante para los próximos años, con una intención de cooperación en potencia informática de IA valorada en más de 20.000 millones de dólares para el período 2026-2028. AWS también anunció la integración de su chip CS-3 en la plataforma Bedrock justo antes de la salida a bolsa. La OPV de Cerebras es, hasta cierto punto, una materialización de la confianza del mercado de capitales en el sector de infraestructura de cómputo de IA.
Modelos
Optimización de memoria y costos para agentes: Tencent open source Agent Memory reduce el consumo de tokens en un 50%
Tencent Cloud ha lanzado en open source TencentDB Agent Memory, que proporciona capacidades de compresión de memoria a corto plazo y memoria personalizada a largo plazo para escenarios de tareas largas de agentes. La solución adopta un mecanismo de doble vía de 'descarga de contexto' y lienzo de tareas estructurado, permitiendo a los agentes transferir información no esencial en tiempo real a almacenamiento externo, manteniendo solo el estado central y la ruta de ejecución, manteniendo así un estado ligero del contexto en sesiones multitarea continuas, y soportando el rastreo y la recuperación capa por capa de los datos originales. En pruebas reales, en sesiones multitarea continuas, Agent Memory puede reducir el consumo de tokens hasta en un 61%; en escenarios de búsqueda web, la tasa de éxito de las tareas aumenta relativamente en un 52%; en escenarios como reparación de código y análisis de documentos largos, la tasa de finalización y la precisión también mejoran en un 10% y un 8%, respectivamente. Toda la industria tiene una fuerte demanda de soluciones de gestión de memoria para agentes, y este lanzamiento de código abierto de Tencent proporciona una validación técnica importante para la viabilidad comercial de las aplicaciones de agentes. Desde la perspectiva de la relación costo-beneficio, la relación de consumo de tokens de los agentes será una señal clave para la aceleración de la comercialización en la segunda mitad de 2026.
MiniCPM-V 4.6 de Shengbei Intelligent: open source, modelo de borde con baja memoria
Shengbei Intelligent ha lanzado en open source el modelo multimodal de borde MiniCPM-V 4.6. Con solo 1.3 mil millones de parámetros, supera a competidores como Qwen3.5-0.8B en evaluaciones autorizadas, ocupando el primer lugar mundial en rendimiento entre modelos del mismo tamaño. En un contexto de aumento continuo de los precios de la memoria, MiniCPM-V 4.6 solo necesita 6 GB de memoria para funcionar sin problemas en el borde. El rendimiento de inferencia es 1.5 veces el de los competidores del mismo tamaño, y el costo de cómputo es solo 1/43 del de estos. El modelo utiliza la tecnología LLaVA-UHD v4 para reducir el cómputo de codificación de imágenes en un 50%. MiniCPM-V 4.6 es totalmente compatible con iOS, Android y HarmonyOS, ampliando la escala de adopción de la comunidad y ofreciendo un nuevo espacio comercial para el mercado de IA centrado en la nube. Este tipo de modelos, con menos parámetros y menores requisitos de hardware para lograr un rendimiento de primer nivel, hacen posible que las capacidades multimodales de IA realmente lleguen a los dispositivos móviles de borde.
Ring-2.6-1T de Ant Group: open source, disponible en OpenRouter con descuentos hasta finales de mayo
Ant Group (Bailing) ha lanzado en open source su modelo insignia de razonamiento de billones de parámetros, Ring-2.6-1T. Los pesos estuvieron disponibles en Hugging Face y ModelScope a partir del 15 de mayo. El modelo tiene un total de parámetros de billones, con unos 63 mil millones de parámetros activos. Anteriormente, se ofreció una API gratuita de prueba en OpenRouter. El diseño central de Ring-2.6-1T es 'razonamiento bajo demanda', introduciendo un mecanismo ajustable de esfuerzo de razonamiento (Reasoning Effort), que admite dos niveles de intensidad: high y xhigh. El modo xhigh se utiliza para tareas de razonamiento de alta dificultad, como matemáticas e investigación científica, liberando el límite superior de la capacidad del modelo. En el último mes, Ant Group ha lanzado de forma intensiva múltiples modelos, todos enfocados en la eficiencia de tokens, enfatizando la finalización de tareas de mayor calidad con menos tokens.
NVIDIA open source modelo mundial SANA-WM de 2.6 mil millones de parámetros: genera video de 720p en 1 minuto
El equipo NVlabs de NVIDIA ha lanzado en open source SANA-WM, un modelo mundial eficiente con 2.6 mil millones de parámetros. Es el primer modelo mundial ligero de código abierto que admite de forma nativa la generación de video de hasta un minuto (60 segundos). A partir de una imagen estática y una trayectoria de cámara, puede generar un video largo controlable de resolución 720p, funcionando en una sola GPU. A nivel de arquitectura, SANA-WM emplea tres innovaciones clave: un Transformer de difusión lineal mixto que reduce la complejidad de la memoria de secuencias largas; un sistema de control de cámara de doble rama que permite un seguimiento de trayectoria de alta precisión con 6 grados de libertad; y un pipeline de generación de dos etapas que utiliza un modelo de corrección de 17 mil millones de parámetros para mejorar la coherencia temporal de videos largos. El rendimiento en eficiencia es especialmente destacable: todo el entrenamiento utilizó solo 213,000 clips de video públicos y se completó en 15 días con 64 H100. Desde una perspectiva industrial, los modelos mundiales suelen considerarse un campo de competición de parámetros. SANA-WM, con 2.6 mil millones de parámetros, logra una calidad visual decente y una mayor precisión de control en una sola tarjeta, mejorando la viabilidad técnica de los modelos mundiales.
Thinking Machines Lab lanza un modelo interactivo multimodal nativo
Thinking Machines Lab ha publicado una vista previa de investigación de su primer modelo interactivo, presentando TML-Interaction-Small, un modelo de expertos mixtos de 276 mil millones de parámetros (12 mil millones de parámetros activos), diseñado específicamente para la colaboración humano-máquina multimodal en tiempo real. La 'interactividad' se refleja en que el modelo puede generar respuestas mientras el usuario habla e iniciar conversaciones de forma activa. Interaction procesa flujos de entrada de audio, video y texto en unidades de 200 milisegundos, logrando esta experiencia. El sistema se divide en dos capas: el modelo interactivo superficial mantiene una comunicación bidireccional continua con el usuario, mientras que el modelo de fondo profundo se encarga del razonamiento profundo y las tareas de cadena larga. Ambos trabajan en paralelo para lograr interacción en tiempo real y pensamiento en segundo plano.
Nous presenta Token Superposition Training: acelera el preentrenamiento de 2 a 3 veces sin cambiar la arquitectura
El equipo de Nous Research ha propuesto recientemente el método de entrenamiento Token Superposition Training (TST). Lo destacable de este método es que no cambia la arquitectura del modelo, el tokenizador, el optimizador ni la estrategia de paralelismo. Simplemente ajusta la representación de tokens y los objetivos de predicción en las primeras etapas del preentrenamiento, logrando acelerar el preentrenamiento de LLM en aproximadamente 2.5 veces. Tomando como ejemplo un modelo MoE de 10 mil millones de parámetros, con las mismas FLOPs, TST puede lograr una aceleración efectiva de hasta 2.5 veces. La ruta técnica de TST se divide en dos fases: la fase de superposición eficiente combina múltiples tokens consecutivos en un conjunto y utiliza un objetivo de entropía cruzada multi-caliente para el entrenamiento; la segunda fase restaura el entrenamiento estándar. El método ha sido ampliamente validado en escalas de 270 millones a 10 mil millones de parámetros, mostrando una sólida robustez. Manteniendo constante la cantidad de cómputo, TST optimiza la eficiencia de utilización de datos. Dado que la estrategia de simplemente apilar GPUs para el entrenamiento tiene rendimientos marginales decrecientes, TST, como solución de aceleración sin dolor, ofrece una nueva ruta técnica para el preentrenamiento de bajo costo.
Aplicaciones
DeepSeek añade función de búsqueda en el historial de chat, en pruebas A/B en App 2.1.0
DeepSeek ha lanzado recientemente en pruebas A/B (versión 2.1.0 (213) de la App) la función de búsqueda en el historial de chat. Los usuarios que actualicen a esta versión podrán ver un cuadro de búsqueda 'Buscar en el chat' en la parte superior de la barra lateral. Al ingresar una palabra clave, se pueden encontrar con precisión los historiales de chat que contienen esa palabra, y ubicarse en la conversación específica con un solo clic. Al mismo tiempo, la versión web también admite operaciones de búsqueda similares. Esta función solo admite la coincidencia de campos de texto completo con palabras clave, por lo que la eficiencia de recuperación aún tiene margen de mejora. En comparación con el estándar de la industria, productos principales como ChatGPT y Claude ya soportan la búsqueda en el historial de sesiones de forma completa. Para los usuarios intensivos de DeepSeek, la ausencia previa de esta función básica constituía una clara carencia en la experiencia del producto. Esta actualización sitúa al producto al nivel del estándar de la industria en términos de madurez. Aunque actualmente solo está en pruebas A/B y no se ha lanzado de forma general, para los usuarios que acumulan activos de conversación de alta calidad, esta función representa una importante mejora de la experiencia.
Extensión WebBridge de Kimi: los agentes pueden operar directamente el navegador
Kimi ha lanzado la extensión de navegador WebBridge, que permite a los agentes realizar operaciones antropomórficas como búsqueda, desplazamiento, clic e ingreso de texto en páginas web reales, y completar tareas automáticamente llevando la información de inicio de sesión y cookies del usuario. La extensión ya es compatible con múltiples plataformas de agentes principales como Claude Code, Cursor, Codex y Hermes, ejecutándose en segundo plano sin ocupar el mouse y el teclado del usuario. En cuanto a aplicaciones prácticas, la extensión admite tareas repetitivas como organización de información, llenado de formularios e integración de datos entre sitios, y puede encapsular procesos fijos para formar herramientas CLI ligeras que no consumen tokens del modelo grande. En el mismo período, Kimi K2.6 obtuvo el primer lugar en el peso abierto en la evaluación Finance Agent Benchmark V2, con una precisión del 44.87%. La evaluación requiere que el modelo localice datos de forma independiente en informes financieros de cientos de páginas y complete cálculos de múltiples pasos, con una dificultad de referencia muy superior a la generación anterior. El salto de 'poder hablar' a 'poder hacer' es un paso clave en el desarrollo de los agentes de IA. Kimi, a través de una extensión de navegador ligera, reduce efectivamente la barrera técnica para que los agentes ejecuten tareas complejas en páginas web reales. Combinado con el rendimiento superior de Kimi K2.6 en el punto de referencia de agentes financieros, Kimi está formando un bucle completo de ejecución de tareas de agentes.
Alibaba Qoder anuncia la versión 1.0: el IDE se actualiza a un entorno de trabajo autónomo
Alibaba Cloud ha lanzado Qoder 1.0, cuyo núcleo es la actualización del producto de un asistente de programación tradicional basado en IA a un entorno de trabajo de desarrollo autónomo basado en agentes. Los desarrolladores solo necesitan definir los requisitos en la nueva 'ventana independiente Quest', y el sistema subyacente Agent Harness se encargará de todo el proceso, desde el desglose de requisitos, la codificación, las pruebas hasta la entrega, y admite tareas múltiples en paralelo entre proyectos. A nivel técnico, Qoder introduce un tiempo de ejecución de tareas estructurado y una ingeniería de conocimiento, permitiendo que los agentes tomen decisiones autónomas basadas en el contexto del equipo. También se ha lanzado un motor de conocimiento a nivel de equipo que integra memoria, normas del repositorio y bases de conocimiento. En pruebas reales, la tasa de retención de código mejoró en un 11% y el consumo de tokens se redujo en un 40%. Después de que las herramientas tipo Copilot hayan resuelto la mejora de eficiencia personal, ¿cómo convertir esta eficiencia en una producción de ingeniería estable a nivel de equipo? La respuesta de Qoder es el motor de conocimiento de equipo y el modo de grupo de expertos, que esencialmente sistematizan la experiencia y las normas de los desarrolladores de primer nivel como reglas de comportamiento integradas en el agente. Actualmente, la gama completa de productos Qoder ha sido utilizada por más de 5 millones de usuarios en todo el mundo, con un ARR que supera los 60 millones de dólares. Combinado con el lanzamiento del empleado digital QoderWake el mes pasado, Alibaba Cloud está construyendo una matriz completa de productos que va desde la programación individual hasta la automatización de procesos centrales empresariales.
OpenAI presenta DeployCo y Daybreak para ayudar a las empresas a poner sistemas de IA en producción
La implementación empresarial se ha convertido en un nuevo foco de competencia en el campo de los grandes modelos. OpenAI ha anunciado la creación de OpenAI Deployment Company, con una inversión inicial de más de 4 mil millones de dólares y una valoración de 10 mil millones de dólares. El modelo operativo de DeployCo es bastante único: desplegará alrededor de 150 ingenieros de implementación de vanguardia dentro de las organizaciones de los clientes para ayudar a las empresas a integrar profundamente los modelos de IA con sus datos existentes, herramientas, mecanismos de permisos y flujos de trabajo empresariales. Paralelamente, OpenAI ha lanzado el programa de defensa de seguridad de software Daybreak, que compite con la solución Glasswing de Anthropic. Este programa integra los modelos de OpenAI, los agentes de seguridad de Codex y las capacidades de múltiples socios de seguridad como Intel, Cisco y CrowdStrike, incrustándolos en el proceso de desarrollo. Cisco publicó el año pasado el 'Índice de Preparación para la IA 2025', concluyendo que solo alrededor del 13% de las empresas a nivel mundial se consideran 'totalmente preparadas para la IA', y en la región de Asia-Pacífico esta cifra es aún menor, alrededor del 11%. Esto explica precisamente el significado de DeployCo y una serie de proyectos de seguridad: llenar la enorme brecha entre la demostración técnica y la implementación empresarial.