IV Cumbre AIGC China: agentes, multimodalidad y el futuro de la IA

Langosta, Harness... un éxito tras otro, y los agentes se han convertido en la palabra clave para la innovación. La IA en 2026 está evolucionando, diferenciándose y aterrizando, transformándose de 'herramienta' a 'sistema de productividad', de 'generar contenido' a 'completar tareas'. ¡Es hora de ponerse en marcha con la IA!

Casi 20 figuras líderes de la IA se reunieron en la IV Cumbre de la Industria AIGC de China, enfrentando las preguntas más agudas de la industria: ¿Se convertirán los agentes en la próxima superpuerta de entrada? ¿Dónde está el verdadero punto de inflexión de las aplicaciones de IA? ¿Cómo remodelarán la interacción futura la multimodalidad y la inteligencia espacial? Cuando los modelos se vuelven cada vez más similares, ¿dónde están las verdaderas oportunidades de disenso? Las respuestas se desglosaron repetidamente en la cumbre.

La cumbre estuvo llena de entusiasmo. El lugar estaba abarrotado, no solo sin asientos vacíos, sino con la audiencia apiñada en los pasillos y las paredes. Las transmisiones en línea también mantuvieron un alto nivel de audiencia, con espectadores interactuando y comentando. En el escenario, operadores de primera línea y autoridades académicas compartieron ideas reales de la industria y análisis técnicos. Fuera del escenario, participantes y exploradores que siguen las tendencias de la industria acudieron a este encuentro anual de pensamiento sobre la industria AIGC.

Fang Han, presidente y CEO de Kunlun Tech, dio el discurso principal titulado 'Cómo enfrentar el impacto de los agentes como individuos y empresas'. Sus puntos clave: Una industria o habilidad que es cerrada y tolerante a errores es fácilmente reemplazable. Pero si tienes criterio y buen gusto, puedes seguir adelante a largo plazo. Quemar tokens se vuelve cada vez más interesante: un empleado normal consume millones o decenas de millones al mes, mientras que los desarrolladores de IA y los técnicos pueden llegar a cientos de millones o miles de millones. Los usuarios intensivos de agentes pueden consumir fácilmente decenas de miles de millones al mes. Los tokens se han convertido en el 'consumo de electricidad' de la era de la IA. Con la IA, la escalera de crecimiento personal se ha comprimido. Antes, la trayectoria de crecimiento de un empleado era clara y ordenada. Ahora, o eres novato o eres un experto; el estado intermedio es difícil de existir. Hay cinco tipos de personas que la IA nunca podrá reemplazar: los cuentacuentos, los creadores de ideas, los definidores de belleza, los constructores de sistemas y los reinventores de paradigmas. En la mayoría de las industrias, al implementar IA, hay que ser el segundo. El primero asume altos costos de prueba y error; el tercero no obtiene beneficios y es superado. En el sector de TI, solo se puede competir por el primero, pero la IA ha nivelado el campo de juego.

Yi Zhengchao, CEO de Funshion Online, compartió su visión en 'De la programación con IA al video con IA: la co-creación es la palanca central de la productividad de la IA'. Sus puntos clave: La IA ha traído grandes cambios a la industria del entretenimiento: reducción de costos y barreras, mayor oferta y desafíos; diversificación de formatos como novelas web, personajes IP, videos, interacción y juegos; la IA no solo aporta creatividad al video, sino que también potencia la operación empresarial; la creación de contenido valora más el filtrado de imaginación, y la co-creación es inevitable; la creación con IA puede ser inmersiva, pero también conecta la creación con el consumo. Como empresa de aplicaciones de IA, Funshion Online tiene cinco direcciones: creer en la IA, pero no tocar modelos; el drama manga con IA es popular, pero no es todo el video con IA; como empresa de video con IA, el éxito proviene más de la programación con IA; es importante amplificar al individuo, pero más importante amplificar a la organización; los agentes son fuertes, pero la co-creación es la palanca. La co-creación es la estructura social de la era de la IA. Las empresas ya no son contenedores de superempleados y superagentes, sino que organizan recursos intelectuales para aprovechar la sabiduría colectiva externa. La red de co-creación formada por empleados, empleados digitales y socios externos es una estructura organizativa ecológica y social. La IA amplifica la ejecución y también el autoengaño, un efecto secundario común tanto en la programación como en el contenido; la solución es entregar resultados.

Lin Dahua, vicepresidente ejecutivo y científico jefe de SenseTime, presentó 'De la unificación multimodal a la inteligencia espacial: hacia una nueva frontera de IA perceptible, generable y accionable'. Sus puntos clave: No importa qué tan rápido cambien los tiempos, lo que determina cuán lejos llegamos es la visión a largo plazo. La IA es una carrera de fondo; solo con persistencia a largo plazo podemos llegar al futuro. En la implementación empresarial de IA, el modelo grande no es lo más crítico; el verdadero cuello de botella es cómo conectar múltiples formas de datos (tablas, Excel, imágenes, videos, páginas web, bases de conocimiento) en un mismo sistema de IA, lo que a menudo representa más del 70% del costo de la aplicación de IA empresarial. Los agentes son el motor de esta era, pero la clave para que funcionen en escenarios reales es su capacidad para manejar múltiples modalidades. El Raccoon de SenseTime ha crecido rápidamente porque logra un cierre completo de extremo a extremo desde datos desordenados hasta resultados entregables. Más allá del espacio digital, hay un mundo más amplio: el espacio físico. Los mejores modelos multimodales actuales siguen siendo muy frágiles al entrar en el espacio físico real, lo que es el cuello de botella para la generalización de robots. La clave para abrir el espacio físico debe ser comprender el mundo desde primeros principios. Para lograr la inteligencia espacial, es necesario fusionar el lenguaje, la comprensión visual y la generación en un solo modelo. SenseNova U1 unifica comprensión, razonamiento y generación en una nueva base, permitiendo cambios fluidos entre lenguaje y visión. La unificación trae un nuevo espacio de expresión y posibilidades. El agente verdaderamente inteligente del futuro debe completar el análisis del espacio digital y la acción en el espacio físico en un solo 'cerebro'. La convergencia de los espacios digital y físico es el destino real de la IA.

Deng Yafeng, vicepresidente del Grupo Shengda y CEO de EverMind, presentó 'Evolución autónoma impulsada por memoria a largo plazo: de la IA herramienta al sistema de productividad digital'. Sus puntos clave: Langosta es como el iPhone 4 de la era de los agentes. Define un paradigma de producto, haciendo que la gente sienta que tiene un JARVIS de IA que puede trabajar 72 horas. Pero no es perfecto y necesita ser actualizado y superado. Claude 4 es un punto clave para que los agentes se vuelvan autónomos. Este cambio de paradigma de Chat a Agente ha permitido a Anthropic superar a OpenAI y ha transformado el SaaS. Antes, SaaS entregaba procesos e interfaces; hoy, entrega mensajes. Los agentes tienen dos características importantes: autonomía y autoevolución. La memoria a largo plazo es clave para sostener ambas, resolviendo tres cosas: 1) resumir el contexto en rápida expansión, 2) recordar quién es el usuario, sus preferencias, metas y valores, y 3) predecir activamente lo que el usuario podría necesitar. Cuando los modelos se vuelven más potentes, la memoria se convierte en el activo diferenciador más fácil de acumular en los procesos comerciales. Si la IA realmente te conoce a fondo, se convertirá en un nuevo punto de distribución de intenciones.

Wang Xiaoye, director técnico de productos tecnológicos de AWS China, compartió 'Superando la brecha de implementación de agentes: del mejor modelo al agente de IA empresarial'. Sus puntos clave: Criar langostas a nivel personal y empresarial son dos cosas diferentes. Las empresas necesitan que los agentes funcionen de manera segura, confiable y estable, con muchas brechas que superar. AWS cree que construir IA agente empresarial requiere cinco capas: la base es la computación de razonamiento, luego la selección de múltiples modelos, seguida de datos y conocimiento empresarial, luego la plataforma de construcción de agentes, y finalmente las aplicaciones de agentes listas para usar. En las empresas, los agentes de codificación ya están maduros; los agentes de trabajo son el próximo punto de inflexión. La respuesta de AWS es Amazon Quick, que permite a los empleados usar agentes de manera segura, ágil y libre. Los agentes plantean nuevos desafíos para la gestión de datos. La memoria necesita compartirse, aislarse y coexistir; el conocimiento erróneo, la información desactualizada y las contradicciones afectan el juicio del agente. Todos se quejan del costo de los tokens; a menudo no es el precio unitario, sino la gran cantidad de información inútil que se alimenta al modelo. En el escenario de los agentes, Harness es toda la infraestructura de software excepto el modelo. Es como si el modelo fuera la CPU y Harness proporcionara el sistema operativo utilizable; el agente final se presenta como una aplicación completa. Amazon Bedrock AgentCore es un harness, cuyo valor central es que los usuarios no tengan que esforzarse mucho en el harness, sino centrarse en su valor comercial.

En la sesión GenAI Talk, Shen Yujun, científico jefe de Ant Group Lingbo Technology, dialogó con Li Gen, cofundador y editor en jefe de QuantumBit, sobre 'La segunda mitad de AI 2.0: de AIGC a AIGA'. Puntos clave de Shen Yujun: Los grandes modelos aprovecharon los datos de internet de las últimas décadas, pero los datos del mundo físico para robots aún tienen un gran vacío. La clave de la segunda mitad de la IA es cómo hacer la transición de datos del mundo digital al físico. Para crear un cerebro de robot universal en el mundo físico, la capacidad de percepción espacial es crucial. Cómo convertir las entradas de los sensores en mejor información para el modelo, comprendiendo el mundo desde la entrada del sensor, es clave. En cuanto al debate técnico entre VLA y modelo del mundo, independientemente de la evolución técnica, los datos son indispensables. Ninguno de los dos caminos será definitivo. Cuando la cantidad de datos de robots se acumule lo suficiente, ambos convergerán, dando lugar a un modelo exclusivo del mundo físico. Predicción: en 1-2 años, aparecerán algunos casos de referencia que permitan la producción real del modelo; en 2-3 años, estos casos se replicarán en masa y más industrias aplicarán el modelo; después, los robots intentarán ingresar al mercado de consumo; luego se popularizarán gradualmente en los hogares. Cuando todos puedan generar datos para robots, ese será el momento ChatGPT de la IA incorporada.

Qiu Xipeng, profesor distinguido de la Universidad de Fudan, asistente del decano del Instituto de Innovación de Shanghai y fundador de Moxing Intelligence, presentó 'Modelo multimodal MOSS y su optimización de inferencia'. Sus puntos clave: Una dirección importante para el próximo desarrollo de la IA es la multimodalidad. La IA futura más potente necesita comprender el contexto amplio, es decir, la situación; entraremos en una era de inteligencia contextual generalizada, donde la interacción será una parte crucial. Los modelos multimodales para interacción en tiempo real necesitan manejar contextos más largos, información visual y de audio más compleja, y cumplir con mayores requisitos de inferencia en tiempo real. El consumo de tokens multimodales es mucho mayor que el de texto y programación, lo que impone requisitos más estrictos a los modelos y marcos de inferencia. La comprensión de video tiene alta densidad de información e implica razonamiento temporal, siendo una capacidad central para la interacción futura. MOSS-VL utiliza una estructura de atención cruzada, permitiendo la entrada continua de flujo de video y que el modelo de texto acceda a la información del video según sea necesario, haciendo la interacción más natural. MOSS-Audio apunta a comprender no solo el contenido del habla, sino también el escenario, el razonamiento complejo y la música. MOSS-Audio está al mismo nivel que los modelos ASR especializados más avanzados en tareas como ASR, subtítulos de voz y ASR con marca de tiempo. MOSS-TTS cubre síntesis de voz, ligereza, diseño de sonido, diseño de efectos de sonido y tiempo real, utilizando una arquitectura puramente Transformer para codificar el tokenizador de audio. Las descargas de MOSS-TTS han superado 1 millón. En el futuro, la comprensión visual, la comprensión del habla y la salida de voz se fusionarán en un modelo de extremo a extremo para la interacción contextual.

Hu Weiqi, responsable de comercialización ToB China de MiniMax, presentó 'Inteligencia con todos: el camino de exploración práctica de MiniMax AI'. Sus puntos clave: ¿Qué es AGI? Inteligencia con todos, es decir, IA que todos puedan pagar. Para lograrlo, debemos persistir en el desarrollo paralelo de modelos grandes y aplicaciones, y dar igual importancia a ToC y ToB. Las empresas de IA primero deben lograr un ciclo cerrado internamente, no ser tacaños con los subsidios de tokens y dejar que los empleados usen agentes para construir flujos de trabajo automatizados. Este proceso de uso también retroalimenta la investigación del modelo. En lugar de preocuparse, es mejor unirse. Si una empresa quiere practicar IA, el método más efectivo es intentarlo directamente, comenzando con los escenarios que menos quieren hacer los empleados, que suelen ser los más valiosos y con menor resistencia interna. La IA hará que las organizaciones sean más planas. Los productos pueden generar prototipos directamente, y luego el departamento de I+D decide si se produce en masa. En los próximos 2 a 3 años, la IA continuará integrándose profundamente con diversas industrias, cambiando la productividad.