4. China AIGC Industry Summit: 20+ KI-Experten diskutieren Agenten und multimodale KI

Die Organisatoren berichten aus dem Ofei-Tempel.
Quantum位 | WeChat-Konto QbitAI

Langusten, Harness … ein Hit nach dem anderen, und Agenten sind zum allgegenwärtigen Durchbruchscode geworden.

Die KI im Jahr 2026 rast, differenziert sich und setzt sich durch – sie verwandelt sich von einem „Werkzeug“ in ein „Produktivitätssystem“, von der „Inhaltserzeugung“ zur „Aufgabenerledigung“.

@alle, es ist Zeit, sofort mit KI zu starten!

Fast 20 KI-Führungskräfte trafen sich zum 4. China AIGC Industry Summit und stellten sich den schärfsten Fragen der Branche:

Werden Agenten zum nächsten Super-Einstiegspunkt?
Wo liegt der wahre Durchbruch für KI-Anwendungen?
Wie werden Multimodalität und räumliche Intelligenz die zukünftige Interaktion neu gestalten?
Wo verstecken sich die wahren Non-Consensus-Chancen, wenn Modelle immer ähnlicher werden?

Die Antworten wurden auf dem Kongress immer wieder zerlegt.

Die Konferenz war durchgehend intensiv. Vor Ort war der Zuschauerraum überfüllt, nicht nur alle Plätze besetzt, sondern auch die Gänge und Wände waren voller Menschen; die Online-Streams blieben auf hohem Niveau, die Zuschauer schauten aus der Cloud zu und diskutierten angeregt.

Auf der Bühne standen die führenden Praktiker und akademischen Autoritäten, die tiefe Brancheneinblicke und technische Analysen lieferten; unten saßen die Teilnehmer und Entdecker, die den Branchentrends folgten und sich auf diesen jährlichen AIGC-Gedankenaustausch begaben.

Kommen Sie, folgen Sie dem kohlenstoffbasierten Redakteur von Quantum位, um zu sehen, welche Schlüsselsignale diese hochkarätige Konferenz „Jetzt mit KI starten“ gegeben hat.

Der China AIGC Industry Summit ist eine von Quantum位 veranstaltete Branchenkonferenz, an der fast 20 Branchenvertreter teilnahmen. Über 1.000 Personen nahmen vor Ort teil, fast 4 Millionen Zuschauer verfolgten online, und die Konferenz fand breite Beachtung in den Mainstream-Medien.

Fang Han, Vorstandsvorsitzender und CEO von Kunlun Tech

Auf der Konferenz hielt Fang Han, Vorstandsvorsitzender und CEO von Kunlun Tech, zunächst einen Vortrag mit dem Titel „Wie Einzelpersonen und Unternehmen mit dem Agent-Schock umgehen“.

Hier sind die Zusammenfassungen seiner Ansichten:

Wenn eine Branche oder Fähigkeit in sich geschlossen und fehlertolerant ist, kann sie leicht ersetzt werden. Aber wenn Sie Urteilsvermögen und Geschmack haben, können Sie langfristig weitermachen.
Wie viele Tokens verbrannt werden, wird immer interessanter. Normale Mitarbeiter verbrauchen Millionen bis Zehnmillionen pro Monat, AI Coding und technisches Personal Milliarden bis Dutzende Milliarden, und schwere Agent-Nutzer verbrauchen problemlos Dutzende Milliarden pro Monat. Tokens sind zum „Stromverbrauch“ der KI-Ära geworden.
Nach dem Eingreifen der KI wird die Aufstiegsleiter für Einzelpersonen komprimiert. Früher war der Karriereweg klar und geordnet. Jetzt gibt es entweder Anfänger oder Experten, Zwischenstufen sind kaum vorhanden. Wie sich der Weg normaler Menschen entwickeln wird, ist ein beobachtenswertes Phänomen.
Es gibt fünf Arten von Menschen, die KI nie ersetzen kann: Geschichtenerzähler, Ideenschöpfer, Menschen, die Schönheit definieren, Systembauer und Menschen, die Paradigmen neu gestalten.
In den meisten Branchen sollte man bei der KI-Implementierung Zweiter werden. Der Erste trägt hohe Versuchs- und Explorationskosten; der Dritte bekommt keine Branchenvorteile und wird abgehängt. Im IT-Bereich kann man nur Erster sein – eine sehr harte Realität. Aber KI bringt alle auf die gleiche Startlinie.

Yi Zhengchao, CEO von Funshion Online

Yi Zhengchao, CEO von Funshion Online, teilte seine Einsichten zum Thema „Von KI-Programmierung zu KI-Video: Crowdsourcing ist der Kernhebel der KI-Produktivität“.

Hier sind die Zusammenfassungen seiner Ansichten:

KI hat große Veränderungen in die Unterhaltungsindustrie gebracht: Erstens sinken Kosten und Eintrittsbarrieren drastisch, das Angebot wird reichhaltiger und die Herausforderungen steigen; zweitens werden Geschäftsmodelle wie Online-Literatur, IP-Charaktere, Videoinhalte, Interaktion und Spiele vielfältiger; drittens bringt KI nicht nur Kreation in die Videoindustrie, sondern befähigt auch den Betrieb von Unterhaltungsunternehmen; viertens wird die Inhaltserstellung mehr auf die Auswahl der Vorstellungskraft angewiesen sein, Crowdsourcing ist eine unvermeidliche Wahl; schließlich lässt KI-Kreation Menschen leicht eintauchen, wird aber auch die Grenze zwischen Kreation und Konsum durchbrechen.
Als KI-Anwendungsunternehmen hat Funshion Online fünf Richtungen: An KI glauben, aber keine Modelle anfassen; KI-Manhua (KI-generierte Comics) sind sehr beliebt, aber nicht das gesamte KI-Video; als KI-Videounternehmen kommt der Erfolg mehr von KI-Programmierung; das Individuum ist wichtig, aber die Organisation ist wichtiger; Agents sind stark, aber Crowdsourcing ist der Hebel.
Crowdsourcing ist die soziale Struktur der KI-Ära. Unternehmen sind nicht mehr nur Container für Supermitarbeiter und Super-Agents, sondern müssen intellektuelle Ressourcen organisieren, um externe kollektive Intelligenz zu hebeln und so mehr Wert zu schaffen.
Das Crowdsourcing-Netzwerk aus Unternehmensmitarbeitern, digitalen Mitarbeitern und externen Partnern ist eine Art sozial-ökologische Organisationsstruktur.
KI verstärkt die Ausführung, aber auch die Selbstverliebtheit – das ist ein Nebeneffekt, der sowohl beim Coding als auch bei der Inhaltserstellung leicht auftritt. Das Gegenmittel ist die Lieferung von Ergebnissen.

Lin Dahua, Executive Vice President und Chief Scientist von SenseTime

Lin Dahua, Executive Vice President und Chief Scientist von SenseTime, hielt einen Vortrag mit dem Titel „Von multimodaler Vereinheitlichung zu räumlicher Intelligenz: Auf dem Weg zu einer neuen KI-Grenze, die wahrnehmen, generieren und handeln kann“.

Hier sind die Zusammenfassungen seiner Ansichten:

Egal wie schnell sich die Zeiten ändern, es ist immer die langfristige Vision, die bestimmt, wie weit wir kommen. KI ist ein Langstreckenlauf, und nur mit langfristiger Ausrichtung kann man wirklich die Zukunft erreichen.
Bei der unternehmensweiten KI-Implementierung ist das große Modell selbst nicht der entscheidende Faktor; der wahre Engpass liegt darin, wie man Daten in verschiedenen Formaten wie Diagramme, Excel, Bilder, Videos, Webseiten und Wissensdatenbanken in dasselbe KI-System integriert – dieser Teil macht oft über 70 % der Kosten für KI in Unternehmen aus.
Agent ist der Motor dieser Ära, aber der Schlüssel dafür, dass der Motor in realen Szenarien funktioniert, ist seine Fähigkeit, mehrere Modalitäten zu verarbeiten. SenseNova (der Waschbär) von SenseTime wächst deshalb so schnell, weil es wirklich eine End-to-End-Schleife von unordentlichen Daten zu lieferbaren Ergebnissen herstellt und so den Wert direkt zum Benutzer bringt.
Neben dem digitalen Raum gibt es eine noch größere Welt – den physischen Raum. Selbst die besten multimodalen Modelle sind heute im realen physischen Raum noch sehr anfällig, was der Kernengpass für die Generalisierung von Robotern ist. Der Schlüssel zum physischen Raum muss das Weltverständnis aus ersten Prinzipien neu definieren.
Um räumliche Intelligenz wirklich zu durchbrechen, müssen Sprachmodell und visuelles Verständnis und Generierung in einem einzigen Modell vereint werden – ein Modell, das sowohl Sprache ausdrücken als auch Elemente der visuellen Welt generieren kann.
Das neue Modell SenseNova U1 von SenseTime vereint Verständnis, Schlussfolgerung und Generierung auf einer neuen Basis und kann nahtlos zwischen Sprache und Bild wechseln: Verständnis durch Sprache ausdrücken, Vorstellung durch Bilder ausdrücken und wirklich kohärente gemischte Text-Bild-Kreationen erstellen.
Die „Vereinheitlichung“ selbst eröffnet neue Ausdrucksmöglichkeiten. Sie verleiht dem Bildgenerierungsmodell Denken und dem Denkmodell Vorstellungskraft.
Der wahre zukünftige Agent sollte in einem „Gehirn“ sowohl die Analyse des digitalen Raums als auch die Aktion im physischen Raum durchführen – sowohl multimodale Informationen integrieren, um Entscheidungen zu treffen, als auch im physischen Raum agil handeln. Die Verschmelzung von digitalem und physischem Raum ist das wahre Ziel der KI.

Deng Yafeng, Vizepräsident der Shanda Group und CEO von EverMind

Deng Yafeng, Vizepräsident der Shanda Group und CEO von EverMind, hielt einen Vortrag mit dem Titel „Selbstevolution durch Langzeitgedächtnis: Vom Werkzeug-KI zum digitalen Produktivitätssystem“.

Hier sind die Zusammenfassungen seiner Ansichten:

Die Languste (Agent-Implementierung) ist wie das iPhone 4 der Agent-Ära. Sie definiert ein Produktparadigma und gibt den Menschen zum ersten Mal das Gefühl, einen KI-Jarvis zu haben, der 72 Stunden arbeitet. Aber sie ist nicht perfekt und muss ständig aktualisiert und übertroffen werden.
Claude 4 ist ein entscheidender Knotenpunkt auf dem Weg zum autonomen Agenten. Dieser Paradigmenwechsel von Chat zu Agent hat es Anthropic ermöglicht, OpenAI zu überholen, und gleichzeitig SaaS radikal verändert. Früher lieferte SaaS Prozesse und Schnittstellen, heute liefert es mehr über Nachrichten.
Agent hat zwei wichtige Merkmale: Autonomie und Selbstevolution. Langzeitgedächtnis ist der Schlüssel zur Unterstützung dieser beiden Punkte und löst drei Dinge: 1. Abstraktion und Zusammenfassung des stark erweiterten Kontexts. 2. Erinnern, wer der Benutzer ist, seine Vorlieben, Ziele und Werte. 3. Aktives Vorhersagen, was der Benutzer brauchen könnte.
Je stärker das Modell wird, desto mehr wird das Gedächtnis zum differenzierenden Vermögenswert, der im Geschäftsprozess am leichtesten zu erhalten ist.
Wenn KI einen wirklich vollständig versteht, wird sie zu einem neuen Intentionsverteilungskanal. Dann wird die Gedächtnisspeicherung wichtig; sie sollte dem Individuum gehören und zwischen verschiedenen Agents wie Codex, Claude Code und Languste synchronisiert werden können.

Wang Xiaoye, Technischer Direktor der Produkt- und Technologieabteilung von Amazon Web Services

Wang Xiaoye, Technischer Direktor der Produkt- und Technologieabteilung von Amazon Web Services, teilte sein Thema „Überbrückung der Kluft bei der Agent-Implementierung: Vom stärksten Modell zum unternehmensweiten KI-Agent“.

Hier sind die Zusammenfassungen seiner Ansichten:

Eine Languste für den persönlichen Gebrauch zu züchten und eine für Unternehmen sind zwei verschiedene Dinge. Unternehmen müssen sicherstellen, dass der Agent sicher, vertrauenswürdig und stabil läuft. Es gibt viele Hindernisse zu überwinden. Agents wie die Languste zeigen, wie das andere Ufer aussieht, aber Unternehmen brauchen noch eine Brücke, um zur Produktion zu gelangen.
Amazon Web Services ist der Ansicht, dass Unternehmen für den Aufbau von Agentic AI fünf Ebenen beachten müssen: Die unterste Ebene ist die Inferenzrechenleistung, darüber die Multimodellauswahl, dann die Unternehmensdaten und das Wissen, dann die Agent-Bauplattform und die oberste Ebene sind direkt einsetzbare Agent-Anwendungen.
In Unternehmen sind Coding Agents bereits ausgereift, Working Agents sind der nächste Durchbruch. Die Antwort von Amazon Web Services ist Amazon Quick, das es Unternehmensmitarbeitern ermöglicht, Agents sicher, agil und frei zu nutzen.
Agent stellt neue Herausforderungen an das Datenmanagement. Gedächtnis muss geteilt, isoliert und nebeneinander existieren können; falsches Wissen, veraltete Informationen und widersprüchliche Inhalte beeinträchtigen die Entscheidungsfindung des Agents. Alle beschweren sich über teure Tokens, aber oft liegt es nicht am Stückpreis, sondern daran, dass dem Modell zu viele nutzlose Informationen gefüttert werden.
Im Agent-Szenario ist Harness die gesamte Software-Infrastruktur außer dem Modell. Das Modell ist wie die CPU, Harness stellt das nutzbare Betriebssystem zusammen, und der Agent präsentiert sich letztlich als vollständige Anwendungsform. Amazon Bedrock AgentCore ist Harness; sein Kernwert besteht darin, dass Benutzer nicht zu viel Zeit mit Harness verbringen müssen, sondern sich auf ihren Geschäftswert konzentrieren können.

GenAI Talk: Dialog mit Shen Yujun, Chefwissenschaftler von Ant Group Lingbo Technology

Früher hatte Shen Yujun, Chefwissenschaftler von Ant Group Lingbo Technology, auf dem Zhongguancun Forum und anderen öffentlichen Vorträgen als Erster das Konzept von AIGA (AI Generated Action) vorgeschlagen. Er wies darauf hin: In der zweiten Hälfte von AI 2.0 soll KI von der „Unterhaltung“ in der digitalen Welt zum „Arbeiten“ in der physischen Welt übergehen, von der Inhaltsgenerierung zur Aktionsgenerierung.

In der GenAI Talk-Sitzung am Vormittag führte Shen Yujun, Chefwissenschaftler von Ant Group Lingbo Technology, zusammen mit Li Gen, Mitbegründer und Chefredakteur von Quantum位, ein tiefgehendes Gespräch zu diesem Thema mit dem Titel „Die zweite Hälfte von AI 2.0: Von AIGC zu AIGA“.

Hier sind die Zusammenfassungen von Shen Yujuns Ansichten:

Große Modelle haben die Datenvorteile des Internets der letzten Jahrzehnte genutzt, aber es gibt noch große Lücken bei den Daten aus der physischen Welt für Roboter. In der zweiten Hälfte der KI ist entscheidend, wie Daten von der digitalen Welt in die physische Welt überführt werden.
Der Schlüssel zur Entwicklung eines universellen Roboter-Gehirns für die physische Welt ist die räumliche Wahrnehmungsfähigkeit. Wie man die Eingaben der Sensoren in bessere Informationen für das Modell umwandelt, beginnend mit dem Verständnis der Welt aus den Sensoreingaben, ist entscheidend.
Beim technischen Wegstreit zwischen VLA (Vision-Language-Action) und Weltmodellen: Erstens, egal wie sich die technische Route entwickelt, Daten sind unverzichtbar. Zweitens wird keiner der beiden Wege das Endspiel sein. Wenn sich die Datenmenge von Robotern auf ein bestimmtes Niveau ansammelt, werden die beiden Wege sicherlich verschmelzen und ein einzigartiges Modell für die physische Welt hervorbringen.
Einschätzung: In 1-2 Jahren werden einige Benchmark-Beispiele auftauchen, die das Modell tatsächlich in die Produktion bringen; in 2-3 Jahren werden diese Beispiele massenhaft kopiert, und immer mehr Industrien werden Modelle anwenden; danach werden Roboter versuchen, in irgendeiner Weise in den C-End einzudringen; und dann werden sie nach und nach wirklich in den Haushalten verbreitet sein.
Wenn jeder Daten für Roboter generieren kann, ist der „ChatGPT-Moment“ für Embodied Intelligence gekommen.

Qiu Xipeng, angesehener Professor der Fudan-Universität, stellvertretender Dekan des Shanghai Innovation Institute und Gründer von MoSi Intelligent

Qiu Xipeng, angesehener Professor der Fudan-Universität, stellvertretender Dekan des Shanghai Innovation Institute und Gründer von MoSi Intelligent, hielt einen Vortrag mit dem Titel „MOSS multimodales Modell und seine Inferenzoptimierung“.

Hier sind die Zusammenfassungen seiner Ansichten:

Eine wichtige Richtung der nächsten KI-Entwicklung ist Multimodalität. Zukünftige stärkere KI muss den breiteren Kontext, also die Situation, vollständig verstehen; wir werden in eine Ära der allgemeinen situativen Intelligenz eintreten, in der Interaktion ein sehr wichtiger Teil sein wird.
Multimodale Modelle für Echtzeitinteraktion müssen längere Kontexte, komplexere visuelle und Audioinformationen verarbeiten und höhere Echtzeit-Inferenzanforderungen erfüllen. Der Multimodale-Token-Verbrauch ist viel höher als bei Text und Coding und stellt strengere Anforderungen an das Modell und das Inferenz-Framework.
Video-Verständnis hat eine hohe Informationsdichte und beinhaltet zeitliches Denken, was eine Kernfähigkeit für zukünftige Interaktionen darstellt. MOSS-VL verwendet eine Cross-Attention-Struktur, bei der der Videostream kontinuierlich eingegeben wird und das Textmodell bei Bedarf Videoinformationen abruft, was die Interaktion natürlicher macht.
Das Ziel von MOSS-Audio ist es, in einem breiteren Kontext nicht nur den Sprachinhalt zu hören, sondern auch Szene, komplexe Schlussfolgerungen und Musikinformationen zu verstehen. MOSS-Audio hat bei Aufgaben wie ASR, Speech Caption und zeitgestempelter ASR das Niveau der modernsten spezialisierten ASR-Modelle erreicht.
MOSS-TTS deckt Sprachsynthese, Leichtbau, Sounddesign, Soundeffektdesign und Echtzeit ab, mit einem reinen Transformer-basierten Audio-Tokenizer. Nach der Veröffentlichung als Open Source wurde MOSS-TTS über 1 Million Mal heruntergeladen. In Zukunft werden visuelles Verständnis, Sprachverständnis und Sprachausgabe zu einem End-to-End-Modell für situative Interaktion verschmelzen.

Hu Weiqi, Leiter der ToB-China-Kommerzialisierung bei MiniMax

Hu Weiqi, Leiter der ToB-China-Kommerzialisierung von MiniMax, hielt einen Vortrag mit dem Titel „Intelligence with Everyone – MiniMaxs Weg der KI-Erkundung und -Praxis“.

Hier sind die Zusammenfassungen ihrer Ansichten:

Was ist AGI? Intelligence with Everyone bedeutet KI, die sich jeder leisten kann. Um das zu erreichen, muss man sowohl an großen Modellen als auch an Anwendungen arbeiten, sowohl ToC als auch ToB gleichermaßen wichtig nehmen.
KI-Unternehmen sollten zuerst intern eine geschlossene Schleife erreichen. Sie sollten nicht mit Token-Subventionen geizen und die Mitarbeiter ermutigen, Agents zu verwenden, um automatisierte Workflows zu erstellen. Dieser Nutzungsprozess wird auch die Modellentwicklung befruchten.
Statt sich zu ängstigen, lieber mitmachen. Wenn Unternehmen KI praktisch einsetzen wollen, ist der effizienteste Weg, direkt loszulegen und mit Szenarien zu beginnen, die die Mitarbeiter am wenigsten mögen – das sind in der Regel die wertvollsten und intern am wenigsten widerstandsfähigen Szenarien.
KI wird Organisationen flacher machen. Produkte können direkt als Demo erstellt werden, und dann entscheidet die Entwicklung, ob eine Massenproduktion erfolgen soll. In den nächsten 2 bis 3 Jahren wird KI weiterhin tief in alle Branchen integrieren und die Produktivität verändern.