Analyst: Caroline
QuantumBit Think Tank | WeChat: AI123All
Die KI-Branche sendete in dieser Woche mehrere wichtige Signale:
Zunächst ist der Konsens der Modellanbieter in der technologischen Entwicklung bemerkenswert. Speicherverwaltung wird allgemein als der entscheidende Engpass für die skalierbare Bereitstellung von Agenten angesehen, und es wurden verschiedene Ansätze für langen Kontext bei niedrigen Kosten entwickelt.
Darauf aufbauend haben führende Unternehmen begonnen, "KI als Betriebssystem" als strategische Richtung für die neue Ära zu etablieren. Die Veröffentlichung von Googlebook und Gemini Intelligence ist ein starkes Indiz dafür. Gleichzeitig wird vertikale Integration zu einem wichtigen Hebel für Unternehmen, um Marktanteile zu gewinnen. In dieser Woche hat OpenAI eine umfassende Reorganisation durchgeführt und die drei Produktlinien ChatGPT, Codex und API zusammengelegt. Greg Brockman übernimmt die vollständige Produktstrategie mit dem Ziel, einen integrierten Kreislauf vom Modell bis zur Anwendung zu schaffen.
Ein weiteres wichtiges Signal ist die Gründung von OpenAI DeployCo. Mit einer Anfangsinvestition von 40 Milliarden US-Dollar und 150 eingebetteten Ingenieuren verkündet OpenAI, dass die reine Bereitstellung von APIs nicht ausreicht, um die Anforderungen von Unternehmen zu erfüllen. Der Wettbewerbsvorteil der nächsten Phase liegt darin, Kunden bei der Umsetzung von Produktionsabläufen zu helfen. Die Kluft zwischen Modellfähigkeiten und Bereitstellungsfähigkeiten wird direkt die zukünftige Marktposition der großen Modellanbieter bestimmen.
Auf der politischen Ebene hat China erstmals ein obligatorisches KI-Label für Kurzvideos eingeführt. Die Erhöhung der Compliance-Hürden sollte von allen KI-Inhaltsplattformen ernst genommen werden.
Insgesamt verlagert sich der Wettbewerbsfokus von der oberen Leistungsgrenze der Modelle hin zu effektiver Intelligenz pro Kosteneinheit. Niedrigerer Token-Verbrauch, leichtere Bereitstellung und engere technische Integration werden die Kundenentscheidungen bestimmen.
Grundlagen
Cerebras IPO mit 20-facher Überzeichnung, erster Tag plus 68%
Cerebras Systems ging an der Nasdaq zu einem Emissionspreis von 185 US-Dollar an die Börse, eröffnete bei 350 US-Dollar und schloss bei 311,07 US-Dollar, was einem Anstieg von 68% am ersten Tag entspricht. Das Emissionsvolumen belief sich auf 55,5 Milliarden US-Dollar, der weltweit größte Börsengang seit 2026. Die Aufträge institutioneller Anleger überstiegen die ausgegebenen Aktien um das 20-fache, und die Marktkapitalisierung des Unternehmens überstieg zwischenzeitlich die 100-Milliarden-Dollar-Marke.
Laut Daten erzielte Cerebras im Jahr 2025 einen Umsatz von 5,1 Milliarden US-Dollar, ein Anstieg von 76% gegenüber dem Vorjahr, und einen Nettogewinn von 87,9 Millionen US-Dollar. Vor dem Börsengang war das Unternehmen mit einer zu hohen Kundenkonzentration konfrontiert: 2024 steuerte G42 87% der Einnahmen bei. Durch die Zusammenarbeit mit OpenAI und AWS konnte dieser Anteil innerhalb eines halben Jahres auf 24% gesenkt werden, wodurch das Kundenrisiko effektiv gestreut wurde.
Derzeit bleibt OpenAI die wichtigste Einnahmequelle für die kommenden Jahre. Beide Parteien haben eine Absichtserklärung zur Zusammenarbeit im Bereich KI-Rechenleistung mit einem potenziellen Gesamtwert von über 20 Milliarden US-Dollar unterzeichnet, die den Zeitraum 2026 bis 2028 abdeckt. Kurz vor dem Börsengang kündigte AWS außerdem an, den CS-3-Chip in seine Bedrock-Plattform zu integrieren.
Der Börsengang von Cerebras ist in gewisser Weise auch eine konzentrierte Bestätigung des Vertrauens des Kapitalmarkts in die Infrastruktur für KI-Rechenleistung.
Modelle
Agent-Gedächtnis und Kostenoptimierung: Tencent Open-Source Agent Memory senkt Token-Verbrauch um 50%
Tencent Cloud hat TencentDB Agent Memory als Open Source bereitgestellt, das für lange Aufgaben von Agenten Kurzzeitgedächtniskompression und personalisiertes Langzeitgedächtnis bietet. Das System verwendet einen zweigleisigen Mechanismus aus "Context Offloading" und strukturierter Aufgabenleinwand. Der Agent kann Informationen, die nicht in Echtzeit benötigt werden, an einen externen Speicher auslagern und nur den Kernstatus und den Ausführungspfad behalten, wodurch der Kontext in kontinuierlichen Multitasking-Sitzungen schlank bleibt und eine schrittweise Rückverfolgung und Wiederherstellung der Originaldaten ermöglicht wird.
In Tests mit kontinuierlichen Multitasking-Sitzungen konnte der Token-Verbrauch um bis zu 61% gesenkt werden. In Websuch-Szenarien stieg die Aufgabenerfolgsrate um 52%, in Code-Reparatur- und Langdokumentanalyse-Szenarien verbesserten sich die Abschlussrate bzw. die Genauigkeit um 10% und 8%.
Die Branche hat einen starken Bedarf an Lösungen für das Agent-Gedächtnis. Tencent's Open-Source-Schritt bietet eine wichtige technische Validierung für die kommerzielle Machbarkeit von Agent-Anwendungen. Aus ROI-Perspektive wird das Token-Verbrauchsverhältnis von Agenten ein Schlüsselsignal für die Beschleunigung der Kommerzialisierung in der zweiten Hälfte des Jahres 2026 sein.
MiniCPM-V 4.6 von Mianbi Intelligence als Open Source: Edge-Modell mit niedrigem Speicherbedarf
Mianbi Intelligence hat das Edge-Multimodal-Modell MiniCPM-V 4.6 als Open Source veröffentlicht. Mit nur 1,3 Milliarden Parametern übertrifft es in Standard-Benchmarks Konkurrenten wie Qwen3.5-0.8B und belegt den ersten Platz unter den Modellen derselben Größe weltweit.
Vor dem Hintergrund steigender Speicherpreise benötigt MiniCPM-V 4.6 nur 6 GB Speicher, um flüssig auf Edge-Geräten zu laufen. Der Inferenzdurchsatz ist 1,5-mal höher als bei Konkurrenzmodellen derselben Größe, während die Rechenkosten nur 1/43 betragen. Das Modell verwendet die LLaVA-UHD v4-Technologie, die den Rechenaufwand für die Bildkodierung um 50% reduziert.
MiniCPM-V 4.6 unterstützt iOS, Android und HarmonyOS und erweitert so die Nutzerbasis. Dies eröffnet neue kommerzielle Möglichkeiten für den cloud-first KI-Markt, indem multimodale KI-Fähigkeiten mit weniger Parametern und niedrigeren Hardware-Anforderungen auf mobile Geräte gebracht werden.
Ant Group Ring-2.6-1T als Open Source veröffentlicht und auf OpenRouter verfügbar
Ant Group BaiLing hat ihr trillionenparametriges Denkmodell Ring-2.6-1T als Open Source veröffentlicht. Die Gewichte sind seit dem 15. Mai auf Hugging Face und ModelScope verfügbar. Das Modell hat insgesamt eine Billion Parameter, etwa 63 Milliarden aktive Parameter. Es wurde zuvor über OpenRouter als kostenlose API angeboten.
Das Kerndesign von Ring-2.6-1T ist "Denken nach Bedarf" mit einem einstellbaren Reasoning-Effort-Mechanismus, der die Intensitätsmodi "high" und "xhigh" unterstützt. Der xhigh-Modus wird für anspruchsvolle Aufgaben wie Mathematik und Forschung verwendet, um die maximalen Fähigkeiten des Modells freizusetzen.
Im letzten Monat hat BaiLing mehrere Modelle in rascher Folge veröffentlicht, die alle auf Token-Effizienz abzielen, mit dem Ziel, mit weniger Token eine höhere Qualität der Ausgabe zu erzielen.
NVIDIA Open Source Weltmodell SANA-WM mit 2,6 Mrd. Parametern: 720p-Video in einer Minute
Das NVIDIA NVlabs-Team hat das effiziente Weltmodell SANA-WM als Open Source veröffentlicht. Mit 2,6 Milliarden Parametern ist es das erste leichte Open-Source-Weltmodell, das nativ minutenlange (60 Sekunden) Videogenerierung unterstützt. Es kann aus einem statischen Bild und einer Kameratrajektorie ein kontrolliertes langes Video in 720p-Auflösung auf einer einzelnen GPU erzeugen.
Architektonisch verwendet SANA-WM drei wichtige Durchbrüche: einen gemischten linearen Diffusion Transformer zur Reduzierung der Speicherkomplexität bei langen Sequenzen; ein duales Kamerasteuerungssystem für präzise 6-Freiheitsgrad-Trajektorienverfolgung; und eine zweistufige Generierungspipeline mit einem 17B-Korrekturmodell zur Verbesserung der zeitlichen Konsistenz langer Videos.
Besonders beeindruckend ist die Effizienz: Das gesamte Training verwendete nur 213.000 öffentliche Videoclips und wurde auf 64 H100-GPUs in 15 Tagen abgeschlossen. Aus Branchensicht werden Weltmodelle normalerweise als Parameterwettlauf angesehen. SANA-WM zeigt mit 2,6B Parametern auf einer einzelnen Karte eine gute visuelle Qualität und höhere Kontrollgenauigkeit, was die technische Machbarkeit von Weltmodellen verbessert.
Thinking Machines Lab veröffentlicht natives multimodales "Interaktionsmodell"
Thinking Machines Lab hat eine Forschungsvorschau seines ersten Interaktionsmodells veröffentlicht: TML-Interaction-Small, ein 276B-Mixture-of-Experts-Modell (12B aktive Parameter), das speziell für Echtzeit-Multimodal-Mensch-Maschine-Kollaboration entwickelt wurde.
Die "Interaktion" zeigt sich darin, dass das Modell während des Sprechens generieren und aktiv das Wort ergreifen kann. Interaction verarbeitet Audio-, Video- und Texteingabeströme kontinuierlich in Blöcken von 200 ms. Das System besteht aus zwei Schichten: Das oberflächliche Interaktionsmodell kommuniziert kontinuierlich bidirektional mit dem Benutzer, während das darunterliegende Hintergrundmodell für tiefes Denken und lange Aufgabenketten zuständig ist. Beide arbeiten parallel für Echtzeitinteraktion und Hintergrunddenken.
Nous Research stellt Token Superposition Training vor: Vorabtraining 2-3x schneller ohne Architekturänderung
Das Team von Nous Research hat kürzlich die Trainingsmethode Token Superposition Training (TST) vorgestellt. Die Methode ändert weder die Modellarchitektur, den Tokenizer, den Optimierer noch die Parallelisierungsstrategie, sondern passt lediglich die Token-Darstellung und das Vorhersageziel in der frühen Phase des Vorabtrainings an, wodurch die LLM-Vorabtrainingsgeschwindigkeit um etwa das 2,5-fache gesteigert werden kann. Am Beispiel eines 10B-MoE-Modells kann TST bei gleichen FLOPs eine bis zu 2,5-fache effektive Beschleunigung erreichen.
TST durchläuft zwei Phasen: In der effizienten Überlagerungsphase werden mehrere aufeinanderfolgende Token zu einem Set zusammengefasst und mit einem Multi-Hot-Kreuzentropieziel trainiert; in der zweiten Phase wird zum Standardtraining zurückgekehrt.
Die Methode wurde über einen weiten Bereich von 270 Millionen bis 10 Milliarden Parametern validiert und zeigt robuste Leistung. TST optimiert effektiv die Datennutzungseffizienz, indem es den Rechenaufwand konstant hält. Angesichts des abnehmenden Grenznutzens einfacher GPU-Stapel bietet TST einen schmerzlosen Beschleunigungsansatz für kostengünstiges Vorabtraining.
Anwendungen
DeepSeek führt Chathistorie-Suche ein – App 2.1.0 im A/B-Test
DeepSeek hat kürzlich in der App-Version 2.1.0 (213) eine Suchfunktion für Chathistorien im A/B-Test eingeführt. Benutzer mit der aktualisierten Version sehen oben in der Seitenleiste ein Suchfeld "Chatinhalte durchsuchen". Die Eingabe eines Schlüsselworts ermöglicht die präzise Suche nach historischen Chats, die dieses Wort enthalten, und einen Klick zur genauen Position. Auch die Webversion unterstützt ähnliche Suchvorgänge. Die Funktion unterstützt nur die vollständige Textsuche nach Schlüsselwörtern, es gibt noch Raum für Verbesserungen bei der Sucheffizienz.
Im Branchenvergleich unterstützen Mainstream-KI-Produkte wie ChatGPT und Claude bereits seit langem die Suche nach früheren Konversationen. Für DeepSeek-Vielnutzer war das Fehlen dieser grundlegenden Funktion ein deutliches Manko in der Benutzererfahrung. Mit diesem Update holt DeepSeek auf den Branchenstandard auf. Obwohl es sich noch im A/B-Test befindet und nicht vollständig ausgerollt ist, stellt die Funktion für Power-User, die qualitativ hochwertige Dialog-Assekte ansammeln, eine wichtige Vervollständigung des Erlebnisses dar.
Kimi WebBridge-Erweiterung: Agenten können Browser direkt steuern
Kimi hat eine WebBridge-Browsererweiterung veröffentlicht, die es Agenten ermöglicht, in echten Webumgebungen menschenähnliche Aktionen wie Suchen, Scrollen, Klicken und Eingaben durchzuführen und dabei die Login-Status und Cookies der Benutzer mitzuführen, um Aufgaben automatisch zu erledigen.
Die Erweiterung ist mit Mainstream-Agent-Plattformen wie Claude Code, Cursor, Codex und Hermes kompatibel. Sie läuft im Hintergrund, ohne Maus oder Tastatur zu blockieren.
Praktische Anwendungen umfassen Informationsorganisation, Formularausfüllung, standortübergreifende Datenintegration sowie die Kapselung fester Abläufe in leichte CLI-Tools, die keine großen Modell-Token verbrauchen.
Gleichzeitig belegte Kimi K2.6 im Finance Agent Benchmark V2 mit einer Genauigkeit von 44,87% den ersten Platz unter offenen Gewichten. Der Benchmark erforderte die eigenständige Lokalisierung von Daten in hunderte Seiten umfassenden Finanzberichten und die Durchführung mehrstufiger Berechnungen, was deutlich schwieriger war als die vorherige Generation.
Der Sprung vom "Sprechen" zum "Handeln" ist ein entscheidender Schritt für KI-Agenten. Kimi senkt mit der Browser-Erweiterung auf leichte Weise die technischen Hürden für die Ausführung komplexer Aufgaben in echten Webumgebungen. Zusammen mit der Spitzenposition von Kimi K2.6 im Finance Agent Benchmark baut Kimi einen vollständigen Kreislauf für die Aufgabenausführung von Agenten auf.
Alibaba Qoder Version 1.0: IDE wird zum autonomen Arbeitsplatz
Alibaba Cloud hat Qoder 1.0 veröffentlicht, das Kernprodukt wird von einem traditionellen KI-Coding-Assistenten zu einer autonomen intelligenten Entwicklungsumgebung aufgerüstet.
Entwickler müssen ihre Anforderungen nur noch im neuen "Quest Independent Window" definieren, und die darunterliegende Agent Harness übernimmt den gesamten Prozess von der Anforderungszerlegung über Codierung, Test bis zur Auslieferung, einschließlich plattformübergreifender Multitasking-Ausführung.
Auf technischer Ebene führt Qoder eine strukturierte Aufgabenlaufzeit und Wissensentwicklung ein, die es dem Agenten ermöglicht, basierend auf dem Teamkontext autonom zu entscheiden. Gleichzeitig wurde eine teamweite Wissensdatenbank integriert, die Gedächtnis, Repository-Standards und Wissensbasis kombiniert. Tests zeigen eine Steigerung der Code-Erhaltungsrate um 11% und eine Reduzierung des Token-Verbrauchs um 40%.
Während Copilot-ähnliche Tools typischerweise die persönliche Produktivität steigern, stellt sich die Frage, wie diese Effizienz in stabile Teamproduktion umgewandelt werden kann. Qoder's Antwort ist die teamweite Wissensdatenbank und das Experten-Modell, das im Wesentlichen die Erfahrungen und Standards von Top-Entwicklern in eingebaute Verhaltensregeln für den Agenten systematisiert.
Derzeit bedient die gesamte Qoder-Produktlinie weltweit über 5 Millionen Benutzer, mit einer ARR von über 60 Millionen US-Dollar. Zusammen mit dem letzten Monat veröffentlichten digitalen Mitarbeiter QoderWake baut Alibaba Cloud eine vollständige Produktmatrix auf, die von der persönlichen Codierung bis zur Automatisierung von Kernprozessen in Unternehmen reicht.
OpenAI startet DeployCo und Daybreak: Hilfe für Unternehmen bei der Integration von KI-Systemen in die Produktion
Die unternehmenseitige Bereitstellung wird zum neuen Fokus des KI-Wettbewerbs. OpenAI hat die Gründung der OpenAI Deployment Company angekündigt, mit einer Anfangsinvestition von über 4 Milliarden US-Dollar und einer Bewertung von 10 Milliarden US-Dollar. DeployCo verfolgt ein einzigartiges Betriebsmodell: Es entsendet etwa 150 führende Bereitstellungsingenieure in die Organisationen der Kunden, um bei der tiefen Integration von KI-Modellen in vorhandene Daten, Tools, Berechtigungssysteme und Geschäftsabläufe zu helfen.
Für Unternehmen hat OpenAI außerdem das Software-Sicherheitsverteidigungsprogramm Daybreak eingeführt, das als Konkurrenz zu Anthropics Glasswing-Projekt dient. Das Programm integriert OpenAI-Modelle, Codex-Sicherheitsagenten sowie Fähigkeiten mehrerer Sicherheitspartner wie Intel, Cisco und CrowdStrike in den Entwicklungsprozess.
Cisco veröffentlichte letztes Jahr den "Artificial Intelligence Readiness Index 2025", der ergab, dass weltweit nur etwa 13% der Unternehmen als "vollständig bereit für KI" gelten, in der Asien-Pazifik-Region sind es nur etwa 11%. Dies erklärt die Notwendigkeit von DeployCo und den Sicherheitsprogrammen: Sie sollen die große Lücke zwischen technischen Demonstrationen und der betrieblichen Umsetzung schließen.