4 月 3 日,
技术核心:DiNA 架构实现“模态内化”
为了打破模态间的隔阂,
-
全模态统一: 无论是文字、图像还是音频,模型都采用同一套参数、注意力机制和损失函数。
-
理解与生成对称: 在统一的数学形式下,预测文字 Token 即为“理解”,预测图像 Token 即为“生成”,两者在训练中表现出显著的协同潜力。
-
极致压缩: 采用 dNaViT 视觉分词器,支持任意分辨率输入,通过 8 层残差向量量化实现高达 28 倍的像素空间压缩,完整保留 OCR、财报解析等任务中的关键细节。
实证性能:离散建模没有“天花板”
-
细粒度感知: 在 OmniDocBench 密集文本场景测试中,性能不仅超越 Qwen3-Omni,更优于专用视觉模型 Qwen3-VL。
-
视觉推理: 在 MathVista 测试中达到 83.1 的领先水平,展现出强大的工业级逻辑能力。
-
跨模态协同: 在保持领先语言能力(C-Eval 86.80)的同时,支持低延迟的并行文本语音生成及可定制的语音克隆。
行业观察:通往物理世界 AI 的基石
长期以来,大模型一直是以语言为中心的系统。而
目前,
