AI资讯

​不卷性能卷“人品”:xAI 发布 Grok 4.20,幻觉率创行业新低

2026-03-13

在 AI 巨头们疯狂堆料、追逐跑分巅峰的当下,马斯克旗下的 xAI 却另辟蹊径,试图解决 AI 领域最令人头疼的“一本正经胡说八道”问题。今日,xAI 正式发布了 Grok4.20Beta。尽管在绝对智力跑分上它仍与顶级梯队保持距离,但在“诚实度”这一关键指标上,它却刷新了行业纪录。

image.png

根据 Artificial Analysis 的最新评测,Grok4.20在推理模式下的智力指数分数为48,虽然落后于和(两者均为57),但其在事实可靠性上的表现极其惊人:

  • 最低幻觉率:在 AA Omniscience 测试中,Grok4.20达到了 78% 的“非幻觉率”,创下历史新高。

  • 知之为知之:该模型在面对无法回答的问题时,不再倾向于编造虚假事实,而是能更准确地承认“我不知道”。这种“诚实”对于严谨的办公和研究场景至关重要。

技术架构:三位一体的 API 矩阵

为了满足不同层级的需求,xAI 此次推出了三种 API 变体:

推理模式(Reasoning):牺牲速度换取深度逻辑思考,是此次打破幻觉记录的核心。

标准模式(Non-reasoning):侧重于快速响应与常规交互。

多智能体模式(Multi-agent):支持多个 AI 实例协同处理复杂任务。

市场策略:加量不加价

除了性能上的独特性,Grok4.20在商业逻辑上也极具攻击性:

  • 海量上下文:支持高达 200万 token 的上下文窗口,能够一次性吞下整本书或海量代码库。

  • 价格优势:其定价定在每百万 token2至6美元之间,不仅比前代 Grok4更便宜,在目前的西方主流模型中也极具竞争力。

Grok4.20的发布反映出 xAI 战略的转变——不再执着于在通往 AGI 的总分跑道上死磕,而是精准切入“企业级可靠性”这一痛点。正如测评机构所言,如果说其他模型是在努力成为“全知全能的先知”,那么 Grok4.20则在努力成为一个“绝不撒谎的助手”。

对于那些对数据准确性有极高要求的用户来说,Grok4.20或将成为除 OpenAI 和谷歌之外的第三个重量级选项。

# AI新词 # xAI # Grok4.20Beta # 诚实度