AI资讯

阿里WebShaper发布!GAIA碾压Claude 3.5 Sonnet、GPT-4o

2025-07-31

阿里通义实验室(Tongyi Lab)近日重磅推出WebAgent系列的第四款开源工具——WebShaper,这一突破性框架以其创新的“形式化驱动”信息检索范式引发行业热议。据AIbase从社交媒体及相关渠道获悉,WebShaper不仅在GAIA基准测试中取得60.19的高分,超越了Claude3.5Sonnet和GPT-4o,还通过全新的数据生成方法显著提升了AI在复杂任务中的信息检索与推理能力。

从信息驱动到形式化驱动:范式革新的突破

传统的信息检索(IS)方法多以“信息驱动”为核心,但常面临信息结构与推理逻辑错位、知识覆盖有限的问题,导致AI在处理开放性复杂任务时表现不足。WebShaper引入了“形式化驱动”的全新范式,通过系统化的任务形式化方法,重新定义了数据生成与模型训练流程。

image.png

这一框架的核心在于:通过逻辑清晰的结构化生成方式,确保训练数据的知识结构与推理结构在语义上高度一致。AIbase了解到,WebShaper利用“代理式扩展器”(Agentic Expander)迭代生成并验证问题,确保数据生成过程可控且条理清晰。这种方法不仅提升了数据的质量,还显著增强了模型在复杂信息检索任务中的表现能力。

GAIA评测创佳绩:60.19分领跑开源模型

WebShaper的性能表现令人瞩目。在GAIA基准测试中,基于WebShaper数据集训练的开源模型取得了60.19的高分,超越了业界领先的Claude3.5Sonnet和GPT-4o,树立了新的开源模型标杆。GAIA作为一项专注于评估AI通用能力的基准,涵盖多模态处理、网页浏览及复杂推理等任务,其高难度设计对AI的综合能力提出了严苛要求。

此外,WebShaper在WebWalkerQA基准测试中也取得了52.50的优异成绩,展现了其在网页遍历与信息检索任务中的强大能力。AIbase认为,这一成果不仅证明了WebShaper在技术上的领先性,也为开源AI社区注入了新的活力。

image.png

WebShaper数据集:逻辑驱动的训练新范式

WebShaper的核心创新之一是其数据集生成框架。不同于传统杂乱无章的数据收集方式,WebShaper通过形式化驱动的方法,系统化地生成信息检索任务实例。AIbase获悉,该框架能够根据任务需求生成结构化的训练数据,确保知识与推理逻辑的语义一致性,从而让AI在处理开放性问题时表现更加精准和高效。

例如,WebShaper引入了SailorFog-QA数据集,这是一个高不确定性和高难度的问答基准,通过图采样和信息模糊化技术生成,专为测试模型在复杂场景下的表现而设计。社交媒体反馈显示,开发者对这一数据集的逻辑性和可控性给予高度评价,认为其为AI模型的训练提供了更可靠的基础。

WebAgent生态的持续进化:开源与社区驱动

WebShaper是阿里通义实验室WebAgent系列的最新成果,该系列还包括WebWalker、WebDancer和WebSailor。这些工具共同致力于打造自主化信息检索与处理能力,覆盖学术研究、市场分析到日常查询等多种场景。AIbase注意到,WebAgent项目已在GitHub上获得超过4000次星标,显示出开源社区的广泛关注与支持。[](https://www.kdjingpai.com/en/webagent/)

WebShaper的开源特性进一步推动了社区的创新。开发者可以自由访问代码与部分数据集,通过调整超参数或结合如DUPO算法的强化学习优化模型性能。此外,WebAgent还提供了WebWalkerQA、GAIA等任务的交互式演示,方便用户直观体验模型的强大功能。AIbase预计,随着社区的持续贡献,WebShaper及其相关工具将在更多场景中展现潜力。

未来展望:推动AI迈向通用智能

WebShaper的发布标志着信息检索领域的一次重要进步,其形式化驱动的范式为AI处理复杂任务提供了新的可能性。AIbase了解到,阿里通义实验室计划进一步扩展WebAgent系列的功能,例如优化多模态处理能力、支持更广泛的语言和场景,甚至探索远程访问高性能模型的部署方式。

社交媒体上,开发者对WebShaper的评价普遍积极,认为其“逻辑清晰、性能卓越”,尤其是在处理需要多步推理和跨模态理解的任务时表现突出。AIbase认为,WebShaper不仅提升了开源模型的竞争力,也为通用人工智能(AGI)的发展奠定了重要基础。

结语

阿里通义实验室的WebShaper以其形式化驱动的创新范式和在GAIA基准中的卓越表现,重新定义了信息检索任务的边界。AIbase将持续跟踪WebAgent系列的最新进展,为您带来更多前沿AI技术资讯。让我们共同见证开源AI如何在逻辑驱动与社区协作的推动下,迈向通用智能的新时代!

项目地址:https://github.com/Alibaba-NLP/WebAgent