Meta人工智能研究团队(FAIR)近日公开发布五项前沿研究成果,标志着AI感知领域的重大突破。这些开源项目从视觉编码器到3D空间理解,再到协作式推理框架,共同构建了通向高级机器智能(AMI)的关键路径,为未来AI如何理解和感知世界带来全新可能。

"机器之眼"再升级:Meta感知编码器引领视觉理解新标准
Meta感知编码器(Perception Encoder)作为大规模视觉编码器,在图像和视频处理领域显示出卓越能力,成为AI系统的"眼睛"。该编码器能够连接视觉与语言,同时在各种复杂甚至对抗性环境下保持高稳定性。它不仅能识别广泛的视觉概念,还能捕捉细微差别,如辨别海底隐藏的黄貂鱼,识别图像背景中的小金翅雀,或在夜视野生动物摄像机中捕捉飞奔的刺豚。
在零样本分类和检索任务上,感知编码器的表现超越了所有现有开源和专有模型。更令人瞩目的是,这些强大的感知能力成功迁移到下游语言任务中。当与大型语言模型对齐后,该编码器在图像和视频问答、字幕生成、文档理解等传统上对语言模型具有挑战性的任务上表现出色,如判断物体的前后位置或相机绕物体的运动方向。
感知语言模型:全面提升视觉理解能力
Meta同时发布了感知语言模型(PLM),这是一个开放、可复现的视觉-语言模型,专为解决复杂视觉识别任务而设计。研究团队使用大规模合成数据和开放视觉-语言理解数据集进行训练,未依赖外部模型进行蒸馏。
针对现有视频理解数据的不足,团队收集了250万个人工标注的细粒度视频问答和时空标题样本,形成目前同类数据集中规模最大的数据资源。PLM基于这一庞大数据集训练,结合人工标注和合成数据,创建了一个健壮、准确且完全可复现的模型,提供10亿、30亿和80亿参数的不同版本,特别适合透明的学术研究。
此外,Meta还推出了新基准PLM-VideoBench,聚焦现有基准所忽视的任务:细粒度活动理解和时空定位推理。这一开放大规模数据集、具挑战性的基准和强大模型的组合,将助力开源社区构建更强大的计算机视觉系统。
Meta Locate3D:开启开放词汇对象定位新纪元
想象一下,当你对机器人说"给我拿桌上的红杯子",机器人能精准完成任务。Meta Locate3D正是为实现这一目标而生的端到端模型,能够准确定位来自开放词汇查询的物体。该模型直接处理来自RGB-D传感器的3D点云数据,当接收到如"电视柜旁的花瓶"等文本提示时,会考虑空间关系和上下文,识别特定物体实例并精确定位。

Meta Locate3D由三个关键组件构成:
- 预处理步骤,将2D基础特征提升为3D特征化点云
- 3D-JEPA编码器,预训练编码器接收特征化点云并预测3D世界的上下文化平滑表示
- Locate3D解码器,处理3D-JEPA表示和语言查询,生成指定物体的边界框和掩码
研究团队还发布了一个基于参照表达式的物体定位新数据集,包含跨ARKitScenes、ScanNet和ScanNet++三个广泛使用数据集的13万个语言标注,覆盖1,346个场景,有效将现有数据标注量翻倍。Meta Locate3D通过使机器人准确理解周围环境并将理解基于自然语言,支持更复杂和高效的机器人系统开发,包括Meta PARTNR项目,标志着智能自主机器追求道路上的重要一步。
动态字节潜在变换器:重新定义效率与鲁棒性标准
应广泛需求,Meta发布了80亿参数的动态字节潜在变换器(Dynamic Byte Latent Transformer)模型权重。这项研究是字节级语言模型架构的重大进步,首次实现了与传统基于分词的语言模型相匹配的大规模性能,同时提高了推理效率和显著改善了鲁棒性。
动态字节潜在变换器架构在各种任务中表现超越基于分词器的模型,平均鲁棒性优势达7个百分点(在扰动HellaSwag上),在CUTE令牌理解基准的任务上优势高达55个百分点。这凸显了该技术重新定义语言模型效率和可靠性标准的潜力,为传统分词方法提供了有力替代方案。
协作推理器:通过合成对话实现自我提升的社交智能体
人类合作往往能取得更强大的成果。Meta的协作推理器(Collaborative Reasoner)框架旨在评估和提高大型语言模型的协作推理技能,这是构建协作社交智能体的重要一步。想象一个能帮助理解困难作业或准备工作面试的智能体,这类协作除了解决问题外,还需要有效沟通、提供反馈、同理心和心智理论等社交技能。
协作推理器包含一套目标导向任务,需要两个智能体通过多轮对话完成多步推理。这些任务和指标要求智能体在解决方案上产生分歧,说服伙伴接受正确解决方案,并最终作为团队就最佳解决方案达成一致。
评估显示,当前模型无法一致地利用协作来实现更好的任务表现。为改善语言模型的协作推理能力,Meta提出了使用合成交互数据的自我提升方法,即语言模型智能体与自身协作。为了大规模生成此类数据,团队开发了一个名为Matrix的多功能高性能模型服务引擎。在数学(MATH)、科学(MMLU-Pro、GPQA)和社会推理(ExploreToM、HiToM)任务上,该方法的性能比同等单一智能体的思维链表现提高了高达29.4%。
开放创新,加速AI生态发展
通过广泛开放这五项研究成果,Meta FAIR团队旨在为研究社区提供便捷访问,促进AI开放生态系统发展,加速进步和发现。这些模型、基准和数据集专注于感知能力,帮助机器以人类般的智能和速度获取、处理和解释感官信息,为实现高级机器智能铺平道路。
随着这些技术的不断成熟和应用,我们可以期待AI系统将具备更强大的视觉理解能力、更精确的3D空间感知以及更自然的协作互动能力,为人机协作和智能应用开辟崭新未来。
官方介绍:
https://ai.meta.com/blog/meta-fair-updates-perception-localization-reasoning/