极客猿 - 一站式AI灵感库

OpenAI正式发布了GPT-4.1系列模型，该系列包含GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三个模型，均通过API调用，已向所有开发者开放。这些模型在关键功能上提供了类似或更强的性能，同时成本和延迟更低，因此OpenAI将在三个月后（2025年7月14日）弃用GPT-4.5预览版。

image.png|700x477

性能提升

编程能力

SWE-bench Verified测试：GPT-4.1得分为54.6%，比GPT-4o提升21.4%，比GPT-4.5提升26.6%。
Aider多语言差异基准测试：GPT-4.1的得分是GPT-4o的两倍多，甚至比GPT-4.5高出8%。
前端编程：GPT-4.1在创建功能强大且美观的Web应用方面显著优于GPT-4o，人工评分结果显示其网站更受欢迎。

指令遵循

Scale MultiChallenge基准测试：GPT-4.1得分为38.3%，比GPT-4o提升10.5%。
内部指令遵循评估系统：GPT-4.1在困难提示方面的表现优于GPT-4o，尤其在多轮指令遵循方面表现更佳。

长上下文理解

Video-MME基准测试：GPT-4.1在长篇无字幕测试中得分为72.0%，比GPT-4o提升6.7%。
OpenAI-MRCR评估：GPT-4.1在处理上下文长度高达100万个token时表现优异，能够准确提取与任务相关的信息。

视觉理解

图像基准测试：GPT-4.1 mini在多个图像基准测试中表现优于GPT-4o。
Video-MME多模态长上下文理解：GPT-4.1得分为72.0%，高于GPT-4o的65.3%。

模型特点

GPT-4.1

全面超越GPT-4o：在编程、指令遵循和长上下文理解等方面均有显著提升。
支持100万个上下文token：能够处理更长的上下文，适合处理大型代码库或长文档。

GPT-4.1 mini

小型模型性能飞跃：在多项基准测试中超越GPT-4o，延迟降低近一半，成本降低83%。
适合多种任务：在智能评估、编程和多语言编码任务中表现优异。

GPT-4.1 nano

速度最快、成本最低：适合低延迟任务，如分类或自动补全。
性能卓越：在MMLU测试中得分为80.1%，在GPQA测试中得分为50.3%，高于GPT-4o mini。

实际效用与优化

GPT-4.1系列模型不仅在基准测试中表现出色，还注重实际效用。OpenAI与开发者社区密切合作，针对开发者应用最相关的任务优化了这些模型。以下是具体优化方向：

image.png|700x527

编程任务

代码diff格式：更可靠地遵循diff格式，减少无关编辑。
输出token限制：GPT-4.1的输出token限制增加到32,768个，高于GPT-4o的16,384个。

指令遵循

格式遵循：提供自定义格式的指令，如XML、YAML等。
负面指令：避免特定行为，如「不要要求用户联系支持人员」。
有序指令：按顺序执行多条指令。
内容要求：输出包含特定信息的内容。
排序：按特定方式对输出进行排序。
过度自信：在信息不可用时回答「我不知道」。

长上下文处理

多轮共指：能够识别并消除上下文中隐藏的多个「needle」。
Graphwalks评估：在多跳长上下文推理中表现优异。

价格与成本优化

GPT-4.1系列模型在成本和延迟方面实现了显著优化：

中等规模查询成本：比GPT-4o低26%。
GPT-4.1 nano：OpenAI迄今为止最便宜、速度最快的模型。
即时缓存折扣：从50%提升至75%，适用于重复传递相同上下文的查询。
长上下文请求：无需额外付费。

总结

GPT-4.1系列模型在性能、成本和实际效用方面都取得了显著进步，为开发者提供了更强大的工具。OpenAI的这一发布无疑将推动AI技术在各个领域的进一步应用和发展。

# openai # chatgpt # gpt

OpenAI发布GPT-4.1系列模型，性能提升显著且价格更低

性能提升

编程能力

指令遵循

长上下文理解

视觉理解

模型特点

GPT-4.1

GPT-4.1 mini

GPT-4.1 nano

实际效用与优化

编程任务

指令遵循

长上下文处理

价格与成本优化

总结

文章目录