Administrator
Published on 2026-04-26 / 4 Visits
0
0

"GPT-5.5 技术深度解析:OpenAI 最新模型如何在编程与推理领域实现新突破"

GPT-5.5 是什么

OpenAI 于 2026 年 4 月 23 日发布 GPT-5.5,博客由 Greg Brockman 署名。内部代号 "Spud"。核心定位:这是自 GPT-4.5 以来 OpenAI 首个完全重新训练的基础模型。GPT-5.0 到 GPT-5.4 共享同一预训练基础,通过后训练迭代(RLHF、指令微调、蒸馏、推理优化)逐步改进。GPT-5.5 从预训练层开始重建。

这个区别很关键。后训练只能优化模型已有的知识,无法创造基础模型从未学过的全新能力。GPT-5.5 在长上下文检索、agentic 编码和数学推理上的跳跃,正是需要新预训练基础才能实现的改进类型,而非仅靠更多 RLHF 就能达到。

定价也反映了定位。标准 API 定价为每百万输入 token $5、输出 token $30,是 GPT-5.4($2.50/$15)的两倍。Batch 和 Flex 定价为 $2.50/$15。Pro 变体专为研究级推理设计,定价 $30/$180。GPT-5.5 现在是市场上最贵的标准前沿模型。

但 OpenAI 声称 GPT-5.5 完成同等任务使用的输出 token 比 GPT-5.4 少约 40%。如果这一说法在生产环境中成立,实际成本增幅更接近 20% 而非 100%。模型在参数量更大的情况下仍匹配 GPT-5.4 的每 token 延迟,说明推理优化工作相当深入。

上下文窗口为输入 1M token、输出 128K。Codex 集成使用 400K 上下文窗口。提供三个变体:Standard、Thinking(可见思维链)和 Pro(最难推理任务)。ChatGPT Plus 订阅者每 3 小时 160 条消息 + 每周 3,000 条 Thinking 消息。ChatGPT Pro $200/月提供无限消息。新推出的 $100 档位提供 5 倍 Codex 使用量,适合需要持续编码 agent 会话的开发者。

以下是完整 benchmark 成绩单。

完整 Benchmark 成绩单

编程基准

基准测试 GPT-5.5 GPT-5.4 变化 说明
SWE-bench Verified 88.7% 74.9% +13.8 真实 GitHub issue 解决
SWE-bench Pro 58.6% 57.7% +0.9 多文件、agent 环境
Expert-SWE(20小时任务) 73.1% 68.5% +4.6 长周期工程任务
Terminal-Bench 2.0 82.7% 75.1% +7.6 所有模型中历史最高
HumanEval ~95%+ ~95%+ 已饱和 前沿模型对比已失去区分度

Agent 工具使用基准

基准测试 GPT-5.5 Claude Opus 4.7 说明
GDPval(44种职业) 84.9% 80.3% 知识工作自动化
OSWorld-Verified 78.7% 78.0% GUI 自动化,高于人类基线(72.4%)
MCP-Atlas 75.3% 79.1% Claude 在工具协议标准上领先
Tau2-bench Telecom 98.0% 复杂客服工作流
Toolathlon 55.6% 多工具协调

推理基准

基准测试 GPT-5.5 GPT-5.5 Pro Claude Opus 4.7 Gemini 3.1 Pro
MMLU 92.4%
GPQA Diamond 93.6% 94.2% 94.3%
FrontierMath T1-3 51.7% 52.4% 43.8%
FrontierMath T4 35.4% 39.6% 22.9% 16.7%
ARC-AGI-2 85.0% 77.1%
HLE(无工具) 41.4% 43.1% 46.9%

长上下文(MRCR v2)

上下文范围 GPT-5.5 GPT-5.4 Claude Opus 4.7
4K-8K 98.1% 97.3%
128K-256K 87.5% 79.3% 59.2%
256K-512K 81.5% 57.5%
512K-1M 74.0% 36.6% 32.2%
Graphwalks BFS 45.4% 9.4%

安全与网络安全

基准测试 GPT-5.5 GPT-5.4
CyberGym 81.8% 79.0%
内部 CTF 88.1% 83.7%
Preparedness 评级 High(非 Critical) High(非 Critical)

GPT-5.5 的统治领域

以下数字应直接影响你的技术选型决策:

Terminal-Bench 2.0 达到 82.7%。 这是该基准测试有史以来的最高分,测试复杂命令行工作流:文件操作、脚本执行、调试和多步骤工具协调。GPT-5.5 领先 Claude Opus 4.7 达 13.3 分,领先 Gemini 3.1 Pro 14.2 分。如果你的用例涉及终端 agent 工作,这是决定性优势。

SWE-bench Verified 达到 88.7%。 从 GPT-5.4 的 74.9% 提升 13.8 分,是 OpenAI 在该基准上单版本最大改进。真实 GitHub issue 解决是目前最具生产相关性的编程基准,GPT-5.5 现在领先所有竞争对手。

FrontierMath Tier 4 达到 35.4%(Pro 39.6%)。 FrontierMath Tier 4 是现存最难的数学推理基准。GPT-5.5 Pro 的 39.6% 是 Claude Opus 4.7(22.9%)的 1.73 倍,是 Gemini 3.1 Pro(16.7%)的 2.37 倍。这不是后训练优化能达到的结果,而是新预训练基础在数学推理前沿真正改善的证据。

MRCR 512K-1M 达到 74.0%。 从 GPT-5.4 的 36.6% 提升至 74.0%,改进幅度 102%。Claude Opus 4.7 在同范围为 32.2%。GPT-5.5 是首款让 1M token 上下文窗口在检索任务上真正可用的 OpenAI 模型。Graphwalks BFS 基准显示 5 倍改进(45.4% vs 9.4%),证实模型能够跨长文档的复杂信息结构进行导航,而非仅将长文档作为平铺文本处理。

GDPval 达到 84.9%。 该基准测试覆盖 44 种职业的真实知识工作。GPT-5.5 领先 Claude Opus 4.7 4.6 分。对于涉及文档分析、数据处理和跨领域知识多步推理的企业自动化用例,这是最具代表性的基准。

GPT-5.5 的短板

诚实分析需要承认差距。

SWE-bench Pro 58.6% vs Claude Opus 4.7 的 64.3%。 尽管 SWE-bench Verified 大幅提升,GPT-5.5 在更难的 Pro 变体上仅提升 0.9 分。Claude Opus 4.7 领先 5.7 分。Claude Mythos Preview(Anthropic 的限制级前沿模型)达到 77.8%。OpenAI 指出部分竞争对手在 SWE-bench Pro 上存在记忆化迹象,但未点名具体模型。该差距真实存在,对构建处理复杂多文件代码库的 agent 团队具有实际意义。

幻觉率达到 86%。 这是最严重的问题。独立评估平台 Artificial Analysis 发现 GPT-5.5 在其测试集上的幻觉率为 86%。Claude Opus 4.7 为 36%,Gemini 3.1 Pro 为 50%。GPT-5.5 比任何竞争对手都知道得更多,但在不确定时,它更可能自信地编造答案,而非承认不确定性。

这是结构性风险,不是小问题。对于法律研究、医学分析、财务报告或任何事实精确性不可妥协的应用,86% 的幻觉率是部署阻碍。使用 GPT-5.5 进行知识工作的团队需要验证流程,将每个事实声明视为可疑,直到独立确认。

16K-64K 上下文小幅退步。 在 16K-64K 范围,GPT-5.5 的 MRCR v2 分数约为 91%,略低于 GPT-5.4 的约 93%。模型优化了两端:极短上下文(4K-8K 达 98.1%)和极长上下文(512K-1M 达 74.0%),中端牺牲了少量性能。对大多数应用此退步不可见,但值得工作负载集中在此范围的团队注意。

HLE(无工具)41.4% vs Claude Opus 4.7 的 46.9%。 Hard Language Evaluation 测试无外部工具的纯推理。Claude Opus 4.7 领先 5.5 分。这表明对于无工具访问的纯推理任务,Claude 仍有优势。

架构转变:为什么这不只是又一次后训练更新

GPT-5.0 到 GPT-5.4 共享同一预训练基础。每个版本通过后训练改进:RLHF、指令微调、蒸馏和推理优化。这是增量模型发布的标准 playbook。

GPT-5.5 打破了这一模式。它是自 GPT-4.5 以来首个完全重新训练的基础模型,agent 原生训练目标嵌入预训练层而非事后添加。

实际含义:后训练只能优化模型已有的知识,无法教授基础模型从未学过的全新能力。长上下文检索 102% 的改进、Terminal-Bench 13.3 分的领先、FrontierMath Tier 4 1.73 倍的优势,都是需要模型在预训练期间学习不同模式才能实现的增益。在 GPT-5.4 基础上进行任何数量的 RLHF 都无法产生这些结果。

OpenAI 还声称 GPT-5.5 使用 NVIDIA GB200/GB300 NVL72 系统训练,这代表了从 GPT-5.0 训练基础设施的显著硬件升级。新硬件、新预训练数据和 agent 原生目标的组合,解释了为什么 GPT-5.5 感觉像是代际转变而非增量发布。

长上下文:1M 窗口终于可用

OpenAI 自 GPT-5.4 起就提供 1M token 上下文窗口。问题从来不是窗口大小,而是窗口内的检索质量。

GPT-5.4 在 512K-1M 范围的 MRCR 分数为 36.6%。这意味着如果你将特定事实埋藏在 700K token 文档中间,GPT-5.4 大约三分之一的时间能找到它。窗口技术上打开了,但对检索依赖任务并不实用。

GPT-5.5 将其提升至 74.0%。在 128K-256K 范围,分数为 87.5%。这些是 OpenAI 首次让长上下文检索真正适用于生产使用的数字。

Graphwalks BFS 结果同样说明问题:45.4% vs GPT-5.4 的 9.4%。该基准测试模型是否能跨大型文档结构跟踪引用和关系,类似于导航代码库或具有大量交叉引用的研究论文。5 倍改进意味着 GPT-5.5 能够实际使用长文档的结构,而非仅将其作为平铺文本处理。

对于实际应用:法律文档审查、跨整个仓库的代码库分析、数百篇论文的研究综合、以及企业知识库查询,都是 GPT-5.4 理论上可能但实践中不可靠的用例。GPT-5.5 让它们变得可行。

唯一注意事项:16K-64K 的退步。如果你的工作负载集中在此范围,请仔细测试。对极端的优化以中端的小幅成本为代价。

GPT-5.5 vs Claude Opus 4.7:决策矩阵

评判维度 GPT-5.5 Claude Opus 4.7 胜出方
SWE-bench Verified 88.7% ~82% GPT-5.5
SWE-bench Pro 58.6% 64.3% Opus 4.7
Terminal-Bench 2.0 82.7% 69.4% GPT-5.5
FrontierMath T4 35.4% 22.9% GPT-5.5
GDPval(44种职业) 84.9% 80.3% GPT-5.5
MCP-Atlas 75.3% 79.1% Opus 4.7
HLE(无工具) 41.4% 46.9% Opus 4.7
OSWorld-Verified 78.7% 78.0% GPT-5.5
幻觉率 86% 36% Opus 4.7
输出价格($/1M) $30 $25 Opus 4.7
上下文窗口 1M / 128K 200K / 128K GPT-5.5
LMSYS Chatbot Arena 1504 Elo(#1) Opus 4.7

选择 GPT-5.5 当: 你的主要用例是终端 agent 工作、长文档分析、数学推理,或 SWE-bench Verified 是你生产性能代理的自主编码工作流。1M 上下文窗口和 Terminal-Bench 统治地位使其成为跨大型代码库或文档的 agent 应用的明确选择。

选择 Claude Opus 4.7 当: 你需要知识工作的最低幻觉率、正在构建基于 MCP 的工具集成、任务需要复杂多文件代码库理解(SWE-bench Pro),或你优先考虑人类偏好对齐(LMSYS #1 排名)。36% 的幻觉率 vs GPT-5.5 的 86%,对于事实精确性比原始能力更重要的应用是决定性因素。

Terminal-Bench 差距是 GPT-5.5 最显著的优势:13.3 分不是边际差异。对于构建基于 CLI 的 agent 团队,这是差异化因素。SWE-bench Pro 差距是 Opus 4.7 最显著的优势:在最硬编程基准上领先 5.7 分意味着 Claude 在最复杂工程任务上仍然领先。

GPT-5.5 vs Gemini 3.1 Pro

评判维度 GPT-5.5 Gemini 3.1 Pro
SWE-bench Verified 88.7% 78.8%
Terminal-Bench 2.0 82.7% 68.5%
FrontierMath T4 35.4% 16.7%
MRCR 512K-1M 74.0%
输出价格($/1M) $30 $12
上下文窗口 1M 2M
多模态(音频/视频) 不支持 支持(原生)

Gemini 3.1 Pro 显著更便宜(每百万输出 token $12 vs $30),提供 2M token 上下文窗口和原生音频视频支持。GPT-5.5 在编程、agentic 和推理基准上占统治地位。选择取决于你的应用需要 Gemini 的多模态能力还是 GPT-5.5 的 agentic 性能。

定价与 Token 效率

headline 价格涨幅是 2 倍。实际成本增幅更接近 20%。

OpenAI 声称 GPT-5.5 完成同等任务使用的输出 token 比 GPT-5.4 少约 40%。如果 GPT-5.4 任务需要 1,000 输出 token,按 $15/百万计算成本为 $0.015。同一任务在 GPT-5.5 上需要 600 token,按 $30/百万计算成本为 $0.018。增幅是 20%,不是 100%。

这种效率提升来自更好的推理压缩:GPT-5.5 产生更简洁、结构化的输出,用更少 token 表达相同内容。对于编程任务,模型生成更有针对性的代码,解释性废话更少。

然而,这一效率声明需要在你的具体用例中验证。Token 效率因任务类型而异。对于需要大量推理痕迹或冗长解释的任务,节省可能更小。对于重视简洁性的任务,节省可能更大。

Pro 变体定价 $30/$180,针对研究级工作负载,FrontierMath T4 优势(39.6% vs 标准版 35.4%)证明溢价合理。对于大多数生产应用,标准变体是理性选择。

System Card 揭示了什么

OpenAI 随 GPT-5.5 发布了完整 System Card,值得全文阅读。关键发现:

Preparedness Framework 评级:所有类别均为 High。 生物、化学和网络安全能力均评为 "High",低于会触发额外部署限制的 "Critical" 阈值。GPT-5.5 不具备在无人类干预情况下开发功能性零日漏洞的能力。

网络安全较 GPT-5.4 改善。 CyberGym 分数从 79.0% 提升至 81.8%。内部 CTF 任务从 83.7% 提升至 88.1%。模型在安全任务上比前代更好,但未达到危险程度。

约 200 个早期访问合作伙伴 在正式发布前提供了真实世界反馈。这是 OpenAI 比以往模型更大的早期访问计划,表明部署实践更加谨慎。

HealthBench 评估 测试了医学性能和安全性。结果未公开详细披露,但纳入该基准表明 OpenAI 在安全性评估中认真对待医学用例。

System Card 值得注意的是它没有声称的内容。没有断言 GPT-5.5 代表危险能力的质变。评级与 "High" 范围内的增量改善一致,而非跃升至 "Critical"。

常见问题

GPT-5.5 是什么?

GPT-5.5 是 OpenAI 最新的基础模型,2026 年 4 月 23 日发布。它是自 GPT-4.5 以来首个完全重新训练的基础模型,agent 原生训练目标嵌入预训练层。提供三个变体:Standard、Thinking(可见思维链)和 Pro(研究级推理)。

GPT-5.5 多少钱?

标准 API:每百万输入 token $5,输出 token $30。Batch/Flex:$2.50/$15。Pro:$30/$180。ChatGPT Plus($20/月)包含每 3 小时 160 条消息 + 每周 3,000 条 Thinking 消息。ChatGPT Pro($200/月)提供无限消息。新 $100 档位提供 5 倍 Codex 使用量。

GPT-5.5 与 Claude Opus 4.7 相比如何?

GPT-5.5 在 Terminal-Bench 2.0(+13.3 分)、SWE-bench Verified(+6.7 分)、FrontierMath T4(+12.5 分)和长上下文检索(512K-1M +41.8 分)上领先。Claude Opus 4.7 在 SWE-bench Pro(+5.7 分)、MCP-Atlas(+3.8 分)、HLE(+5.5 分)、幻觉率(36% vs 86%)和输出价格($25 vs $30)上领先。选择取决于你的优先级是 agentic 性能(GPT-5.5)还是事实精确性(Opus 4.7)。

价格涨幅值得吗?

如果你的用例受益于 GPT-5.5 统治的领域:终端 agent、长上下文分析或数学推理,20% 的有效成本增幅(考虑 token 效率后)由能力增益证明合理。如果你的用例是标准文本生成或简单编码辅助,半价 GPT-5.4 是理性选择。

幻觉率问题有多严重?

Artificial Analysis 的 86% 幻觉率是严重问题。它意味着 GPT-5.5 在不确定时自信地编造答案,而非承认无知。对于需要事实精确性的应用(法律、医学、金融),这是需要验证流程的部署风险。Claude Opus 4.7 的 36% 幻觉率对知识工作显著更安全。

GPT-5.5 支持音频和视频吗?

不支持。GPT-5.5 支持文本和图像输入,仅文本输出。音频和视频能力存在于更广泛的 ChatGPT 产品中,但不是模型原生支持。Gemini 3.1 Pro 是唯一主要前沿模型中原生支持音频和视频的产品。

上下文窗口是多少?

输入 1M token,输出 128K。Codex 集成使用 400K。MRCR 分数证实 512K-1M 范围的检索质量现在真正可用(74.0%),相比 GPT-5.4 的 36.6%。

应该从 GPT-5.4 升级吗?

应该,如果你正在构建终端 agent、分析长文档或进行数学推理。Terminal-Bench、长上下文和 FrontierMath 改进是代际性的。不应该,如果你进行简单文本生成或 GPT-5.4 已足够的基础编码。价格涨幅在 token 效率后 modest,但仍然是涨幅。

GPT-5.5 如何与 Codex 集成?

GPT-5.5 驱动下一代 Codex,OpenAI 的编码 agent。约 400 万开发者每周使用 Codex。GPT-5.5 完成同等 Codex 任务使用约 40% 更少 token。集成支持完整 agent 循环:计划、编辑代码、运行工具、观察结果、修复失败、更新文档、重复。


建议

现在升级如果: 你正在构建终端编码 agent、分析超过 256K 的文档,或在前沿进行数学推理。Terminal-Bench 2.0 分数(82.7%)、1M 上下文检索质量(74.0%)和 FrontierMath T4 优势(35.4% vs 22.9%)共同代表了以往任何 OpenAI 模型都不具备的能力。这些不是增量改进,而是全新类别的可行用例。

等待如果: 你使用 GPT-5.4 进行简单文本生成、基础编码辅助,或 86% 幻觉率是阻碍的应用。GPT-5.4 在这些用例上仍然 capable,且价格减半。当你的下一个项目需要 GPT-5.4 无法处理的东西时再升级。

架构上: 为任何处理事实声明的 GPT-5.5 部署构建验证流程。幻觉率不是小问题,而是需要补偿架构的模型结构特征:事实核查层、来源归属要求,以及高风险输出的人工审核。不要在没有这些保障的情况下将 GPT-5.5 部署用于知识工作。

Benchmark 数据清楚地说明了情况。GPT-5.5 在 agentic AI 的关键能力上实现了代际改进:终端工作流、长上下文检索和数学推理。它也是一个由于幻觉率需要比前代更谨慎部署的模型。问题不是 GPT-5.5 是否比 GPT-5.4 更好,而是你的应用能否从其优势中受益,同时缓解其弱点。

如需了解 Claude Opus 4.7 的能力及对比,参见我的 Claude Opus 4.7 深度解析。如需了解对成本敏感工作负载可能更优的中端模型,参见 Claude Sonnet 4.6 分析


Comment