GPT-5.5 是什么
OpenAI 于 2026 年 4 月 23 日发布 GPT-5.5,博客由 Greg Brockman 署名。内部代号 "Spud"。核心定位:这是自 GPT-4.5 以来 OpenAI 首个完全重新训练的基础模型。GPT-5.0 到 GPT-5.4 共享同一预训练基础,通过后训练迭代(RLHF、指令微调、蒸馏、推理优化)逐步改进。GPT-5.5 从预训练层开始重建。
这个区别很关键。后训练只能优化模型已有的知识,无法创造基础模型从未学过的全新能力。GPT-5.5 在长上下文检索、agentic 编码和数学推理上的跳跃,正是需要新预训练基础才能实现的改进类型,而非仅靠更多 RLHF 就能达到。
定价也反映了定位。标准 API 定价为每百万输入 token $5、输出 token $30,是 GPT-5.4($2.50/$15)的两倍。Batch 和 Flex 定价为 $2.50/$15。Pro 变体专为研究级推理设计,定价 $30/$180。GPT-5.5 现在是市场上最贵的标准前沿模型。
但 OpenAI 声称 GPT-5.5 完成同等任务使用的输出 token 比 GPT-5.4 少约 40%。如果这一说法在生产环境中成立,实际成本增幅更接近 20% 而非 100%。模型在参数量更大的情况下仍匹配 GPT-5.4 的每 token 延迟,说明推理优化工作相当深入。
上下文窗口为输入 1M token、输出 128K。Codex 集成使用 400K 上下文窗口。提供三个变体:Standard、Thinking(可见思维链)和 Pro(最难推理任务)。ChatGPT Plus 订阅者每 3 小时 160 条消息 + 每周 3,000 条 Thinking 消息。ChatGPT Pro $200/月提供无限消息。新推出的 $100 档位提供 5 倍 Codex 使用量,适合需要持续编码 agent 会话的开发者。
以下是完整 benchmark 成绩单。
完整 Benchmark 成绩单
编程基准
| 基准测试 | GPT-5.5 | GPT-5.4 | 变化 | 说明 |
|---|---|---|---|---|
| SWE-bench Verified | 88.7% | 74.9% | +13.8 | 真实 GitHub issue 解决 |
| SWE-bench Pro | 58.6% | 57.7% | +0.9 | 多文件、agent 环境 |
| Expert-SWE(20小时任务) | 73.1% | 68.5% | +4.6 | 长周期工程任务 |
| Terminal-Bench 2.0 | 82.7% | 75.1% | +7.6 | 所有模型中历史最高 |
| HumanEval | ~95%+ | ~95%+ | 已饱和 | 前沿模型对比已失去区分度 |
Agent 工具使用基准
| 基准测试 | GPT-5.5 | Claude Opus 4.7 | 说明 |
|---|---|---|---|
| GDPval(44种职业) | 84.9% | 80.3% | 知识工作自动化 |
| OSWorld-Verified | 78.7% | 78.0% | GUI 自动化,高于人类基线(72.4%) |
| MCP-Atlas | 75.3% | 79.1% | Claude 在工具协议标准上领先 |
| Tau2-bench Telecom | 98.0% | — | 复杂客服工作流 |
| Toolathlon | 55.6% | — | 多工具协调 |
推理基准
| 基准测试 | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| MMLU | 92.4% | — | — | — |
| GPQA Diamond | 93.6% | — | 94.2% | 94.3% |
| FrontierMath T1-3 | 51.7% | 52.4% | 43.8% | — |
| FrontierMath T4 | 35.4% | 39.6% | 22.9% | 16.7% |
| ARC-AGI-2 | 85.0% | — | — | 77.1% |
| HLE(无工具) | 41.4% | 43.1% | 46.9% | — |
长上下文(MRCR v2)
| 上下文范围 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 |
|---|---|---|---|
| 4K-8K | 98.1% | 97.3% | — |
| 128K-256K | 87.5% | 79.3% | 59.2% |
| 256K-512K | 81.5% | 57.5% | — |
| 512K-1M | 74.0% | 36.6% | 32.2% |
| Graphwalks BFS | 45.4% | 9.4% | — |
安全与网络安全
| 基准测试 | GPT-5.5 | GPT-5.4 |
|---|---|---|
| CyberGym | 81.8% | 79.0% |
| 内部 CTF | 88.1% | 83.7% |
| Preparedness 评级 | High(非 Critical) | High(非 Critical) |
GPT-5.5 的统治领域
以下数字应直接影响你的技术选型决策:
Terminal-Bench 2.0 达到 82.7%。 这是该基准测试有史以来的最高分,测试复杂命令行工作流:文件操作、脚本执行、调试和多步骤工具协调。GPT-5.5 领先 Claude Opus 4.7 达 13.3 分,领先 Gemini 3.1 Pro 14.2 分。如果你的用例涉及终端 agent 工作,这是决定性优势。
SWE-bench Verified 达到 88.7%。 从 GPT-5.4 的 74.9% 提升 13.8 分,是 OpenAI 在该基准上单版本最大改进。真实 GitHub issue 解决是目前最具生产相关性的编程基准,GPT-5.5 现在领先所有竞争对手。
FrontierMath Tier 4 达到 35.4%(Pro 39.6%)。 FrontierMath Tier 4 是现存最难的数学推理基准。GPT-5.5 Pro 的 39.6% 是 Claude Opus 4.7(22.9%)的 1.73 倍,是 Gemini 3.1 Pro(16.7%)的 2.37 倍。这不是后训练优化能达到的结果,而是新预训练基础在数学推理前沿真正改善的证据。
MRCR 512K-1M 达到 74.0%。 从 GPT-5.4 的 36.6% 提升至 74.0%,改进幅度 102%。Claude Opus 4.7 在同范围为 32.2%。GPT-5.5 是首款让 1M token 上下文窗口在检索任务上真正可用的 OpenAI 模型。Graphwalks BFS 基准显示 5 倍改进(45.4% vs 9.4%),证实模型能够跨长文档的复杂信息结构进行导航,而非仅将长文档作为平铺文本处理。
GDPval 达到 84.9%。 该基准测试覆盖 44 种职业的真实知识工作。GPT-5.5 领先 Claude Opus 4.7 4.6 分。对于涉及文档分析、数据处理和跨领域知识多步推理的企业自动化用例,这是最具代表性的基准。
GPT-5.5 的短板
诚实分析需要承认差距。
SWE-bench Pro 58.6% vs Claude Opus 4.7 的 64.3%。 尽管 SWE-bench Verified 大幅提升,GPT-5.5 在更难的 Pro 变体上仅提升 0.9 分。Claude Opus 4.7 领先 5.7 分。Claude Mythos Preview(Anthropic 的限制级前沿模型)达到 77.8%。OpenAI 指出部分竞争对手在 SWE-bench Pro 上存在记忆化迹象,但未点名具体模型。该差距真实存在,对构建处理复杂多文件代码库的 agent 团队具有实际意义。
幻觉率达到 86%。 这是最严重的问题。独立评估平台 Artificial Analysis 发现 GPT-5.5 在其测试集上的幻觉率为 86%。Claude Opus 4.7 为 36%,Gemini 3.1 Pro 为 50%。GPT-5.5 比任何竞争对手都知道得更多,但在不确定时,它更可能自信地编造答案,而非承认不确定性。
这是结构性风险,不是小问题。对于法律研究、医学分析、财务报告或任何事实精确性不可妥协的应用,86% 的幻觉率是部署阻碍。使用 GPT-5.5 进行知识工作的团队需要验证流程,将每个事实声明视为可疑,直到独立确认。
16K-64K 上下文小幅退步。 在 16K-64K 范围,GPT-5.5 的 MRCR v2 分数约为 91%,略低于 GPT-5.4 的约 93%。模型优化了两端:极短上下文(4K-8K 达 98.1%)和极长上下文(512K-1M 达 74.0%),中端牺牲了少量性能。对大多数应用此退步不可见,但值得工作负载集中在此范围的团队注意。
HLE(无工具)41.4% vs Claude Opus 4.7 的 46.9%。 Hard Language Evaluation 测试无外部工具的纯推理。Claude Opus 4.7 领先 5.5 分。这表明对于无工具访问的纯推理任务,Claude 仍有优势。
架构转变:为什么这不只是又一次后训练更新
GPT-5.0 到 GPT-5.4 共享同一预训练基础。每个版本通过后训练改进:RLHF、指令微调、蒸馏和推理优化。这是增量模型发布的标准 playbook。
GPT-5.5 打破了这一模式。它是自 GPT-4.5 以来首个完全重新训练的基础模型,agent 原生训练目标嵌入预训练层而非事后添加。
实际含义:后训练只能优化模型已有的知识,无法教授基础模型从未学过的全新能力。长上下文检索 102% 的改进、Terminal-Bench 13.3 分的领先、FrontierMath Tier 4 1.73 倍的优势,都是需要模型在预训练期间学习不同模式才能实现的增益。在 GPT-5.4 基础上进行任何数量的 RLHF 都无法产生这些结果。
OpenAI 还声称 GPT-5.5 使用 NVIDIA GB200/GB300 NVL72 系统训练,这代表了从 GPT-5.0 训练基础设施的显著硬件升级。新硬件、新预训练数据和 agent 原生目标的组合,解释了为什么 GPT-5.5 感觉像是代际转变而非增量发布。
长上下文:1M 窗口终于可用
OpenAI 自 GPT-5.4 起就提供 1M token 上下文窗口。问题从来不是窗口大小,而是窗口内的检索质量。
GPT-5.4 在 512K-1M 范围的 MRCR 分数为 36.6%。这意味着如果你将特定事实埋藏在 700K token 文档中间,GPT-5.4 大约三分之一的时间能找到它。窗口技术上打开了,但对检索依赖任务并不实用。
GPT-5.5 将其提升至 74.0%。在 128K-256K 范围,分数为 87.5%。这些是 OpenAI 首次让长上下文检索真正适用于生产使用的数字。
Graphwalks BFS 结果同样说明问题:45.4% vs GPT-5.4 的 9.4%。该基准测试模型是否能跨大型文档结构跟踪引用和关系,类似于导航代码库或具有大量交叉引用的研究论文。5 倍改进意味着 GPT-5.5 能够实际使用长文档的结构,而非仅将其作为平铺文本处理。
对于实际应用:法律文档审查、跨整个仓库的代码库分析、数百篇论文的研究综合、以及企业知识库查询,都是 GPT-5.4 理论上可能但实践中不可靠的用例。GPT-5.5 让它们变得可行。
唯一注意事项:16K-64K 的退步。如果你的工作负载集中在此范围,请仔细测试。对极端的优化以中端的小幅成本为代价。
GPT-5.5 vs Claude Opus 4.7:决策矩阵
| 评判维度 | GPT-5.5 | Claude Opus 4.7 | 胜出方 |
|---|---|---|---|
| SWE-bench Verified | 88.7% | ~82% | GPT-5.5 |
| SWE-bench Pro | 58.6% | 64.3% | Opus 4.7 |
| Terminal-Bench 2.0 | 82.7% | 69.4% | GPT-5.5 |
| FrontierMath T4 | 35.4% | 22.9% | GPT-5.5 |
| GDPval(44种职业) | 84.9% | 80.3% | GPT-5.5 |
| MCP-Atlas | 75.3% | 79.1% | Opus 4.7 |
| HLE(无工具) | 41.4% | 46.9% | Opus 4.7 |
| OSWorld-Verified | 78.7% | 78.0% | GPT-5.5 |
| 幻觉率 | 86% | 36% | Opus 4.7 |
| 输出价格($/1M) | $30 | $25 | Opus 4.7 |
| 上下文窗口 | 1M / 128K | 200K / 128K | GPT-5.5 |
| LMSYS Chatbot Arena | — | 1504 Elo(#1) | Opus 4.7 |
选择 GPT-5.5 当: 你的主要用例是终端 agent 工作、长文档分析、数学推理,或 SWE-bench Verified 是你生产性能代理的自主编码工作流。1M 上下文窗口和 Terminal-Bench 统治地位使其成为跨大型代码库或文档的 agent 应用的明确选择。
选择 Claude Opus 4.7 当: 你需要知识工作的最低幻觉率、正在构建基于 MCP 的工具集成、任务需要复杂多文件代码库理解(SWE-bench Pro),或你优先考虑人类偏好对齐(LMSYS #1 排名)。36% 的幻觉率 vs GPT-5.5 的 86%,对于事实精确性比原始能力更重要的应用是决定性因素。
Terminal-Bench 差距是 GPT-5.5 最显著的优势:13.3 分不是边际差异。对于构建基于 CLI 的 agent 团队,这是差异化因素。SWE-bench Pro 差距是 Opus 4.7 最显著的优势:在最硬编程基准上领先 5.7 分意味着 Claude 在最复杂工程任务上仍然领先。
GPT-5.5 vs Gemini 3.1 Pro
| 评判维度 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|
| SWE-bench Verified | 88.7% | 78.8% |
| Terminal-Bench 2.0 | 82.7% | 68.5% |
| FrontierMath T4 | 35.4% | 16.7% |
| MRCR 512K-1M | 74.0% | — |
| 输出价格($/1M) | $30 | $12 |
| 上下文窗口 | 1M | 2M |
| 多模态(音频/视频) | 不支持 | 支持(原生) |
Gemini 3.1 Pro 显著更便宜(每百万输出 token $12 vs $30),提供 2M token 上下文窗口和原生音频视频支持。GPT-5.5 在编程、agentic 和推理基准上占统治地位。选择取决于你的应用需要 Gemini 的多模态能力还是 GPT-5.5 的 agentic 性能。
定价与 Token 效率
headline 价格涨幅是 2 倍。实际成本增幅更接近 20%。
OpenAI 声称 GPT-5.5 完成同等任务使用的输出 token 比 GPT-5.4 少约 40%。如果 GPT-5.4 任务需要 1,000 输出 token,按 $15/百万计算成本为 $0.015。同一任务在 GPT-5.5 上需要 600 token,按 $30/百万计算成本为 $0.018。增幅是 20%,不是 100%。
这种效率提升来自更好的推理压缩:GPT-5.5 产生更简洁、结构化的输出,用更少 token 表达相同内容。对于编程任务,模型生成更有针对性的代码,解释性废话更少。
然而,这一效率声明需要在你的具体用例中验证。Token 效率因任务类型而异。对于需要大量推理痕迹或冗长解释的任务,节省可能更小。对于重视简洁性的任务,节省可能更大。
Pro 变体定价 $30/$180,针对研究级工作负载,FrontierMath T4 优势(39.6% vs 标准版 35.4%)证明溢价合理。对于大多数生产应用,标准变体是理性选择。
System Card 揭示了什么
OpenAI 随 GPT-5.5 发布了完整 System Card,值得全文阅读。关键发现:
Preparedness Framework 评级:所有类别均为 High。 生物、化学和网络安全能力均评为 "High",低于会触发额外部署限制的 "Critical" 阈值。GPT-5.5 不具备在无人类干预情况下开发功能性零日漏洞的能力。
网络安全较 GPT-5.4 改善。 CyberGym 分数从 79.0% 提升至 81.8%。内部 CTF 任务从 83.7% 提升至 88.1%。模型在安全任务上比前代更好,但未达到危险程度。
约 200 个早期访问合作伙伴 在正式发布前提供了真实世界反馈。这是 OpenAI 比以往模型更大的早期访问计划,表明部署实践更加谨慎。
HealthBench 评估 测试了医学性能和安全性。结果未公开详细披露,但纳入该基准表明 OpenAI 在安全性评估中认真对待医学用例。
System Card 值得注意的是它没有声称的内容。没有断言 GPT-5.5 代表危险能力的质变。评级与 "High" 范围内的增量改善一致,而非跃升至 "Critical"。
常见问题
GPT-5.5 是什么?
GPT-5.5 是 OpenAI 最新的基础模型,2026 年 4 月 23 日发布。它是自 GPT-4.5 以来首个完全重新训练的基础模型,agent 原生训练目标嵌入预训练层。提供三个变体:Standard、Thinking(可见思维链)和 Pro(研究级推理)。
GPT-5.5 多少钱?
标准 API:每百万输入 token $5,输出 token $30。Batch/Flex:$2.50/$15。Pro:$30/$180。ChatGPT Plus($20/月)包含每 3 小时 160 条消息 + 每周 3,000 条 Thinking 消息。ChatGPT Pro($200/月)提供无限消息。新 $100 档位提供 5 倍 Codex 使用量。
GPT-5.5 与 Claude Opus 4.7 相比如何?
GPT-5.5 在 Terminal-Bench 2.0(+13.3 分)、SWE-bench Verified(+6.7 分)、FrontierMath T4(+12.5 分)和长上下文检索(512K-1M +41.8 分)上领先。Claude Opus 4.7 在 SWE-bench Pro(+5.7 分)、MCP-Atlas(+3.8 分)、HLE(+5.5 分)、幻觉率(36% vs 86%)和输出价格($25 vs $30)上领先。选择取决于你的优先级是 agentic 性能(GPT-5.5)还是事实精确性(Opus 4.7)。
价格涨幅值得吗?
如果你的用例受益于 GPT-5.5 统治的领域:终端 agent、长上下文分析或数学推理,20% 的有效成本增幅(考虑 token 效率后)由能力增益证明合理。如果你的用例是标准文本生成或简单编码辅助,半价 GPT-5.4 是理性选择。
幻觉率问题有多严重?
Artificial Analysis 的 86% 幻觉率是严重问题。它意味着 GPT-5.5 在不确定时自信地编造答案,而非承认无知。对于需要事实精确性的应用(法律、医学、金融),这是需要验证流程的部署风险。Claude Opus 4.7 的 36% 幻觉率对知识工作显著更安全。
GPT-5.5 支持音频和视频吗?
不支持。GPT-5.5 支持文本和图像输入,仅文本输出。音频和视频能力存在于更广泛的 ChatGPT 产品中,但不是模型原生支持。Gemini 3.1 Pro 是唯一主要前沿模型中原生支持音频和视频的产品。
上下文窗口是多少?
输入 1M token,输出 128K。Codex 集成使用 400K。MRCR 分数证实 512K-1M 范围的检索质量现在真正可用(74.0%),相比 GPT-5.4 的 36.6%。
应该从 GPT-5.4 升级吗?
应该,如果你正在构建终端 agent、分析长文档或进行数学推理。Terminal-Bench、长上下文和 FrontierMath 改进是代际性的。不应该,如果你进行简单文本生成或 GPT-5.4 已足够的基础编码。价格涨幅在 token 效率后 modest,但仍然是涨幅。
GPT-5.5 如何与 Codex 集成?
GPT-5.5 驱动下一代 Codex,OpenAI 的编码 agent。约 400 万开发者每周使用 Codex。GPT-5.5 完成同等 Codex 任务使用约 40% 更少 token。集成支持完整 agent 循环:计划、编辑代码、运行工具、观察结果、修复失败、更新文档、重复。
建议
现在升级如果: 你正在构建终端编码 agent、分析超过 256K 的文档,或在前沿进行数学推理。Terminal-Bench 2.0 分数(82.7%)、1M 上下文检索质量(74.0%)和 FrontierMath T4 优势(35.4% vs 22.9%)共同代表了以往任何 OpenAI 模型都不具备的能力。这些不是增量改进,而是全新类别的可行用例。
等待如果: 你使用 GPT-5.4 进行简单文本生成、基础编码辅助,或 86% 幻觉率是阻碍的应用。GPT-5.4 在这些用例上仍然 capable,且价格减半。当你的下一个项目需要 GPT-5.4 无法处理的东西时再升级。
架构上: 为任何处理事实声明的 GPT-5.5 部署构建验证流程。幻觉率不是小问题,而是需要补偿架构的模型结构特征:事实核查层、来源归属要求,以及高风险输出的人工审核。不要在没有这些保障的情况下将 GPT-5.5 部署用于知识工作。
Benchmark 数据清楚地说明了情况。GPT-5.5 在 agentic AI 的关键能力上实现了代际改进:终端工作流、长上下文检索和数学推理。它也是一个由于幻觉率需要比前代更谨慎部署的模型。问题不是 GPT-5.5 是否比 GPT-5.4 更好,而是你的应用能否从其优势中受益,同时缓解其弱点。
如需了解 Claude Opus 4.7 的能力及对比,参见我的 Claude Opus 4.7 深度解析。如需了解对成本敏感工作负载可能更优的中端模型,参见 Claude Sonnet 4.6 分析。