"NVIDIA 工程师如何用 Codex 构建生产级 AI 系统"

Dennis Hannusch 需要一个内部播客录制工具。按 NVIDIA 的隐私合规要求，采购类似 Riverside 的外部软件要走安全审查、数据处理协议、合规检查，周期以周计。然后他把 Codex 指向了这个问题。几个小时后，应用已经跑起来了，视频和音频录制功能全部通过 Codex 桌面端的计算机交互能力自主完成测试。

"我什么都没做，"Hannusch 说。"它完全自主地构建和测试了。"

这听起来像个效率故事。实际上不是。Hannusch 发现的，以及 NVIDIA 现在在 40,000 名拥有 Codex 访问权限的员工中正在经历的，是一个更根本的变化：构建的阈值移动了。以前因为采购摩擦、部署开销或者单纯的工时成本而通不过成本效益分析的项目，现在能过这道坎。当代码生成成本趋近于零，问题从"我们能不能负担得起构建这个"变成了"我们能不能负担得起不构建这个"。

这不是一个关于 AI 让工程师更快的故事。这是一个关于 AI 扩展工程师行动半径的故事，以及当 NVIDIA 这样的公司，把运行这些模型的硬件的设计者，把自家的工具用在自己身上时，学到了什么。

Coding Agents Team：基础设施，不是采纳

NVIDIA 没有简单地分发 Codex 许可证然后期望有机扩散。公司内部有一个 coding agents team，专职帮助全公司工程师在实际开发工作流中有效采纳和使用 AI 工具。这是一个结构性投资：与其把 AI 工具采纳留给个人偏好和自然传播，NVIDIA 建立了专门的职能来确保工具被集成到组织实际的软件交付流程中。

这个模式在企业 AI 部署中已经被反复验证。把 AI 编码工具当作产品来部署的组织，采纳率停留在爱好者层面。在 AI 工具采纳周围构建内部基础设施的组织（包括专职团队、标准化工作流、反馈循环），才能达到企业软件罕见的采纳率。Sea Limited 在做了类似结构性投资后，报告了 87% 的开发者周活跃使用率。

在 NVIDIA，coding agents team 充当工具和工程组织之间的连接组织。他们帮助工程师理解 Codex 的能力边界，识别 AI 辅助能产生最大杠杆的工作流，并把使用模式反馈回工具的配置和部署中。这不是支持职能。这是能力构建职能。

从 MVP 到生产：放大器的实际运作

Hannusch 是 NVIDIA agents team 的高级软件工程师，他一直在用搭载 GPT-5.5 的 Codex 作为复杂工程工作的默认工具。他的经历说明了 AI 放大效应的核心机制：工具不替代工程判断力，它延伸判断力能够到达的距离。

"Codex 搭配 GPT-5.5 自主性高得多，几乎不需要手把手指导，"Hannusch 解释道。"我可以进行长时间会话，经历多次 compaction，它仍然保持高精度，并且能管理好上下文中的工作。它在选择合适的工具和技能方面也非常出色。"

关键词是"多次 compaction"。在长编码会话中，Codex 会定期压缩上下文窗口以在扩展任务中保持连贯性。之前的模型在一两次 compaction 后就会丢失上下文，准确度下降，需要越来越多的人工干预。GPT-5.5 在多次 compaction 周期中保持准确性的能力，意味着人类可以设定方向、退后一步，回来时发现实质性的进展，而不是一堆需要重启的半成品。

这就是从个人贡献者思维到管理者思维在 AI 场景下的映射。Hannusch 定义需要构建什么以及"完成"长什么样。Codex 处理跨越数小时而非数分钟的会话中的执行工作。杠杆不来自打字速度，而来自规格说明的清晰度和验收标准的质量。

他最有代表性的成果说明了这个动态。Hannusch 用 Codex 把一个内部平台从最小可行产品演进到生产就绪状态，提升了可扩展性和可靠性。这是早期模型难以完成的工作：它们可以处理单个任务，但无法保持重构整个系统架构所需的上下文连贯性。差异不在于 GPT-5.5 写出更好的单个函数，而在于它能维持系统级重构所需的互联决策的上下文。

构建阈值的变化

播客录制应用值得仔细看，因为它揭示了 AI 如何改变工程经济学。

NVIDIA 对内部工具有严格的隐私约束。采购处理音视频录制的外部软件需要安全审查、数据处理协议和合规检查，时间以周计。当 Hannusch 意识到可以用 Codex 在几个小时内构建一个等效工具时，计算反转了。构建变得比购买更便宜，还没算上供应商管理的持续成本。

但更有意思的是构建过程中发生的事。通过 Codex 桌面端的计算机交互能力，系统在构建的同时测试了视频和音频录制功能。它点击界面，验证录制是否正确启动和停止，确认音频电平是否可接受，验证端到端工作流。这是自主完成度的体现：AI 自主处理了构建和验证，人类设定边界条件而非执行每个测试步骤。

"Codex 彻底改变了什么值得构建的阈值，"Hannusch 说。这个表述比表面看更精确。他描述的阈值不是生产力指标。它是一个决策阈值：构建某物的预期价值超过其成本的那个点。当这个成本下降一个数量级，一整类以前不经济的项目变得可行了。这些通常不是光鲜的项目。它们是内部工具、流程自动化、一次性数据转换和快速原型，解决了真实问题但从未值得分配一个 sprint。

这是一个更深层转变的实际体现。当代码变得便宜，认知就成了稀缺资源。工程师的价值从"我能多快写完这个"转移到"这是不是应该构建的东西，'应该'意味着什么"。第一个问题关乎执行。第二个问题关乎判断力。AI 放大奖励的是后者。

研究循环的自动化

NVIDIA 的研究团队正在经历一个平行但机制不同的转型。对工程团队来说，Codex 延伸了工程判断力能到达的距离。对研究人员来说，它压缩了假设和证据之间的周期。

NVIDIA 的 AI 研究员 Shaunak Joshi 描述了一个手动编排会非常繁杂的工作流。他把 Codex 指向大量强化学习等领域的研究论文。GPT-5.5 处理整个语料库，追踪论文之间的证据链，生成一个可视化概念连接方式的知识图谱。从这个图谱中，Joshi 识别出值得测试的假设。Codex 随后编写训练脚本，通过 SSH 连接到远程机器学习基础设施，运行实验。

"在运行实验方面，速度提升了 10 倍，"Joshi 说，"因为它能处理整个端到端的机器学习研究工作流。"

10 倍这个数字需要上下文。研究工作流中的速度提升很少来自移除单个瓶颈。它们来自消除交接摩擦：在阅读论文、写代码、配置远程机器、监控训练运行和分析结果之间切换的时间。当一个 agent 能处理整条链路时，研究人员的角色从编排物流转向做关于注意力方向的创造性和战略性决策。

"GPT-5.5 似乎比竞争对手更有创造力，"Joshi 说。"它帮我追踪了整条链上的证据片段，并建议了一个知识图谱，让我看到概念之间如何关联。"

关于创造力的说法值得审视。Joshi 描述的不是人类意义上的创造力（从虚无中生成新想法）。而是跨大量文本综合模式并浮现非显而易见的连接的能力。这是一种特定形式的放大：模型扩展了研究者的阅读能力和模式识别范围，覆盖了一个手动处理需要数天的语料库。创造性的跳跃，决定哪些连接有意义、哪些假设值得追求，仍然在人类这边。

这种分工直接映射到认知即资产的公理。研究者的持久价值不在于运行实验的脚本或 SSH 连接远程机器的物流。它在于对哪些研究方向有前景、哪些证据链值得追踪、数据中哪些异常值得深入调查的判断力。Codex 自动化了物流。研究者投资于判断力。

Python 到 Rust，快 20 倍

Joshi 描述的最具体的效率提升之一是跨语言代码迁移。

"如果你有一个性能不佳的旧代码库，Codex 在机器翻译方面非常出色，"他说。"很多人把他们的 Python 代码库发给 GPT-5.5，它把它重写成 Rust，性能提升大约 20 倍。"

这在抽象意义上不是新能力。自动代码翻译已经存在多年。变化在于可靠性和范围。早期的翻译工具可以处理语法转换，但在惯用模式、性能特征和语言之间微妙的语义差异上挣扎。GPT-5.5 产出的 Rust 代码不仅语法正确，而且确实快 20 倍，说明它理解两种语言的性能语义，不只是语法。

对 NVIDIA 这样的组织来说，性能就是产品，这个能力有战略意义。以前太贵不值得重写的遗留 Python 代码库变成了迁移候选。瓶颈从"我们负担得起重写这个吗"转移到"我们能不能验证重写后的版本是正确的"。这是验证问题，不是生产问题，而恰恰是人类工程判断力最有价值的地方。

4 万名工程师的基础设施

NVIDIA 已将 Codex 访问扩展到 40,000 名员工，覆盖工程、产品、法务、市场、财务、销售、人力资源、运营和开发者项目。部署运行在 NVIDIA 自己的 GB200 NVL72 和 GB300 基础设施上，由零数据保留政策约束。Agent 通过命令行界面和 Skills 以只读权限访问生产系统，这是 NVIDIA 用来运行全公司自动化工作流的同一套 agentic 工具包。

基础设施选择不是偶然的。GB200 NVL72 相比前一代系统，每百万 token 的成本低 35 倍，每兆瓦每秒 token 输出高 50 倍。这些经济学参数让前沿模型推理在企业规模上可行，而正是这个问题阻止了大多数大型组织在公司范围内部署 agentic AI 工具。

零数据保留政策解决了另一个主要障碍：信任。NVIDIA 的工程师在生产代码库和专有研究上使用 Codex。OpenAI 不保留这些数据的保证不是锦上添花。它是创造最大价值的深度自主会话的前提条件。如果工程师必须清理每个 prompt 以避免泄露知识产权，工具的实用性将大打折扣。

三个可迁移的实践

NVIDIA 的经验提供了三个超越特定公司或工具的教训。

阈值比速度更重要。 研究工作流 10 倍提速令人印象深刻，但更深层的变化是以前被认为不经济的项目现在被构建了。衡量 AI 编码工具的影响时，关注新出现了什么能力，而不仅仅是在现有任务上节省了多少时间。

自主性需要信任基础设施。 Codex 处理 compaction、工具选择和自测试的长自主会话，只有在周围的基础设施支持时才有效。零数据保留策略、只读生产访问、SSH 集成和计算机交互能力不是功能特性。它们是创造真正杠杆的那种深度自主性的前提条件。

判断力能复利，执行不能。 从 Codex 中获得最大价值的研究者和工程师不是写最好 prompt 的人。是对自己领域有最深刻理解、对成功标准有最清晰定义、有纪律去定义边界而非微管理执行的人。工具放大这些品质。它也放大这些品质的缺失。

Hannusch 总结了方向："我们只是触及了它能力的表面。我很兴奋能继续构建真实系统，看看它还能走多远。"

这里的表面，是地球上技术要求最高的公司之一的 40,000 名工程师。表面之下，是工程判断力如何转化为可运行系统的重新配置，以及当这个转化的成本趋向于零时的预览。

FAQ

什么是 Codex，NVIDIA 如何使用它？

Codex 是 OpenAI 的 agentic 编码应用，由 GPT-5.5 驱动。NVIDIA 将其作为复杂工程工作和端到端机器学习研究工作流的默认工具。超过 40,000 名 NVIDIA 员工有 Codex 访问权限，运行在 NVIDIA 自有的 GB200 和 GB300 基础设施上，采用零数据保留策略。

GPT-5.5 对 NVIDIA 工程师使用 Codex 有什么改进？

GPT-5.5 支持更长的自主会话，经历多次上下文压缩仍保持准确度。NVIDIA 工程师报告它能发现以前模型遗漏的 bug，自主选择合适的工具，并处理从假设生成到实验执行的端到端工作流。研究团队报告运行 ML 实验的速度提升了 10 倍。

NVIDIA 用 Codex 构建了哪些生产系统？

NVIDIA 的 coding agents team 用 Codex 将一个内部平台从 MVP 演进到生产就绪状态，提升了可扩展性和可靠性。团队还在几个小时内构建了一个类似 Riverside 的内部播客录制应用，Codex 通过计算机交互自主测试了视频和音频录制功能。

NVIDIA 如何确保 Codex 的数据安全？

NVIDIA 的 Codex 部署受零数据保留政策约束。Agent 通过命令行界面以只读权限访问生产系统。系统运行在 NVIDIA 自有的硬件基础设施上，同时提供性能和控制。

参考资料

OpenAI, "How NVIDIA engineers and researchers build with Codex," May 12, 2026. https://openai.com/index/nvidia/
NVIDIA Blog, "OpenAI's New GPT-5.5 Powers Codex on NVIDIA Infrastructure," April 23, 2026. https://blogs.nvidia.com/blog/openai-codex-gpt-5-5-ai-agents/
StartupHub.ai, "NVIDIA Touts Codex GPT-5.5 Gains," May 2026. https://www.startuphub.ai/ai-news/artificial-intelligence/2026/nvidia-touts-codex-gpt-5-5-gains

Menu

Share

"NVIDIA 工程师如何用 Codex 构建生产级 AI 系统"

Coding Agents Team：基础设施，不是采纳

从 MVP 到生产：放大器的实际运作

构建阈值的变化

研究循环的自动化

Python 到 Rust，快 20 倍

4 万名工程师的基础设施

三个可迁移的实践

FAQ

参考资料

Comment

"超越 Claude：Anthropic 2026 完整产品矩阵解析"

"Beyond Claude: Anthropic's Full Product Stack in 2026 — The Complete Map"

Harness Engineering 完全指南：从工业革命到 AI Agent 的约束系统设计

Klarna 的 AI 赌局：省下 6000 万美元后悄悄回调的完整时间线

"DeepMind 2026 模型生态全景：Gemini、Veo、Lyria、Genie 与 Robotics 的技术架构解析"

"AI 的绝望是安静的：Anthropic 情绪向量论文解读"

Klarna's AI Gamble: From $60M in Savings to a Quiet Reversal — The Complete Timeline

MCP vs CLI：为什么命令行正在赢得 AI Agent 的接口之争

"Agent Cloud 架构解析：Cloudflare 和 OpenAI 为什么押注分布式 AI 推理"

"AI 会替代你的工作吗？一个四维度自评框架（不是又一份安全职业清单）"