GPT-Rosalind:OpenAI 生命科学前沿推理模型深度解析
2026年4月16日,OpenAI 发布了 GPT-Rosalind。名字取自 Rosalind Franklin,那位用X射线晶体学拍下 DNA "照片51" 却与诺贝尔奖擦肩而过的英国化学家。Franklin 的工作揭示了生命最核心的分子结构,而以她命名的这个模型,承载的野心同样清晰:用 AI 改变生命科学研究的基本方式。
但 GPT-Rosalind 的意义远不止一个命名致敬。它是 OpenAI 成立以来首个面向特定垂直领域的前沿推理模型(frontier reasoning model),标志着这家公司从"一个通用模型打天下"的战略开始转向。
GPT-Rosalind 是什么
首先要澄清一个常见误解:GPT-Rosalind 不是 AlphaFold 的竞品,不是蛋白质结构预测工具。
它的定位更接近一个"研究编排器"。生命科学研究涉及大量工作流:靶点识别、序列设计、实验方案规划、文献综述、数据分析。每一步都需要专业判断,而 GPT-Rosalind 试图在这些步骤之间建立连贯的推理链路,帮助科学家在复杂的实验流程中做出更好的决策。
OpenAI 的官方表述是:"我们认为先进的 AI 可以帮助研究人员在这些工作流中推进,不仅让已有步骤更高效,还能帮助科学家探索更多可能性,发现可能被忽略的关联,更快形成更好的假说。"
这和通用大模型做生物问答有本质区别。通用模型能回答"什么是CRISPR",但面对"基于这个靶点的脱靶效应预测,我应该调整哪段引导序列"这类需要多步推理的问题时,往往力不从心。GPT-Rosalind 被训练来处理后者。
三层技术栈:工具、专业模型、推理编排
理解 GPT-Rosalind 的技术定位,需要看它所处的完整技术栈。当前 AI 在生命科学中的应用形成了一个清晰的三层结构。
第一层是结构预测工具。AlphaFold 3、Chai-1、Boltz-1 等模型负责蛋白质和分子结构的预测。这是基础能力层,回答"这个分子长什么样"。
第二层是专业 ML 模型。涵盖 ADMET 预测(吸收、分布、代谢、排泄、毒性)、药物相互作用建模、基因表达分析等。这些模型针对特定任务训练,能力聚焦但彼此割裂。
第三层才是 GPT-Rosalind 所在的推理编排层。它的角色是协调下方两层工具,将科学家的研究意图翻译成具体的工作流步骤,调用合适的工具,串联结果,形成完整的推理链。
这个架构思路并不新颖。企业级 AI Agent 做的事情本质上一样:LLM 作为"大脑"调用外部工具。GPT-Rosalind 的差异在于,它在生命科学场景下做了深度优化,训练数据、推理策略、工具接口都针对这个领域定制。
基准数据:领先但不碾压
OpenAI 发布了三组基准测试结果,数据值得细看。
BixBench 是一个综合性的生物推理基准。GPT-Rosalind 得分 0.751,GPT-5.4 得分 0.732,GPT-5 得分 0.728,Grok 4.2 得分 0.698,Gemini 3.1 Pro 得分 0.550。GPT-Rosalind 领先最接近的通用模型约 2.6%,优势存在但不算碾压。
LABBench2 更有意思。在 11 项子任务中,GPT-Rosalind 在 6 项上超越了当前最强的通用模型 GPT-5.4,最大的优势出现在 CloningQA(克隆实验问答)任务上。这说明在需要理解实验操作流程的场景中,领域优化的价值确实显著。
Dyno RNA 测试关注 RNA 相关任务。GPT-Rosalind 在预测类任务中达到 95 百分位以上的水平,在生成类任务中约 84 百分位。预测能力明显强于生成,这符合当前 AI 在生物领域的普遍规律:理解和预测已有模式比从头创造新的生物序列要容易得多。
总结这些数字:GPT-Rosalind 在生物推理任务上确实领先通用模型,但差距幅度有限。它的价值更多体现在整合能力和工作流编排上,而不是单点性能的突破。
合作伙伴生态:为什么这些公司愿意参与
GPT-Rosalind 的合作方名单基本覆盖了生物医药产业链的关键节点。
安进(Amgen)是最早的合作伙伴之一。安进高级副总裁 Sean Bruich 的评价很务实:"我们与 OpenAI 的独特合作使我们能够以全新和创新的方式应用其最先进的能力和工具,有望加速我们为患者递送药物的过程。"
Moderna 的参与集中在 mRNA 序列设计和优化。诺和诺德关注代谢疾病领域的靶点发现。Thermo Fisher 带来的是实验仪器和数据生成的生态。Oracle Health 提供临床数据基础设施。NVIDIA 贡献算力和生物计算框架。Benchling 覆盖实验室信息管理。Allen Institute、UCSF、Los Alamos 国家实验室则代表学术和公共研究端。
这个生态布局的策略意图清晰:不是做某个环节的工具,而是成为连接整个药物研发链条的"操作系统"。从靶点发现到临床前研究,从实验设计到数据分析,GPT-Rosalind 试图在每一个需要推理和决策的节点上提供支持。
Life Sciences Codex Plugin:免费工具的策略意义
和模型发布同步,OpenAI 推出了 Life Sciences Codex Plugin,免费开放在 GitHub 上。
这个插件连接了超过 50 个科学数据库,覆盖遗传学、功能基因组学、蛋白质结构、生物化学、临床证据等领域。任何使用 OpenAI Codex 平台的研究者都可以通过它调用这些数据源。
免费提供这件事本身就是一种策略。它降低了 GPT-Rosalind 生态的使用门槛,同时让 OpenAI 成为生命科学 AI 工作流的事实标准入口。当年微软免费提供 Internet Explorer 的逻辑类似:控制入口比控制产品本身更重要。
竞争格局:不止 OpenAI 一家在动
生命科学 AI 的竞争在 2025 到 2026 年间急剧升温。几个关键玩家的进展值得对比。
Isomorphic Labs(DeepMind 旗下)推出了 IsoDDE 模型,在 "Runs N' Poses" 基准上达到 50% 的准确率,而 AlphaFold 3 只有 23%。其结合亲和力预测的 Pearson 相关系数达到 0.85,在分子对接任务上表现出色。
Insilico Medicine 已有超过 10 个 IND(新药临床试验申请)进入管线。核心候选药物 rentosertib 进入 IIa 期临床。其 LFM2-2.6B-MMAI 模型只有 26 亿参数,却在 22 项 ADMET 任务中的 13 项上超越了参数量 10 倍以上的通用模型。与礼来的 2.75 亿美元合作进一步验证了其商业价值。
Recursion 通过 6.88 亿美元收购 Exscientia 建立了庞大的生物数据基础设施,坐拥 65PB 生物图像数据。这个数据量级是绝大多数 AI 公司无法企及的。
Chai Discovery 的 Chai-2 模型在 de novo 抗体设计任务上实现了约 20% 的命中率。此前这类任务的命中率大约是 0.1%,Chai-2 把这个数字提升了约 100 倍。虽然 20% 听起来不高,但在抗体设计这个领域已经是质的飞跃。
Arc Institute 和 NVIDIA 联合开发的 Evo 2 是一个 400 亿参数的基因组基础模型,支持 1Mb 上下文长度,2026 年 3 月发表在 Nature 上。它代表了基因组层面 AI 建模的前沿。
GPT-Rosalind 在这个格局中的定位不是替代上述任何一个,而是做它们之上的编排层。它的竞争壁垒不在于某个具体任务的性能,而在于推理整合能力。
为什么生命科学需要专用 AI
一组数字说明问题。
一款新药从靶点发现到获批上市,平均需要 10 到 15 年。进入临床试验的候选药物中,只有约十分之一最终能上市。超过 3 亿美国人患有罕见病,其中绝大多数缺乏有效治疗方案。
这些数字背后的核心瓶颈不是某个单点技术不够好,而是整个研发流程中存在大量需要跨领域推理的决策节点。靶点选择需要综合遗传学、蛋白质组学、临床数据。实验设计需要平衡可行性、成本和统计功效。数据分析需要理解生物学意义而不只是统计显著性。
通用大模型可以辅助其中某些步骤,但缺乏对整个流程的深度理解。GPT-Rosalind 的价值主张正是填补这个空缺。
安全与访问:比通用模型更谨慎
OpenAI 对 GPT-Rosalind 的访问控制明显比通用模型严格。
模型通过 Trusted Access Program 提供,需要满足三项标准才能获得使用权限(具体标准 OpenAI 未完全公开)。这反映了生命科学领域 AI 模型的双重用途风险:同样的能力既能加速药物研发,也可能被用于设计有害生物制剂。
一个值得注意的承诺是:OpenAI 不会使用客户的研究数据来训练模型。在数据就是核心资产的生命科学领域,这一点至关重要。试想,如果一家制药公司的靶点发现数据被用来训练其他竞争者也能使用的模型,没有企业愿意参与。
更大趋势:垂直领域前沿模型的崛起
GPT-Rosalind 最深层的意义不在于它本身的技术指标,而在于它代表的战略转向。
正如一位行业观察者指出的:"直到现在,OpenAI 的赌注一直是一个通用模型可以同时成为最好的医生、律师、程序员和科学家。Rosalind 是对这个赌注的明确撤退。"
这个转向不仅仅发生在 OpenAI。Anthropic、Google DeepMind 都在探索领域专用模型的路线。背后的逻辑很简单:当通用模型的能力提升开始遇到边际收益递减,深入特定领域做优化成为更高效的路径。
训练方法上也有一些有趣的变化。OpenAI 提到,在 GPT-Rosalind 的训练中引入了反谄媚(anti-sycophancy)机制。通用模型的训练往往倾向于肯定用户的想法,但在生命科学研究中,错误的研究方向代价极高。因此 GPT-Rosalind 被训练来主动拒绝不合理的药物靶点建议,哪怕这可能与用户的直觉相悖。
对中国生物科技产业而言,这个趋势值得重视。国内已有百图生科、晶泰科技、英矽智能等企业在 AI 药物发现领域深耕。垂直领域前沿模型的兴起,意味着竞争的焦点正在从"谁的通用模型更强"转向"谁在特定领域积累更深"。数据壁垒、领域知识、产业合作将成为比模型参数量更关键的竞争要素。
GPT-Rosalind 是一个信号。它标志着 AI 行业开始认真对待"通用"和"专用"之间的权衡。这条路能走多远,取决于领域数据的质量、推理架构的成熟度,以及 AI 公司与生物医药产业能否建立真正的互信。
推荐阅读:此前我们分析过 GPT-5.5 的技术架构和推理能力,其中通用推理模型的技术路线为 GPT-Rosalind 这样的垂直模型提供了基础设施。