最佳实践 #GPT-5.6 #Prompt工程 #LLM评估 #系统提示词 #AI Agent #回归测试 #OpenAI

"GPT-5.6 精简 Prompt：用 Eval 安全删指令"

一套可回滚的 GPT-5.6 Prompt 删减实验方法：逐组删除指令，用同一套 Eval 守住质量、权限、证据和输出契约。

Administrator Published on 2026-07-26

调研 #AI飞行控制 #无人机安全 #Drone-Bench #Project Pilot #DARPA #F-16 VENOM #AI Agent #Safety Case

AI 接管飞行：从能力演示到安全论证

Drone-Bench 与 AI 控制 F-16 展示了能力进步，也暴露了自主飞行获得信任前必须补齐的证据链。

Administrator Published on 2026-07-25

最佳实践 #GEPA #optimize_anything #LLM优化 #评估器 #Prompt优化 #AI Agent #Reward Hacking #Harness Engineering

GEPA：当评估器成为编程接口

GEPA optimize_anything 把评估器变成 prompt、代码、Agent 和配置的稳定接口。本文给出生产级设计与验证方法。

Administrator Published on 2026-07-25

解读 #OpenAI Presence #企业AI #AI Agent #Agent治理 #人工升级 #Agent评测 #AI运营

OpenAI Presence：企业 Agent 平台的责任

OpenAI Presence 把策略、批准动作、仿真、评测、人工升级和受控更新连成生产闭环。本文拆解平台应该负责什么，以及企业不能外包哪些控制权。

Administrator Published on 2026-07-24

最佳实践 #AI Agent #数学证明 #证明验证 #多 Agent #AI4Math #Codex #形式化验证

数学 Agent 的双循环协议：把开放探索与可信知识分开

一套可落地的数学 Agent 工作流：用持久状态、敌意审计、盲重构和证据晋升，把开放探索转化为可信知识。

Administrator Published on 2026-07-24

最佳实践 #AI Agent #Sandbox #沙箱 #状态管理 #持久化 #快照 #Agent基础设施 #安全

AI Agent Sandbox 状态模型：什么会留下

AI Agent Sandbox 的持久化语义取决于生命周期动作。本文用五层状态模型核验文件、内存、快照、外部存储、连接与副作用。

Administrator Published on 2026-07-23

最佳实践 #AI Agent #领域特定语言 #LLM #Agent可靠性 #DSL #可验证性 #软件架构

"AI Agent 什么时候需要自己的 DSL：一套最小决策框架"

"判断 AI Agent 何时需要领域特定语言，何时 JSON Schema 已经够用，并用最小 DSL 架构建立可验证的执行边界。"

Administrator Published on 2026-07-20

最佳实践 #MCP #MCP Elicitation #AI Agent #Human in the Loop #Agent安全 #OAuth #Model Context Protocol

MCP Elicitation：把 Agent 的暂停、追问与恢复变成协议能力

MCP Elicitation 把工具执行中的人工决策变成可恢复的协议状态。本文讲清 form、URL、安全边界、状态持久化与重试设计。

Administrator Published on 2026-07-19

洞察 #OpenAI #PwC #AI Agent #企业财务 #CFO #财务规划 #Harness Engineering #AI转型

"OpenAI 与PwC CFO联盟：AI Agent如何重塑企业预算与预测财务职能"

当OpenAI与PwC联手打造CFO联盟时，他们押注的是一个更深层趋势：企业财务的瓶颈已从计算速度迁移到了判断速度。AI Agent不是在替代CFO，而是在放大CFO。

Administrator Published on 2026-05-15

解读 #Anthropic #Claude #AI Agent #自主交易 #Project Deal #AI 经济学 #Agent 安全

"Project Deal：Anthropic 让 Claude 代替 69 名员工自主交易的实验全记录"

"Anthropic 开展了一项为期一周的实验，让 Claude 在 4 个平行市场中自主交易。Opus Agent 卖出商品的价格比 Haiku Agent 高出 70%。无论是 Agent 还是人类，都未察觉其中存在的问题。"

Administrator Published on 2026-05-03

Menu

All Tags

"GPT-5.6 精简 Prompt：用 Eval 安全删指令"

AI 接管飞行：从能力演示到安全论证

GEPA：当评估器成为编程接口

OpenAI Presence：企业 Agent 平台的责任

数学 Agent 的双循环协议：把开放探索与可信知识分开

AI Agent Sandbox 状态模型：什么会留下

"AI Agent 什么时候需要自己的 DSL：一套最小决策框架"

MCP Elicitation：把 Agent 的暂停、追问与恢复变成协议能力

"OpenAI 与PwC CFO联盟：AI Agent如何重塑企业预算与预测财务职能"

"Project Deal：Anthropic 让 Claude 代替 69 名员工自主交易的实验全记录"

"超越 Claude：Anthropic 2026 完整产品矩阵解析"

"Beyond Claude: Anthropic's Full Product Stack in 2026 — The Complete Map"

Harness Engineering 完全指南：从工业革命到 AI Agent 的约束系统设计

Klarna 的 AI 赌局：省下 6000 万美元后悄悄回调的完整时间线

"DeepMind 2026 模型生态全景：Gemini、Veo、Lyria、Genie 与 Robotics 的技术架构解析"

"AI 的绝望是安静的：Anthropic 情绪向量论文解读"

Klarna's AI Gamble: From $60M in Savings to a Quiet Reversal — The Complete Timeline

MCP vs CLI：为什么命令行正在赢得 AI Agent 的接口之争

"Agent Cloud 架构解析：Cloudflare 和 OpenAI 为什么押注分布式 AI 推理"

"AI 会替代你的工作吗？一个四维度自评框架（不是又一份安全职业清单）"