OpenAI 正在把 Codex 应用变成一个让 AI 代理可以编写代码、测试界面、审查拉取请求、使用应用、记住项目习惯,并在后台维持长任务运行的地方。
OpenAI 于 2026 年 4 月的更新新增了计算机操作、应用内浏览、图像生成、记忆、插件、自动化、更强的拉取请求工作流、文件预览、多个终端,以及早期的 SSH 支持。随着 OpenAI 将 Codex 更深入地推进至大型企业,周活跃使用已 超过 400 万名开发者。
Codex 正开始横跨软件开发生命周期:规划、上下文收集、构建、测试、评审、文档编写以及后续工作。IDE 不再是整个房间。Codex 正试图在办公室里走动。
Codex 有哪些变化?
IDE 之外的计算机操作
这一重磅功能是 Codex 的计算机操作。Codex 可以用自己的光标在桌面应用中查看、点击并输入。在 Mac 上可以并行运行多个代理,同时用户还能在其他应用中继续工作。这有助于前端测试、应用 QA,以及那些没有规范 API 的工具。
示例:一位开发者让 Codex 修复结账页面。Codex 修改 React 代码,打开本地页面,点击完成整个流程,发现折扣字段在移动端宽度下出现问题,随后编辑 CSS、运行测试,并报告结果。
用于可视化反馈的应用内浏览器
应用内浏览器有助于前端工作。用户可以直接在页面上评论,并向代理给出精确的指令。当“这个”指向真实的按钮而不是提示里的含糊一句话时,“把这个按钮移到价格卡片下面”就更容易实现。浏览器使用也让 Codex 能点击本地 UI、复现视觉缺陷,并在应用内验证修复。
插件、技能与 MCP 连接
Codex 插件将技能、应用集成和 MCP 服务器打包为可复用的工作流。OpenAI 列举了 Gmail、Google Drive、Slack、GitHub 等工具作为示例。一个插件可以为 Codex 提供一套可重复的流程:读取一个 Slack 线程、检查一个 GitHub issue、从 Drive 拉取上下文、更新文档并起草回复。
MCP 为 Codex 提供访问外部工具与上下文的能力,包括浏览器或 Figma 等开发者工具。
面向持续工作的记忆与自动化
Codex 记忆让代理能够把过去会话中的有用上下文带入后续工作。它可以记住偏好、技术栈、重复性工作流、项目约定和已知陷阱。OpenAI 表示,记忆默认关闭,且在上线时不向 EEA、英国或瑞士提供。
Codex 自动化让 Codex 能在后台运行重复性任务、将发现发布到收件箱,或在无事可报时归档一次运行。团队可以让 Codex 每天早上检查失败的遥测、每周五总结代码库变化,或关注一个长时间挂起的 PR。
为何“超越写代码”意义重大
软件开发不只是代码生成。开发者的一天通常包括阅读问题、检查日志、复现缺陷、更新文档、回复评审意见、运行测试和解释决策。如今开发者使用 Codex 来理解系统、收集上下文、审查工作、调试问题、与队友协作,并推动更长的任务向前。开发者仍然对结果负责。Codex 的 AI 代理承担了更多“混乱的中间过程”。
作为多代理指挥中心的 Codex 应用
OpenAI 于 2026 年 2 月推出 Codex 应用,作为同时管理多个代理的桌面界面。该应用支持并行线程、项目视图、diff、评论、工作树、终端、Git 操作以及云模式。Windows 支持于 2026 年 3 月到来。
工作树允许多个代理在隔离的副本中处理同一个代码库,因此一个代理可以重构设置页面,另一个代理则为计费编写测试。
Codex 现在在写代码之外还能做什么
一位产品经理可能会写道:“让新手用户更容易理解引导页。以我们最新的支持工单为上下文,更新文案、调整页面,并准备一份简短摘要。”Codex 可以收集合适的上下文、修改应用、运行检查,并产出摘要。最终结果仍需人类批准,因为生产环境不该变成“鬼屋”。
Codex vs Claude Code、Cursor 与 Copilot
围绕代理式编码的竞争非常激烈。Claude Code 是 Anthropic 的代理式编码系统,能够阅读代码库、编辑文件、运行测试并提交代码。Cursor 专注于 AI 优先的编辑器,以及覆盖桌面、CLI、GitHub、Slack、Linear 和 JetBrains 的代理。GitHub Copilot 具有云端代理,可以调研仓库、在分支上进行更改,并从 issue 或聊天提示创建拉取请求。
- OpenAI Codex 正在走向工作流与代理指挥中心。其最佳用例是跨代码、应用、文件、浏览器和连接工具的多步骤工作。
- Claude Code 专注于跨代码库的代理式编码。它适用于基于终端的开发任务、代码更改、测试以及仓库级执行。
- Cursor 围绕 AI 原生编辑器体验构建。它非常适合大部分时间在编辑器内工作的开发者,在贴近代码的地方获得 AI 帮助。
- GitHub Copilot 在 GitHub 原生工作流中最强。它适用于已在 GitHub 中进行的问题、分支、拉取请求、代码评审和仓库任务。
更广泛的编码工具推动并非凭空发生。我们在《Claude Code vs. Codex 对比》中进行了更详细的探讨,解释了为何 AI 编码代理突然无处不在,以及为什么公司会如此重注于它们。
OpenAI 的企业布局
OpenAI 正在扩大与埃森哲、凯捷、CGI、Cognizant、Infosys、普华永道和塔塔咨询服务等公司的合作,将 Codex 带入大型企业。OpenAI 还在推出 Codex Labs,把 OpenAI 专家直接派驻到客户组织内部,将 Codex 集成进现有系统与工作流。
大公司不会购买“酷炫演示”。他们购买可重复的工作、控制、报告,以及能与那些经历了三次重组、至少一个“英雄级”Excel 文件后仍在运行的杂乱系统相集成的能力。Codex 工作空间代理正朝这个方向迈进:它们由 Codex 驱动、运行于云端、使用已连接的应用,并可在 ChatGPT 或 Slack 中共享。
安全、沙箱与人工审核
更强的能力需要更严格的控制。OpenAI 的 Codex 安全文档称,该代理默认关闭网络访问。在本地,Codex 使用由操作系统强制执行的沙箱,通常仅限于当前工作区,并配有决定代理何时必须在行动前请求批准的审批策略。
沙箱定义了 Codex 可以接触到什么;审批策略定义了它何时必须暂停。常规编辑与测试可以在限制内运行。网络访问、超出工作区的更改或高风险的工具调用可能需要审批。
记忆同样需要治理。团队应当把必需的规则写在 AGENTS.md 或已检入的文档中,而不是只放在记忆文件里。机密不应写入记忆。一个好规则:让 Codex 记住偏好,而不是密码。
更大的图景
Codex 指向 AI 原生的工作形态:代理跨工具、文件、浏览器窗口、消息、文档与代码进行操作。Codex 也可被非开发者使用,用于信息收集、制作幻灯片、构建仪表盘、修复工作流、更新文件与自动化日常工作等任务。
但这个未来仍需一盆冷水。AI 代理可能幻觉、误解上下文、过于字面地执行任务,或做出在真实工作流中才暴露问题的更改。代理能触达的工具越多,审查就越重要。草稿里的小错误令人恼火;仓库、仪表盘或客户工作流中的小错误则可能很快变得代价高昂。
Codex 开始看起来更像是处理复杂数字化工作的“监督式代理”,而不是自动补全。它能够行动、记忆、连接工具,并带着成果返回。人的工作是下达正确的任务、检查结果,并把护栏设得足够坚固。相比“AI 取代开发者”,这不那么花哨,但更可信。