OpenAI 的 Codex 正在突破编程的界限

OpenAI 正在把 Codex 应用变成一个让 AI 代理可以编写代码、测试界面、审查拉取请求、使用应用、记住项目习惯，并在后台维持长任务运行的地方。

OpenAI 于 2026 年 4 月的更新新增了计算机操作、应用内浏览、图像生成、记忆、插件、自动化、更强的拉取请求工作流、文件预览、多个终端，以及早期的 SSH 支持。随着 OpenAI 将 Codex 更深入地推进至大型企业，周活跃使用已超过 400 万名开发者。

Codex 正开始横跨软件开发生命周期：规划、上下文收集、构建、测试、评审、文档编写以及后续工作。IDE 不再是整个房间。Codex 正试图在办公室里走动。

Codex 有哪些变化？

IDE 之外的计算机操作

这一重磅功能是 Codex 的计算机操作。Codex 可以用自己的光标在桌面应用中查看、点击并输入。在 Mac 上可以并行运行多个代理，同时用户还能在其他应用中继续工作。这有助于前端测试、应用 QA，以及那些没有规范 API 的工具。

示例：一位开发者让 Codex 修复结账页面。Codex 修改 React 代码，打开本地页面，点击完成整个流程，发现折扣字段在移动端宽度下出现问题，随后编辑 CSS、运行测试，并报告结果。

用于可视化反馈的应用内浏览器

应用内浏览器有助于前端工作。用户可以直接在页面上评论，并向代理给出精确的指令。当“这个”指向真实的按钮而不是提示里的含糊一句话时，“把这个按钮移到价格卡片下面”就更容易实现。浏览器使用也让 Codex 能点击本地 UI、复现视觉缺陷，并在应用内验证修复。

插件、技能与 MCP 连接

Codex 插件将技能、应用集成和 MCP 服务器打包为可复用的工作流。OpenAI 列举了 Gmail、Google Drive、Slack、GitHub 等工具作为示例。一个插件可以为 Codex 提供一套可重复的流程：读取一个 Slack 线程、检查一个 GitHub issue、从 Drive 拉取上下文、更新文档并起草回复。

MCP 为 Codex 提供访问外部工具与上下文的能力，包括浏览器或 Figma 等开发者工具。

面向持续工作的记忆与自动化

Codex 记忆让代理能够把过去会话中的有用上下文带入后续工作。它可以记住偏好、技术栈、重复性工作流、项目约定和已知陷阱。OpenAI 表示，记忆默认关闭，且在上线时不向 EEA、英国或瑞士提供。

Codex 自动化让 Codex 能在后台运行重复性任务、将发现发布到收件箱，或在无事可报时归档一次运行。团队可以让 Codex 每天早上检查失败的遥测、每周五总结代码库变化，或关注一个长时间挂起的 PR。

为何“超越写代码”意义重大

软件开发不只是代码生成。开发者的一天通常包括阅读问题、检查日志、复现缺陷、更新文档、回复评审意见、运行测试和解释决策。如今开发者使用 Codex 来理解系统、收集上下文、审查工作、调试问题、与队友协作，并推动更长的任务向前。开发者仍然对结果负责。Codex 的 AI 代理承担了更多“混乱的中间过程”。

作为多代理指挥中心的 Codex 应用

OpenAI 于 2026 年 2 月推出 Codex 应用，作为同时管理多个代理的桌面界面。该应用支持并行线程、项目视图、diff、评论、工作树、终端、Git 操作以及云模式。Windows 支持于 2026 年 3 月到来。

工作树允许多个代理在隔离的副本中处理同一个代码库，因此一个代理可以重构设置页面，另一个代理则为计费编写测试。

Codex 现在在写代码之外还能做什么

功能表

一位产品经理可能会写道：“让新手用户更容易理解引导页。以我们最新的支持工单为上下文，更新文案、调整页面，并准备一份简短摘要。”Codex 可以收集合适的上下文、修改应用、运行检查，并产出摘要。最终结果仍需人类批准，因为生产环境不该变成“鬼屋”。

Codex vs Claude Code、Cursor 与 Copilot

围绕代理式编码的竞争非常激烈。Claude Code 是 Anthropic 的代理式编码系统，能够阅读代码库、编辑文件、运行测试并提交代码。Cursor 专注于 AI 优先的编辑器，以及覆盖桌面、CLI、GitHub、Slack、Linear 和 JetBrains 的代理。GitHub Copilot 具有云端代理，可以调研仓库、在分支上进行更改，并从 issue 或聊天提示创建拉取请求。

OpenAI Codex 正在走向工作流与代理指挥中心。其最佳用例是跨代码、应用、文件、浏览器和连接工具的多步骤工作。
Claude Code 专注于跨代码库的代理式编码。它适用于基于终端的开发任务、代码更改、测试以及仓库级执行。
Cursor 围绕 AI 原生编辑器体验构建。它非常适合大部分时间在编辑器内工作的开发者，在贴近代码的地方获得 AI 帮助。
GitHub Copilot 在 GitHub 原生工作流中最强。它适用于已在 GitHub 中进行的问题、分支、拉取请求、代码评审和仓库任务。

更广泛的编码工具推动并非凭空发生。我们在《Claude Code vs. Codex 对比》中进行了更详细的探讨，解释了为何 AI 编码代理突然无处不在，以及为什么公司会如此重注于它们。

OpenAI 的企业布局

OpenAI 正在扩大与埃森哲、凯捷、CGI、Cognizant、Infosys、普华永道和塔塔咨询服务等公司的合作，将 Codex 带入大型企业。OpenAI 还在推出 Codex Labs，把 OpenAI 专家直接派驻到客户组织内部，将 Codex 集成进现有系统与工作流。

大公司不会购买“酷炫演示”。他们购买可重复的工作、控制、报告，以及能与那些经历了三次重组、至少一个“英雄级”Excel 文件后仍在运行的杂乱系统相集成的能力。Codex 工作空间代理正朝这个方向迈进：它们由 Codex 驱动、运行于云端、使用已连接的应用，并可在 ChatGPT 或 Slack 中共享。

安全、沙箱与人工审核

更强的能力需要更严格的控制。OpenAI 的 Codex 安全文档称，该代理默认关闭网络访问。在本地，Codex 使用由操作系统强制执行的沙箱，通常仅限于当前工作区，并配有决定代理何时必须在行动前请求批准的审批策略。

沙箱定义了 Codex 可以接触到什么；审批策略定义了它何时必须暂停。常规编辑与测试可以在限制内运行。网络访问、超出工作区的更改或高风险的工具调用可能需要审批。

记忆同样需要治理。团队应当把必需的规则写在 AGENTS.md 或已检入的文档中，而不是只放在记忆文件里。机密不应写入记忆。一个好规则：让 Codex 记住偏好，而不是密码。

更大的图景

Codex 指向 AI 原生的工作形态：代理跨工具、文件、浏览器窗口、消息、文档与代码进行操作。Codex 也可被非开发者使用，用于信息收集、制作幻灯片、构建仪表盘、修复工作流、更新文件与自动化日常工作等任务。

但这个未来仍需一盆冷水。AI 代理可能幻觉、误解上下文、过于字面地执行任务，或做出在真实工作流中才暴露问题的更改。代理能触达的工具越多，审查就越重要。草稿里的小错误令人恼火；仓库、仪表盘或客户工作流中的小错误则可能很快变得代价高昂。

Codex 开始看起来更像是处理复杂数字化工作的“监督式代理”，而不是自动补全。它能够行动、记忆、连接工具，并带着成果返回。人的工作是下达正确的任务、检查结果，并把护栏设得足够坚固。相比“AI 取代开发者”，这不那么花哨，但更可信。