OpenAI 的 Codex 正在突破编程的界限 OpenAI 的 Codex 正在突破编程的界限

OpenAI 正在把 Codex 应用变成一个让 AI 代理可以编写代码、测试界面、审查拉取请求、使用应用、记住项目习惯,并在后台维持长任务运行的地方。

OpenAI 于 2026 年 4 月的更新新增了计算机操作、应用内浏览、图像生成、记忆、插件、自动化、更强的拉取请求工作流、文件预览、多个终端,以及早期的 SSH 支持。随着 OpenAI 将 Codex 更深入地推进至大型企业,周活跃使用已 超过 400 万名开发者。

Codex 正开始横跨软件开发生命周期:规划、上下文收集、构建、测试、评审、文档编写以及后续工作。IDE 不再是整个房间。Codex 正试图在办公室里走动。

Codex 有哪些变化?

IDE 之外的计算机操作

这一重磅功能是 Codex 的计算机操作。Codex 可以用自己的光标在桌面应用中查看、点击并输入。在 Mac 上可以并行运行多个代理,同时用户还能在其他应用中继续工作。这有助于前端测试、应用 QA,以及那些没有规范 API 的工具。

示例:一位开发者让 Codex 修复结账页面。Codex 修改 React 代码,打开本地页面,点击完成整个流程,发现折扣字段在移动端宽度下出现问题,随后编辑 CSS、运行测试,并报告结果。

用于可视化反馈的应用内浏览器

应用内浏览器有助于前端工作。用户可以直接在页面上评论,并向代理给出精确的指令。当“这个”指向真实的按钮而不是提示里的含糊一句话时,“把这个按钮移到价格卡片下面”就更容易实现。浏览器使用也让 Codex 能点击本地 UI、复现视觉缺陷,并在应用内验证修复。

插件、技能与 MCP 连接

Codex 插件将技能、应用集成和 MCP 服务器打包为可复用的工作流。OpenAI 列举了 Gmail、Google Drive、Slack、GitHub 等工具作为示例。一个插件可以为 Codex 提供一套可重复的流程:读取一个 Slack 线程、检查一个 GitHub issue、从 Drive 拉取上下文、更新文档并起草回复。

MCP 为 Codex 提供访问外部工具与上下文的能力,包括浏览器或 Figma 等开发者工具。

面向持续工作的记忆与自动化

Codex 记忆让代理能够把过去会话中的有用上下文带入后续工作。它可以记住偏好、技术栈、重复性工作流、项目约定和已知陷阱。OpenAI 表示,记忆默认关闭,且在上线时不向 EEA、英国或瑞士提供。

Codex 自动化让 Codex 能在后台运行重复性任务、将发现发布到收件箱,或在无事可报时归档一次运行。团队可以让 Codex 每天早上检查失败的遥测、每周五总结代码库变化,或关注一个长时间挂起的 PR。

为何“超越写代码”意义重大

软件开发不只是代码生成。开发者的一天通常包括阅读问题、检查日志、复现缺陷、更新文档、回复评审意见、运行测试和解释决策。如今开发者使用 Codex 来理解系统、收集上下文、审查工作、调试问题、与队友协作,并推动更长的任务向前。开发者仍然对结果负责。Codex 的 AI 代理承担了更多“混乱的中间过程”。

作为多代理指挥中心的 Codex 应用

OpenAI 于 2026 年 2 月推出 Codex 应用,作为同时管理多个代理的桌面界面。该应用支持并行线程、项目视图、diff、评论、工作树、终端、Git 操作以及云模式。Windows 支持于 2026 年 3 月到来。

工作树允许多个代理在隔离的副本中处理同一个代码库,因此一个代理可以重构设置页面,另一个代理则为计费编写测试。

Codex 现在在写代码之外还能做什么

功能表功能表

一位产品经理可能会写道:“让新手用户更容易理解引导页。以我们最新的支持工单为上下文,更新文案、调整页面,并准备一份简短摘要。”Codex 可以收集合适的上下文、修改应用、运行检查,并产出摘要。最终结果仍需人类批准,因为生产环境不该变成“鬼屋”。

Codex vs Claude Code、Cursor 与 Copilot

围绕代理式编码的竞争非常激烈。Claude Code 是 Anthropic 的代理式编码系统,能够阅读代码库、编辑文件、运行测试并提交代码。Cursor 专注于 AI 优先的编辑器,以及覆盖桌面、CLI、GitHub、Slack、Linear 和 JetBrains 的代理。GitHub Copilot 具有云端代理,可以调研仓库、在分支上进行更改,并从 issue 或聊天提示创建拉取请求。

  • OpenAI Codex 正在走向工作流与代理指挥中心。其最佳用例是跨代码、应用、文件、浏览器和连接工具的多步骤工作。
  • Claude Code 专注于跨代码库的代理式编码。它适用于基于终端的开发任务、代码更改、测试以及仓库级执行。
  • Cursor 围绕 AI 原生编辑器体验构建。它非常适合大部分时间在编辑器内工作的开发者,在贴近代码的地方获得 AI 帮助。
  • GitHub Copilot 在 GitHub 原生工作流中最强。它适用于已在 GitHub 中进行的问题、分支、拉取请求、代码评审和仓库任务。

更广泛的编码工具推动并非凭空发生。我们在《Claude Code vs. Codex 对比》中进行了更详细的探讨,解释了为何 AI 编码代理突然无处不在,以及为什么公司会如此重注于它们。

OpenAI 的企业布局

OpenAI 正在扩大与埃森哲、凯捷、CGI、Cognizant、Infosys、普华永道和塔塔咨询服务等公司的合作,将 Codex 带入大型企业。OpenAI 还在推出 Codex Labs,把 OpenAI 专家直接派驻到客户组织内部,将 Codex 集成进现有系统与工作流。

大公司不会购买“酷炫演示”。他们购买可重复的工作、控制、报告,以及能与那些经历了三次重组、至少一个“英雄级”Excel 文件后仍在运行的杂乱系统相集成的能力。Codex 工作空间代理正朝这个方向迈进:它们由 Codex 驱动、运行于云端、使用已连接的应用,并可在 ChatGPT 或 Slack 中共享。

安全、沙箱与人工审核

更强的能力需要更严格的控制。OpenAI 的 Codex 安全文档称,该代理默认关闭网络访问。在本地,Codex 使用由操作系统强制执行的沙箱,通常仅限于当前工作区,并配有决定代理何时必须在行动前请求批准的审批策略。

沙箱定义了 Codex 可以接触到什么;审批策略定义了它何时必须暂停。常规编辑与测试可以在限制内运行。网络访问、超出工作区的更改或高风险的工具调用可能需要审批。

记忆同样需要治理。团队应当把必需的规则写在 AGENTS.md 或已检入的文档中,而不是只放在记忆文件里。机密不应写入记忆。一个好规则:让 Codex 记住偏好,而不是密码。

更大的图景

Codex 指向 AI 原生的工作形态:代理跨工具、文件、浏览器窗口、消息、文档与代码进行操作。Codex 也可被非开发者使用,用于信息收集、制作幻灯片、构建仪表盘、修复工作流、更新文件与自动化日常工作等任务。

但这个未来仍需一盆冷水。AI 代理可能幻觉、误解上下文、过于字面地执行任务,或做出在真实工作流中才暴露问题的更改。代理能触达的工具越多,审查就越重要。草稿里的小错误令人恼火;仓库、仪表盘或客户工作流中的小错误则可能很快变得代价高昂。

Codex 开始看起来更像是处理复杂数字化工作的“监督式代理”,而不是自动补全。它能够行动、记忆、连接工具,并带着成果返回。人的工作是下达正确的任务、检查结果,并把护栏设得足够坚固。相比“AI 取代开发者”,这不那么花哨,但更可信。

作者的其他文章

Google如何将Chrome打造为AI工作空间
文章
Google如何将Chrome打造为AI工作空间
Google 正在通过 AI 模式、Gemini 和 Skills 重塑 Chrome。以下是 Chrome 如何成为面向研究、搜索和生产力的 AI 工作空间。
为什么 TikTok 痴迷于可爱的树莓派赛博甲板?
文章
为什么 TikTok 痴迷于可爱的树莓派赛博甲板?
TikTok 正在把 Raspberry Pi 开发板变成可爱的赛博甲板(cyberdeck)、便携式迷你电脑和设计物件。下面是这一趋势为何重要,以及如何自己动手打造一台。
Anthropic 的 Claude Mythos:这款模型是否因风险过高而不宜公开发布?
文章
Anthropic 的 Claude Mythos:这款模型是否因风险过高而不宜公开发布?
Claude Mythos Preview 是 Anthropic 迄今为止最具争议的人工智能发布。了解它为何受限、能做什么,以及为何监管机构和银行都在关注它。
81,000 人告诉 Anthropic 他们想从 AI 获得什么
文章
81,000 人告诉 Anthropic 他们想从 AI 获得什么
Anthropic 对来自159个国家的80,508份AI用户访谈进行了分析,以了解人们希望从AI获得什么、他们担忧什么,以及当今的工具在哪些方面仍然不足。