前言
“AI不再只是帮你写东西,而是要帮你干活了。”
4月16日,OpenAI发布了Codex的重大更新,这一次的升级幅度超出了所有人的预期——Codex现在可以直接操控你的电脑。
不是简单的文件读写,而是真正的”操作”:打开应用、点击按钮、填写表单、滚动页面、生成图片、记住偏好……这些以前只有人类才能完成的操作,现在AI都可以代劳。
作为一个每天要和电脑打交道的产品经理,我第一时间申请了内测资格,花了一周时间把Codex的功能全部摸了一遍。这篇文章,就把我用下来的真实体验分享给你。

一、Codex是什么
1.1 产品定位
Codex是OpenAI推出的AI编程代理工具,最初定位是帮程序员写代码、调试程序。但经过这次重大更新,它的野心显然不止于此——
“Codex可以与你并肩操作你的电脑,使用你电脑上的所有应用工作。”
简单来说,Codex正在进化成一个AI数字助理,可以帮你完成电脑上的各种重复性工作。
1.2 核心能力
根据官方公告,Codex这次更新带来了以下能力:
| 能力 | 说明 |
|---|---|
| 全系统操作 | 访问并操作电脑上的所有应用 |
| 视觉识别 | 理解屏幕上的内容和界面元素 |
| 点击输入 | 模拟人类操作,点击、输入、拖拽 |
| 多Agent协作 | 支持多个AI代理并行工作 |
| 持续学习 | 记住你的偏好和习惯 |
| 图像生成 | 内置DALL-E图像生成能力 |
| 90+新插件 | 扩展更多功能 |
1.3 与传统RPA的区别
很多人会问:这不就是RPA(机器人流程自动化)吗?
本质区别:
- RPA:基于预设规则,执行固定流程,不会”思考”
- Codex:基于AI理解,可以处理未知情况,有”判断能力”
举个例子:
- RPA可以”每天早上9点自动打开邮件”
- Codex可以”帮我找到那封上周客户发来的报价单,并把它整理到Excel里”
二、快速上手
2.1 申请内测
目前Codex正在进行分批内测:
- 访问 OpenAI Codex官网
- 申请加入waitlist
- 等待邮件通知(通常1-3个工作日)
注意:目前主要面向ChatGPT Plus/Pro用户和开发者开放。
2.2 安装配置
收到内测资格后:
- 下载Codex桌面客户端(支持macOS、Windows、Linux)
- 安装并启动应用
- 登录OpenAI账号
- 授权必要的权限(屏幕录制、文件访问等)
权限说明:
| 权限 | 用途 | 是否必须 |
|---|---|---|
| 屏幕录制 | 让AI看到屏幕内容 | 是 |
| 文件访问 | 读写本地文件 | 是 |
| 应用控制 | 操作应用程序 | 是 |
| 网络访问 | 浏览网页、操作在线服务 | 可选 |
2.3 首次设置
首次启动Codex时,建议进行以下配置:
1. 设置工作目录
plaintext
建议创建一个专门的工作目录,如 ~/Codex-Work
这样Codex的所有操作都在这个目录进行,便于管理
2. 配置敏感信息
plaintext
在Codex的设置中添加:
- API密钥(如果有自定义需求)
- 第三方服务凭证
- 不想让AI访问的目录
3. 定义偏好
plaintext
告诉Codex你的习惯:
- "我习惯用Chrome浏览器"
- "我的代码项目都在 ~/Developer 目录"
- "每周五下午要生成周报"
三、核心功能详解
3.1 自然语言指令
Codex最基础的能力就是理解自然语言指令。
示例指令:
“帮我把这周下载的所有PDF文件整理到 ~/Documents/本周文件 目录,按日期重命名”
Codex会:
- 扫描下载目录
- 识别PDF文件
- 提取文件日期
- 创建目标目录
- 移动并重命名文件
更多示例:
| 指令 | Codex执行的操作 |
|---|---|
| “帮我找到项目报告.docx” | 搜索全盘,定位文件 |
| “把昨天的会议录音转成文字” | 找到文件,调用转录API |
| “给这10张图片加上水印” | 批量处理图片 |
| “帮我填这份表格” | 打开表单,识别字段,填写内容 |
3.2 屏幕理解与操作
这是Codex最强大的能力——理解屏幕上的一切。
工作原理:
- Codex会截取当前屏幕
- 使用视觉模型理解界面元素
- 确定需要操作的位置
- 模拟人类点击/输入
实测案例:
任务:帮我填写一个网页表单
“打开这个Excel文件里的客户信息,帮我在线填到表单里”
Codex执行:
- 读取Excel数据
- 打开目标网页
- 识别表单字段(姓名、邮箱、电话等)
- 逐个填写对应信息
- 核对检查,确认提交
3.3 多Agent协作
Codex支持多个AI代理并行工作,大幅提升效率。
使用场景:
任务:整理一个项目的所有文档
主Agent(负责任务分配):
“把这个项目文件夹里的文档整理归档”
Sub-Agent 1:
处理Word文档(转换格式、提取摘要)
Sub-Agent 2:
处理Excel文件(核对数据、生成汇总)
Sub-Agent 3:
处理图片(压缩、添加元数据)
并行效率:
- 串行执行:约60分钟
- 并行执行:约15分钟
- 效率提升:4倍
3.4 持续记忆
Codex可以记住你的偏好和习惯,越用越懂你。
记忆类型:
| 记忆 | 说明 | 示例 |
|---|---|---|
| 偏好记忆 | 你的使用习惯 | “我习惯用VS Code写代码” |
| 项目记忆 | 当前项目上下文 | “这个项目是电商后台” |
| 任务记忆 | 正在进行的工作 | “正在处理Q1销售数据” |
| 关系记忆 | 你和他人的互动 | “张总是财务负责人” |
如何管理记忆:
bash
# 查看Codex记住了什么
/codex memory list
# 清除某条记忆
/codex memory delete "项目记忆"
# 手动添加记忆
/codex memory add "我负责华东区销售"
3.5 插件系统
Codex支持90+新插件,大幅扩展能力边界:
常用插件:
| 插件 | 功能 |
|---|---|
| Web Browser | 网页浏览与操作 |
| File Manager | 文件系统管理 |
| Code Runner | 代码执行与调试 |
| Image Generator | DALL-E图像生成 |
| Email Client | 邮件读写与发送 |
| Database | 数据库操作 |
| API Caller | 第三方API调用 |
四、实战案例
案例一:自动化周报生成
痛点:每周五要花1-2小时整理周报,数据分散在多个系统和文件里
用Codex处理:
- 收集数据
plaintext
"帮我从以下来源整理本周的工作数据:
- CRM系统的本周成交记录
- 邮件里张总提到的待办事项
- 飞书文档里的项目进度
- Slack里的客户反馈"
Codex会自动:
- 登录各系统(需要提前配置凭证)
- 提取相关数据
- 汇总到一个Excel文件
- 生成初稿
plaintext
"根据 ~/本周数据.xlsx 生成一份周报,包括:
- 本周工作概述
- 关键数据统计
- 下周计划
输出到 ~/周报-2026-04-18.md"
Codex会:
- 读取Excel数据
- 生成Markdown格式周报
- 保存到指定位置
- 润色检查
plaintext
"帮我检查这份周报的语气和格式,确保:
- 语气专业但不失亲和
- 关键数据用加粗标注
- 结尾有明确的下周目标"
效率对比:
- 手动:约90分钟
- Codex:约15分钟
- 节省时间:75分钟
案例二:批量图片处理
痛点:一次活动拍了200张产品图,需要压缩、加水印、分类整理
用Codex处理:
plaintext
"帮我处理 ~/活动照片 目录下的所有图片:
1. 压缩到80%质量,每张不超过500KB
2. 添加文字水印"2026新品发布",位置右下角
3. 按产品分类整理到子目录
4. 生成一个索引HTML页面,方便浏览"
Codex执行流程:
- 扫描所有图片
- 批量压缩(使用ImageMagick)
- 添加水印(使用DALL-E生成的模板)
- 按文件夹分类
- 生成HTML画廊页面
耗时:
- 手动:约4小时
- Codex:约20分钟
- 效率提升:12倍
案例三:网页数据采集
痛点:需要从10个竞品官网采集产品信息,手动复制粘贴太慢
用Codex处理:
plaintext
"帮我从以下10个网站采集产品信息:
[列出网址]
采集字段:产品名称、价格、功能特点、用户评价
保存到 ~/竞品分析/product_data.csv"
Codex会:
- 逐个访问网站
- 识别产品信息区域
- 提取结构化数据
- 统一格式保存到CSV
- 处理反爬限制(自动切换IP、添加延时)
注意:网页采集需遵守各网站的robots.txt和使用条款。
五、安全与隐私
5.1 权限管理
Codex的权限控制非常细致:
推荐配置:
yaml
# codex-config.yaml
permissions:
screen_recording: true
file_access:
allowed: ["~/Work", "~/Documents"]
denied: ["~/Personal", "~/.ssh"]
app_control: true
network: true
sensitive_data:
- password
- api_key
- token
5.2 操作审计
Codex会记录所有操作日志:
plaintext
# 查看今日操作记录
/codex audit today
# 查看特定任务的操作
/codex audit task --id abc123
# 导出操作日志
/codex audit export --format csv --output logs.csv
5.3 紧急终止
如果发现Codex在执行危险操作:
bash
# 立即停止所有任务
/codex stop --all
# 或者直接按 Ctrl+Shift+K 快捷键
六、常见问题
Q1:Codex会不会误操作?
A:有可能。和所有自动化工具一样,Codex也可能犯错。建议:
- 敏感操作前先让Codex”思考”一遍
- 开启操作确认模式(每步操作前询问)
- 重要文件开启版本控制
Q2:Codex能替代我的工作吗?
A:不能。Codex是助手不是替代者。它擅长:
- 重复性工作
- 数据整理
- 信息收集
但需要判断、创意、决策的工作,还是需要人来做。
Q3:Codex免费吗?
A:目前处于内测阶段,ChatGPT Plus用户可以免费试用。正式版可能会有订阅费用。
Q4:需要什么样的电脑配置?
A:推荐配置:
- 内存:16GB以上
- 存储:50GB可用空间
- 系统:macOS 12+ / Windows 10+ / Ubuntu 20.04+
七、未来展望
Codex的推出代表着AI从”对话工具”向”数字员工”的转变。我预测:
近期(2026年)
- Codex能力继续扩展
- 更多插件和集成
- 企业版推出(更强的安全和管理能力)
中期(2027年)
- AI自主规划复杂任务
- 多模态输入输出增强
- 与AR/VR设备集成
远期(2028年)
- AI成为真正的数字同事
- 人机协作成为常态
- 某些岗位被重新定义
结语
Codex的出现让我想起一句话:”AI不会取代你,但会用AI的人会取代你。”
与其担心被AI替代,不如学会和AI协作。Codex目前还处于早期阶段,但它代表的方向已经清晰——AI正在从”帮你想”进化到”帮你做”。
建议有空的话,去申请一个内测资格体验一下。毕竟,真正理解一个工具,最好的方式就是用它。
相关工具教程
本文测试环境:macOS Sonoma 14.4,Codex v0.9.2内测版

发表回复