Codex新功能Record & Replay:你干活它偷师,下次它来干
OpenAI的Codex刚上线了一个叫Record & Replay的功能。简单说就是:你在电脑上操作一遍,它在旁边看,学会了之后下次自己干。
这功能听起来不起眼,但细想其实挺有意思。
怎么用
流程不复杂:
- 在Codex里装Record & Replay插件
- 授权录制
- 你正常干活,它在旁边看
- 干完停录制
- Codex复盘你刚才的操作,自动生成一个skill(技能)
- 下次开新对话,调这个skill,告诉它这次哪里不一样就行
这个skill不是写死的脚本,而是一份可复用的"说明书"。Codex每次拿到它都会结合当前环境灵活执行,所以传不同的文件、填不同的值都能用。
适合什么场景
不是所有活都适合录。它瞄准的是那种重复、步骤固定、但里头藏着个人隐性规则的任务:
- 报销流程
- 订停车位
- 建配置正确的issue
- 发视频到平台
- 拉周期性报表
这些活的共同点是:步骤繁琐,而且有些规则你心里清楚但很难用文字写清楚——文件怎么命名、某个字段默认填什么、到岔路口该往哪走。与其费劲写文档教AI,不如直接做一遍让它自己看。
Codex操作电脑的三条路
要理解Record & Replay,得先搞清楚Codex是怎么操作电脑的。OpenAI工程师Jason梳理过三条路径:
Computer Use:覆盖面最广。能看懂并操作macOS和Windows上的图形界面,通过窗口、菜单、键盘、剪贴板来操控应用。慢,但那些没有API的应用它也能对付。Record & Replay就是基于这套能力录制的。 Chrome扩展:接管你已经登录的Chrome,适合需要账号和cookie的任务,比如Gmail、Salesforce。但它带着你的身份操作,所以发送、发布这种动作一般需要你审核。 应用内浏览器:活在Codex对话内部,跟你主浏览器隔离。适合开发者调试Web应用,改代码、操作页面、截图、再跑一遍,形成反馈循环。Record & Replay生成的skill,可以调用上面任意一种或几种方式来执行。
一个有意思的趋势
Record & Replay表面上是"录制+复现"的小功能,但放到更大的背景里看,它代表了一种变化:
过去,自动化的基础是API。软件必须先开放接口,AI才能接手。没有API就没有自动化。所以传统自动化的边界,取决于软件愿意开放多少能力。
但现在,OpenAI试图绕开这层限制。它不要求软件专门为AI提供接口,而是让AI直接学习人类使用软件的方式——人能看懂按钮和菜单,它也去理解;人能完成点击和输入,它也去执行。
这意味着AI的工作对象开始从API扩展到整个图形界面。Computer Use负责赋予AI操作电脑的能力,Record & Replay负责把人的操作经验沉淀成可复用的技能。
换句话说,人正在从软件的直接操作者,变成软件能力的训练者。
限制
目前只在macOS上可用,首发不覆盖欧盟、英国和瑞士。必须先开启Computer Use功能。如果你是组织管理员,注意requirements.toml里computer_use这一项是连同Record & Replay一起管的,关了就一起没了。
另外,Codex应用、CLI和SDK不只能配OpenAI自家模型。在config.toml里配置model_providers,可以指向Ollama、LM Studio等本地开源模型,也能接Mistral、Azure、Amazon Bedrock。传个–oss参数就能跑本地provider。
来源:爱范儿
链接:https://www.ifanr.com/1669204
评论区