不懂咋玩?那就截图识别。没法操作?直接现搓脚本。操作一坨?甚至还能上网自己找攻略。
这就是现在跑在你电脑上的AI Agent能做到的事儿。
最近,我们把市面上一些主流的Agent工具测了一遍,比如Codex、TRAE、QoderWork、WorkBuddy、Marvis等等。只能说,这玩意儿吹了这么久,大伙儿可能真不用再观望了。
测试产品包括:WorkBuddy、TRAE、Marvis、Codex、QoderWork、悟空。
当然,一听“Code”啥的,大伙儿可能觉得这是为专业开发者造的,门槛高。但别担心,大厂们都已经悄摸进化了一轮。之前确实硬核,都照搬VS Code那种传统编程页面,适合开发,但并不适合和AI一起开发。
既然引入了Agent,那肯定得重新设计——毕竟它是来干活的,而人是监督它的。所以大家都很默契地改了同一套交互逻辑,把具体的代码隐去,再把Agent干活时的日志显示出来。在网页里你可以叫它老师,但在Agent工具里,你得化身老板,把活儿摊派明白。
拿Codex举例,界面很简洁,主要分三个部分。左边是你管理的项目结构,中间是常规的聊天窗口,右边是等待验收的工作成果。
向左滑动,依次为:Codex、TRAE、WorkBuddy、Qoderwork。
能BB就不动手。咱先去Agent工具的“应用商店”里逛逛,看看有啥合适的技能包(Skill),给Agent装上左膀右臂。能看到,琳琅满目——毕竟活儿的种类也就那么多,但凡有名有姓的基本都能扒拉到现成方案。什么数据分析、内容创作都不在话下。
其中比较有新意的是腾讯新出的Marvis,把技能商店做成了类似小红书的信息流,可以边刷边收藏技能。加上技能在这些工具里是通用的,所以最近小红书自己也上线了Skill商店。
当然,就算挑不过来也没关系,技能商店里还有帮咱选技能的技能——Codex里的Skill Installer,WorkBuddy里的Find Skills,算是将懒人式进行到底。
至于自己造技能,倒是不用急。虽然可以通过AI一步步引导造出来,但好的技能往往是先自己跑通几遍,再提炼总结,会更贴合自己的使用场景。
选好技能就可以开始任务了。开始前需要选一下任务类型,默认是普通款,但一般Plan模式更好使。这点挺重要的——很多时候结果不理想不是Agent太笨,而是咱自己也没想清楚要什么。Plan模式就是任务开始前先规划一下,明确条条框框。
简单说一下要做什么,就能敲回车下发指令了。为了看具体流程,我们挑了3个幸运儿来展示:OpenAI的Codex、字节的TRAE和腾讯的WorkBuddy,国内外都拉出来溜溜。任务让它们仨锐评对方。
此时就能发现Plan的好处了。比如执行任务前,Codex和TRAE都向我二次确认了WorkBuddy具体是哪一个——因为国外有同名的应用,容易混淆。
当然,由于都是默认的模型,速度有快有慢,但就报告结果来看,确实各有特点。
先看WorkBuddy——给到一个老实人,上来也没问报告格式,吭哧吭哧就是干。最后给的网页排版和内容虽然AI味道重了点,但花里胡哨符合锐评的主基调。而且调研结论相当低调,把自己排在靠后位置,喷自己毫不手软。
再看TRAE——给到一个“人上人”,活儿干得比较细致。不管是前期的弹出式表单规划,还是中间调研,思路都很清晰,子Agent的调用也相当熟练。核心结论里虽然把自己排到了老大,但考量了6个维度,总分是加权出来的,有理有据。
最后的Codex,基本是目前这个领域的标杆。报告里先来一手信源分析,跟大伙儿就拉开了距离。下面的评价也能明显感觉到更深入,结合了官方产品文档的内容。模型好确实有优势,但考虑到国内使用不便,暂且给到一个“半夯”。
接下来,任务继续——让它们把各自的报告生成一份可视化的落地页。你可能会说这活儿在网页里也能做,而且更快。
倒也没错,但不同的点在于,这里你不需要把代码再复制粘贴到本地了。而且最重要的,Agent会自己调用工具去检查成品有没有BUG。比如同样的任务交给网页端的Gemini,它甩给我几百行代码,粘到本地打开发现一片空白。而这些Agent会在交付之前就避免这种情况。
WorkBuddy自己调用了3次预览、做了2次优化才把网页交给我。
TRAE则直接一些,打开了内置浏览器,通过不同角度截图识别,打不开就刷新重试,直到确认渲染效果符合预期。
Codex也一样,权限不够截不着网页,试了N次才确认好效果。所以落地页的效果倒是其次,重点是这套任务执行的逻辑,跟网页端应付交差完全不同——特别是截图反馈的工具调用,相当于给电脑安了个赛博义眼。而像Codex这种更进一步,有Computer Use功能,可以全局截图反馈然后操作——相当于你电脑上的软件它都能打开,等模型能力更猛了,代打几局游戏也不是不可能。
除了技能Skill,这些Agent工具还能接入其他应用,比如GitHub、邮箱、网盘等。更妙的是接入通讯软件,像微信、飞书——这也是早期Agent火起来的一大原因。
这像是远程软件的升级版,加了个Agent当管家,帮你24小时盯着电脑,随叫随到。或者有一些定时任务,也能找到“自动化”类型的入口,让它接管每天枯燥重复的流程性任务。
说了这么多,其实无论什么手段、装什么插件,本质上都是在约束、控制Agent朝预定方向产出东西——有大佬精心优化的工作流,有厂商调教好的记忆系统,也有方便实用的技能包。用专业点的话说,这些都是Harness,原意是给马套上马具,放这儿非常贴切。
无论马具下面的模型是哪一匹,这些Agent工具都得随套随用。
就体验体感而言,Codex是较硬的,模型给力,额度还偶尔重置,虽然需要一点技术手段,但比Claude要简单得多,适合想体验顶尖性能的折腾党。要是不想麻烦,直接用国内大厂的方案也行——嫌默认模型笨,就去买点DeepSeek的API接上,也是妥妥的性价比平替。
至于平替里面选哪一个,取决于你的使用场景:微信和WorkBuddy搭伙方便,飞书和TRAE集成更深,钉钉那边有Qoder和悟空,逻辑都是一样的。
但话说回来,Agent工具也有缺点——上的手段越多,花费的模型Token也越多。动不动几十分钟的长线任务,账单会变得很长。所以有什么便宜管饱的模型套餐,大伙儿就各显神通了。而对于不太繁琐的活儿,这些Agent工具也有免费额度,白嫖尝尝咸淡总是不亏的。


