AI Agent工具实测：可代打游戏

万能的Siri

3 小时前

发个指令，给点权限，AI就能自己打开游戏库玩起来了。

不懂咋玩？那就截图识别。没法操作？直接现搓脚本。操作一坨？甚至还能上网自己找攻略。

这就是现在跑在你电脑上的AI Agent能做到的事儿。

最近，我们把市面上一些主流的Agent工具测了一遍，比如Codex、TRAE、QoderWork、WorkBuddy、Marvis等等。只能说，这玩意儿吹了这么久，大伙儿可能真不用再观望了。

测试产品包括：WorkBuddy、TRAE、Marvis、Codex、QoderWork、悟空。

当然，一听“Code”啥的，大伙儿可能觉得这是为专业开发者造的，门槛高。但别担心，大厂们都已经悄摸进化了一轮。之前确实硬核，都照搬VS Code那种传统编程页面，适合开发，但并不适合和AI一起开发。

既然引入了Agent，那肯定得重新设计——毕竟它是来干活的，而人是监督它的。所以大家都很默契地改了同一套交互逻辑，把具体的代码隐去，再把Agent干活时的日志显示出来。在网页里你可以叫它老师，但在Agent工具里，你得化身老板，把活儿摊派明白。

拿Codex举例，界面很简洁，主要分三个部分。左边是你管理的项目结构，中间是常规的聊天窗口，右边是等待验收的工作成果。

向左滑动，依次为：Codex、TRAE、WorkBuddy、Qoderwork。

能BB就不动手。咱先去Agent工具的“应用商店”里逛逛，看看有啥合适的技能包（Skill），给Agent装上左膀右臂。能看到，琳琅满目——毕竟活儿的种类也就那么多，但凡有名有姓的基本都能扒拉到现成方案。什么数据分析、内容创作都不在话下。

其中比较有新意的是腾讯新出的Marvis，把技能商店做成了类似小红书的信息流，可以边刷边收藏技能。加上技能在这些工具里是通用的，所以最近小红书自己也上线了Skill商店。

当然，就算挑不过来也没关系，技能商店里还有帮咱选技能的技能——Codex里的Skill Installer，WorkBuddy里的Find Skills，算是将懒人式进行到底。

左：Codex；右：WorkBuddy。

至于自己造技能，倒是不用急。虽然可以通过AI一步步引导造出来，但好的技能往往是先自己跑通几遍，再提炼总结，会更贴合自己的使用场景。

向左滑动，依次为：WorkBuddy、TRAE。

选好技能就可以开始任务了。开始前需要选一下任务类型，默认是普通款，但一般Plan模式更好使。这点挺重要的——很多时候结果不理想不是Agent太笨，而是咱自己也没想清楚要什么。Plan模式就是任务开始前先规划一下，明确条条框框。

简单说一下要做什么，就能敲回车下发指令了。为了看具体流程，我们挑了3个幸运儿来展示：OpenAI的Codex、字节的TRAE和腾讯的WorkBuddy，国内外都拉出来溜溜。任务让它们仨锐评对方。

此时就能发现Plan的好处了。比如执行任务前，Codex和TRAE都向我二次确认了WorkBuddy具体是哪一个——因为国外有同名的应用，容易混淆。

当然，由于都是默认的模型，速度有快有慢，但就报告结果来看，确实各有特点。

先看WorkBuddy——给到一个老实人，上来也没问报告格式，吭哧吭哧就是干。最后给的网页排版和内容虽然AI味道重了点，但花里胡哨符合锐评的主基调。而且调研结论相当低调，把自己排在靠后位置，喷自己毫不手软。

再看TRAE——给到一个“人上人”，活儿干得比较细致。不管是前期的弹出式表单规划，还是中间调研，思路都很清晰，子Agent的调用也相当熟练。核心结论里虽然把自己排到了老大，但考量了6个维度，总分是加权出来的，有理有据。

最后的Codex，基本是目前这个领域的标杆。报告里先来一手信源分析，跟大伙儿就拉开了距离。下面的评价也能明显感觉到更深入，结合了官方产品文档的内容。模型好确实有优势，但考虑到国内使用不便，暂且给到一个“半夯”。

接下来，任务继续——让它们把各自的报告生成一份可视化的落地页。你可能会说这活儿在网页里也能做，而且更快。

倒也没错，但不同的点在于，这里你不需要把代码再复制粘贴到本地了。而且最重要的，Agent会自己调用工具去检查成品有没有BUG。比如同样的任务交给网页端的Gemini，它甩给我几百行代码，粘到本地打开发现一片空白。而这些Agent会在交付之前就避免这种情况。

WorkBuddy自己调用了3次预览、做了2次优化才把网页交给我。

TRAE则直接一些，打开了内置浏览器，通过不同角度截图识别，打不开就刷新重试，直到确认渲染效果符合预期。

Codex也一样，权限不够截不着网页，试了N次才确认好效果。所以落地页的效果倒是其次，重点是这套任务执行的逻辑，跟网页端应付交差完全不同——特别是截图反馈的工具调用，相当于给电脑安了个赛博义眼。而像Codex这种更进一步，有Computer Use功能，可以全局截图反馈然后操作——相当于你电脑上的软件它都能打开，等模型能力更猛了，代打几局游戏也不是不可能。