本站没有人访问都是0,没有赚取一分钱
请扫码咨询

新闻动态

NEWS CENTER

Computer Use Agent的技能架构解析

2025-08-31

Computer Use Agent的技能架构解析

a16z的技能剖析部分特别值得深入研究,由于它揭示了构建Computer Use agent的完好技能栈。他们指出,Computer Use agent架构仍然是一个活泼的研究领域,开发者仍在摸索如安在日益强壮的模型和辅助东西之间分配职责。

从技能架构图来看,整个体系被分为几个关键层次。最上层是Interaction Frameworks(交互框架),为模型供给与用户界面或DOM结构化交互的东西。中间层是Models(模型)自身,作为决策中心,解说输入并宣布指令。然后是Durable Execution & Orchestration(持久履行与编排)层,确保长时间运转的多过程Computer Use工作流程不会中断。再下面是Browser Control Layers(浏览器操控层),供给向浏览器宣布指令的抽象接口。最底层是Execution Environments(履行环境),为扩展agent会话供给云和桌面基础设施。

我特别重视他们对不同技能路径的剖析。在模型层面,目前主要有两种方法:根据像素的模型和根据DOM/代码的LLM。根据像素的模型操作屏幕截图并生成鼠标或键盘操作,最近我们看到我国的视觉agent(如UI-TARS、Qwen-VL)在OSWorld排行榜上攀升,开源模型如OpenCUA缩小了与专有CUA的距离。而根据DOM/代码的LLM处理结构化HTML、可访问性树或程序文本,发生选择器等级的指令和推理轨迹。


从实际应用角度看,我发现商场反馈显示,在许多情况下,仅根据DOM/代码的方法对大多数任务来说已经满足好了,在许多情况下比根据像素的方法具有更高的准确性和更低的推迟。这个发现很有意思,由于它暗示了技能开展的一个重要方向:有时候更复杂的技能路径并不一定带来更好的成果,关键是要找到效率和作用的最佳平衡点。

在履行环境方面,我看到了一个非常活泼的生态体系正在形成。Anchor Browser、Browserbase、Steel、Hyperbrowser和Kernel布置浏览器实例集群,供给可观测性和重放功能;Scrapybara通过API供给完好的Ubuntu或Windows桌面,将GUI操作与shell指令混合;CUA风格的沙盒模仿最终用户设备,用于培训和评价。这种基础设施的多样化开展,说明晰整个Computer Use生态体系的成熟度正在快速提高。

相关推荐