当前位置：首页 >新闻动态 >快手号出售

Computer Use Agent的技能架构解析

2025-08-31

Computer Use Agent的技能架构解析

a16z的技能剖析部分特别值得深入研究，由于它揭示了构建Computer Use agent的完好技能栈。他们指出，Computer Use agent架构仍然是一个活泼的研究领域，开发者仍在摸索如安在日益强壮的模型和辅助东西之间分配职责。

从技能架构图来看，整个体系被分为几个关键层次。最上层是Interaction Frameworks（交互框架），为模型供给与用户界面或DOM结构化交互的东西。中间层是Models（模型）自身，作为决策中心，解说输入并宣布指令。然后是Durable Execution & Orchestration（持久履行与编排）层，确保长时间运转的多过程Computer Use工作流程不会中断。再下面是Browser Control Layers（浏览器操控层），供给向浏览器宣布指令的抽象接口。最底层是Execution Environments（履行环境），为扩展agent会话供给云和桌面基础设施。

我特别重视他们对不同技能路径的剖析。在模型层面，目前主要有两种方法：根据像素的模型和根据DOM/代码的LLM。根据像素的模型操作屏幕截图并生成鼠标或键盘操作，最近我们看到我国的视觉agent（如UI-TARS、Qwen-VL）在OSWorld排行榜上攀升，开源模型如OpenCUA缩小了与专有CUA的距离。而根据DOM/代码的LLM处理结构化HTML、可访问性树或程序文本，发生选择器等级的指令和推理轨迹。

从实际应用角度看，我发现商场反馈显示，在许多情况下，仅根据DOM/代码的方法对大多数任务来说已经满足好了，在许多情况下比根据像素的方法具有更高的准确性和更低的推迟。这个发现很有意思，由于它暗示了技能开展的一个重要方向：有时候更复杂的技能路径并不一定带来更好的成果，关键是要找到效率和作用的最佳平衡点。

在履行环境方面，我看到了一个非常活泼的生态体系正在形成。Anchor Browser、Browserbase、Steel、Hyperbrowser和Kernel布置浏览器实例集群，供给可观测性和重放功能；Scrapybara通过API供给完好的Ubuntu或Windows桌面，将GUI操作与shell指令混合；CUA风格的沙盒模仿最终用户设备，用于培训和评价。这种基础设施的多样化开展，说明晰整个Computer Use生态体系的成熟度正在快速提高。

上一篇：Agentic Coworkers：数字化劳动的未来形态

下一篇：Computer Use为什么是AI Agent的突破