当前位置：首页 >新闻动态 >快手号出售

Computer Use为什么是AI Agent的突破

2025-08-31

你有没有想过，AI agent或许真的要变成你的数字搭档了？不是那种只能回答问题的谈天机器人，也不是局限在某个特定软件里的自动化东西，而是可以像人类职工相同，在你的电脑上打开各种软件、处理杂乱使命、乃至解决突发问题的真实智能助手。最近，a16z的合伙人们发布了一篇深度剖析文章，体系梳理了Computer Use（计算机运用）技能的开展现状和未来前景。他们以为，这项技能正在将AI agent从概念面向实践，让AI真实具有了处理端到端数字作业流的才能。

看完他们的剖析后，我陷入了深度思考。过去几年，我们见证了太多AI东西的呈现，但大多数都有显着的局限性——要么只能处理特定类型的使命，要么需求人工进行大量配置和监督。而Computer Use技能的呈现，或许真的代表了一个转折点。它让AI agent可以像人类相同运用电脑，点击界面、填写表单、在不同软件之间切换，这意味着AI第一次具有了处理实践国际中那些杂乱、多步骤作业流程的才能。这不仅仅是技能进步，更或许是企业数字化劳动方法的底子性变革。

Computer Use为什么是AI Agent的突破

a16z的合伙人们在文章中提出了一个中心观念：Computer Use是实现真实AI agent的要害使能技能。他们以为，AI agent的有用性取决于两个要素：可以拜访的东西数量，以及跨东西推理的才能。而Computer Use技能在这两个方面都带来了巨大提高，让AI agent获得了运用任何软件的广度，以及将多个操作串联成完整作业流程的智能。

我深度思考后发现，这个观念提醒了过去AI应用的一个底子性限制。传统的AI东西往往依赖API接口或预定义的作业流程，这就像给AI制作了一个个孤岛，每个东西只能在自己的小圈子里发挥作用。即使是最先进的AI助手，也经常由于无法拜访某个软件的API，或者某个legacy system（传统体系）没有现代化的接口，而无法完结看似简略的使命。

但Computer Use改变了游戏规则。它让AI agent可以像人类用户相同与任何软件交互——通过点击按钮、填写表单、上传文件、乃至处理那些老旧的企业软件。这种才能的价值不仅在于扩展了AI可以运用的东西规模，更重要的是它消除了数字化程度不一致带来的妨碍。想想看，一个销售流程或许涉及CRM体系、邮件客户端、文档处理软件、内部审批体系，乃至一些只有图形界面的老旧东西。过去，AI无法处理这样的端到端流程，由于总有某个环节缺少API支持。

我以为a16z合伙人们提到的”东西可拜访性和推理才能的乘法效应”特别值得深思。当AI agent可以拜访更多东西，一起变得更善于运用这些东西时，它们可以处理的作业流程的规模和杂乱性会呈指数级增加。这不是简略的1+1=2的联系，而是或许呈现emergent capabilities（涌现才能）的情况。比方，一个可以操作浏览器、邮件和CRM的AI agent，或许会自主探究出新的作业方法，自动搜集和综合信息，乃至发现人类没有意识到的作业流程优化机会。

关于创业公司来说，这种技能突破意味着巨大的机会。a16z指出，AI领域最主要的商业机会一直是自动化作业和获取劳动力开销。Computer Use代表了迄今为止在仿制人类劳动才能方面最重要的发展。过去，那些缺少API拜访或API功用受限的软件东西构成了巨大的妨碍，特别是许多企业中心运用的legacy software（传统软件），如Epic、SAP和Oracle。具有推理才能和图形用户界面导航才能的Computer Use agent有用填补了这些空白，实现了端到端的作业自动化。

真实的应战：怎么让AI Agent习惯企业实践

虽然Computer Use技能前景宽广，但a16z的剖析也指出了一个要害应战：将这些agent大规模部署到企业环境中并非易事。他们以为，正确地将Computer Use垂直化，并协助企业采用这项技能，将是创业公司的重要探究领域。

这个观念让我想到了企业软件的杂乱实践。仅仅依托通用软件练习的Computer Use agent，比方ChatGPT agent或Claude，不太或许开箱即用地导航杂乱的企业软件环境。企业软件往往高度专业化且不直观，不同公司通常会以不同方法运用相同软件，施行定制化的视图、作业流程和数据模型。想想人类职工在参加新公司或学习新软件时通常需求多少训练时刻，就能了解这个应战有多大。

我在与各种企业打交道的过程中，深入领会到了这种定制化的杂乱程度。同样是SAP体系，不同公司的配置或许彻底不同，业务流程、用户权限、界面布局都有很大差异。即使是经验丰富的参谋，也需求花时刻了解每个公司的具体施行方法。关于AI agent来说，这种情况下的上下文了解变得至关重要。

a16z提出了一个十分实践的问题：为Computer Use模型供给上下文是一个杂乱的过程。相关的上下文或许包括书面说明、入职训练视频、浏览器操作录制，或者在某些情况下底子没有文档。怎么最好地向模型供给上下文也不是简略地在prompt开头添加文本那么简略，由于需求考虑图形和时刻维度。在这种情况下，retrieval和RAG（检索增强生成）的类比是什么？

上一篇：Computer Use Agent的技能架构解析

下一篇：企业级运用是 AI Agent 技能价值落地的中心场域