Claude能否超越人类操作？

AI资讯2年前 (2024)发布 admin

50.4K 0 2529

据小易智创xiaoyizc.com（不可错过的AI创业项目）观察：自从Anthropic在十月推出Claude的“计算机使用”功能以来，AI 智能体的惊人能力引发了广泛的关注。这项创新让Claude成为首个能通过图形用户界面（GUI）与人类互动的前沿模型。Claude通过获取桌面屏幕截图，并灵活运用键盘和鼠标进行各种任务，这种无缝的操作方式为用户提供了极大的便利，打破了传统API接口的局限。

新加坡国立大学Show Lab对Claude进行了多项任务的测试，涵盖了网络搜索、工作流程处理、办公室生产力及视频游戏等领域。这些任务考察了Claude在不同场景下的表现，例如在网页上搜索并购买商品，或是将信息从网站提取并整合到电子表格中。研究人员从规划、行动和评估三个维度对Claude的表现进行了详尽评估。

Claude在执行复杂任务时表现得令人叹为观止。它能够清晰地制定计划，逐步执行并实时评估自己的进展。尤其在多个应用之间的协调能力上，例如将网页信息复制到电子表格，Claude展示了非凡的效率。然而，它也偶尔会出现一些简单失误，这些错误在普通用户看来都是轻而易举可以避免的。例如，在一次任务中，Claude未能完成订阅，因为没有向下滚动网页找到相应按钮。此外，它在执行选择和替换文本等显而易见的任务时显得相当笨拙。更值得注意的是，Claude有时并未意识到自己的错误，或是对未能达成目标的原因做出错误的假设。

研究人员指出，Claude在自我评估机制方面的不足可能是导致这些失误的根源，因此未来需要改进GUI代理框架，以增强自我评估模块。结果还显示，目前的GUI代理无法完全模拟人类使用计算机时的微妙差异。虽然对于企业来说，利用简单文本描述进行任务自动化充满诱惑，但当前技术尚未成熟到可以大规模应用的程度，模型行为的不稳定性可能导致在敏感应用中的不可预知后果。在广泛部署之前，企业还需谨慎考虑将大型语言模型（LLM）授权鼠标和键盘所带来的安全风险。

尽管如此，像Claude这样的工具依然能够帮助产品团队探索创意与迭代解决方案，从而在开发新功能或服务之前节省大量时间和精力。总之，虽然AI在自动化操作方面展现出巨大的潜力，但要实现完美应用仍需不断努力和改进。
Claude能否超越人类操作？