Claude能否超越人类操作?

AI资讯2周前发布 admin
41.4K 0
 小易智创平台

小易智创xiaoyizc.com(不可错过的AI创业项目)观察:自从Anthropic在十月推出Claude的“计算机使用”功能以来,AI智能体的惊人能力引发了广泛的关注。这项创新让Claude成为首个能通过图形用户界面(GUI)与人类互动的前沿模型。Claude通过获取桌面屏幕截图,并灵活运用键盘和鼠标进行各种任务,这种无缝的操作方式为用户提供了极大的便利,打破了传统API接口的局限。

新加坡国立大学Show Lab对Claude进行了多项任务的测试,涵盖了网络搜索、工作流程处理、办公室生产力及视频游戏等领域。这些任务考察了Claude在不同场景下的表现,例如在网页上搜索并购买商品,或是将信息从网站提取并整合到电子表格中。研究人员从规划、行动和评估三个维度对Claude的表现进行了详尽评估。

Claude在执行复杂任务时表现得令人叹为观止。它能够清晰地制定计划,逐步执行并实时评估自己的进展。尤其在多个应用之间的协调能力上,例如将网页信息复制到电子表格,Claude展示了非凡的效率。然而,它也偶尔会出现一些简单失误,这些错误在普通用户看来都是轻而易举可以避免的。例如,在一次任务中,Claude未能完成订阅,因为没有向下滚动网页找到相应按钮。此外,它在执行选择和替换文本等显而易见的任务时显得相当笨拙。更值得注意的是,Claude有时并未意识到自己的错误,或是对未能达成目标的原因做出错误的假设。

研究人员指出,Claude在自我评估机制方面的不足可能是导致这些失误的根源,因此未来需要改进GUI代理框架,以增强自我评估模块。结果还显示,目前的GUI代理无法完全模拟人类使用计算机时的微妙差异。虽然对于企业来说,利用简单文本描述进行任务自动化充满诱惑,但当前技术尚未成熟到可以大规模应用的程度,模型行为的不稳定性可能导致在敏感应用中的不可预知后果。在广泛部署之前,企业还需谨慎考虑将大型语言模型(LLM)授权鼠标和键盘所带来的安全风险。

尽管如此,像Claude这样的工具依然能够帮助产品团队探索创意与迭代解决方案,从而在开发新功能或服务之前节省大量时间和精力。总之,虽然AI在自动化操作方面展现出巨大的潜力,但要实现完美应用仍需不断努力和改进。
Claude能否超越人类操作?

© 版权声明
 小易智创平台

相关文章