V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
spoock1024
V2EX  ›  OpenAI

Claude 3.5 Haiku 模型发布! Claude 3.5 Sonnet 重大升级,可操作计算机

  •  
  •   spoock1024 · 55 天前 · 2126 次点击
    这是一个创建于 55 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Claude 3.5 Haik 模型发布

    刚刚,Anthropic 宣布推出Claude 3.5 Haiku模型,并对 Claude 3.5 Sonnet 进行升级,同时推出了公测版的 computer use 功能,教 AI 像人一样操作计算。

    也就是 Claude 能够模仿人类的方式使用电脑,它可以自主查看屏幕、移动光标、点击按钮、输入文本等。还能够自动化执行多个步骤的复杂任务,如填写在线表格、搜索数据、提交报告等,从而大幅减少人工操作时间。

    Claude 3.5 能够在计算机界面上导航,通过切换窗口、打开菜单、选择选项等操作,完成多步骤的任务。

    开发者可以利用这项功能自动化重复任务、开发和测试软件、进行开放式任务(如研究),甚至在复杂的应用场景中进行交互。

    Claude 模拟人类的电脑交互

    • 屏幕查看:AI 能够“查看”计算机屏幕上的内容,识别界面元素,并根据指令进行交互。
    • 光标移动:Claude 3.5 能够模拟光标移动,准确定位目标区域,模仿人类在界面上的操作。
    • 点击按钮:模拟鼠标点击,执行界面上的按钮操作,推动任务的进一步完成。
    • 输入文本:AI 可以在文本框中输入数据,支持表单填写、文档编辑等任务。

    自动化复杂的多步骤任务

    • 任务自动化:AI 可自动执行多个步骤的复杂任务,如填写在线表格、数据检索、提交报告等,减少人工操作时间。
    • 多步骤导航:能够在计算机界面上导航,通过切换窗口、打开菜单、选择选项等完成多步骤任务。

    指令翻译与执行

    • 指令翻译:开发者可以给 AI 发出高层次的指令,例如“用电脑上的数据填写表格”,Claude 3.5 能够将这些指令翻译成具体的电脑操作步骤。
    • 基于 UI 的工作流:不仅可执行单步操作,还可在用户界面中基于任务要求实现多步骤的工作流。

    Claude 3.5 Sonnet 改进

    • 该版本在多项行业基准测试中表现优异,尤其在编程和工具使用任务上有显著提升。
    • 在编程测试( SWE-bench Verified )中表现提高到 49%,在零售领域的工具使用测试( TAU-bench )中提升至 69.2%,航空领域则达到了 46%。
    • 新版 Sonnet 与其前代版本保持相同的价格和速度,并在多步开发过程中提高了推理和编程能力。

    Claude 3.5 Sonnet 更强的编程能力

    • 显著提升编程任务性能:
      • Claude 3.5 Sonnet 在 SWE-bench Verified 编程测试中的得分从 33.4% 提高到 49.0%,表现优于所有其他公开可用的模型(包括 OpenAI 的 o1-preview 和专用的编程模型)。
    • 更好的推理与工具使用:
      • 在零售领域的 TAU-bench 工具使用测试中得分从 62.6% 提升到 69.2%;在航空领域的挑战性更大的测试中,从 36.0% 提升到 46.0%。
    • 改进的多步任务处理:
      • 新版 Sonnet 在 DevSecOps (开发与安全操作)任务中表现更优,有高达 10% 的推理能力提升,且保持与前代相同的响应速度。

    Claude 3.5 Sonnet 适用更多开发环境

    • 高效编程:
      • Claude 3.5 Sonnet 在多步软件开发过程中表现更优,对 AI 代理、工具使用和自动化任务等应用更具优势。
    • 企业合作测试:
      • 经过美国和英国 AI 安全研究所的联合预部署测试,确保在关键场景下的性能稳定性与安全性。
    • 用于 DevSecOps 和自主 AI 评估:
      • 例如,GitLab 在测试中发现该模型在 DevSecOps 任务上推理更准确,Cognition 公司则利用其在编码、规划和问题解决方面的提升,用于自动 AI 评估。

    Claude 3.5 Haiku 正式发布

    Claude 3.5 Haiku 是速度最快的新一代模型,在多项测试中超越了上一代的 Claude 3 Opus ,同时保持了低延迟和高指令跟随能力。该模型适用于用户界面任务、个性化体验生成等需求。

    • Claude 3.5 Haiku 是目前速度最快的模型,同时在多项智能基准测试中表现超越了 Claude 3 Opus 。
    • 在编程测试( SWE-bench Verified )中,Claude 3.5 Haiku 的得分为 40.6%,超过许多其他先进模型(如原版 Claude 3.5 Sonnet 和 GPT-4o )。
    • 该模型在低延迟、跟随指令的准确性以及工具使用的精确度方面都有显著提升。
    • 特别适用于用户界面任务、个性化体验生成和大规模数据处理(如购买记录、定价或库存记录)。

    Claude 3.5 Haiku 主要功能与优势

    • 高速度与低延迟: 该模型在响应速度上更快,保持高效的指令跟随能力,适合各种实时应用场景。
    • 指令跟随的改进: 能够准确理解和执行复杂任务,包括编程、工具使用等,这使得它在多步骤任务中的表现尤为出色。
    • 适合多场景的应用: 无论是用于专门的子代理任务、用户界面任务,还是需要处理大量个性化数据的场景,Claude 3.5 Haiku 都表现出色。

    Claude 3.5 Haiku 将在本月晚些时候上线,用户可以通过 Anthropic 的 API 、Amazon Bedrock 和 Google Cloud 的 Vertex AI 访问该模型。

    初期版本将仅支持文本输入,未来会加入图像输入功能,进一步扩展其应用范围。

    Claude 3.5 Haiku 模型发布! Claude 3.5 Sonnet 重大升级

    5 条回复    2024-10-23 09:07:45 +08:00
    haimianbihdata
        1
    haimianbihdata  
       55 天前 via Android
    这不高级 rpa 了?
    ziseyinzi
        2
    ziseyinzi  
       55 天前   ❤️ 2
    面向 SEO 写作的范例
    jhytxy
        3
    jhytxy  
       55 天前 via iPhone
    这回厉害了
    TimePPT
        4
    TimePPT  
       55 天前 via Android
    这种无营养内容简直是毒瘤。想要外链打推广节点去
    ninvfeng2020
        5
    ninvfeng2020  
       55 天前 via Android
    这个操作电脑得怎么用?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3480 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 10:56 · PVG 18:56 · LAX 02:56 · JFK 05:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.