V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lcwing
V2EX  ›  分享发现

Anthropic 发布了更强大的 Claude 3 AI,性能超越 GPT4!

  •  
  •   lcwing · 258 天前 · 3388 次点击
    这是一个创建于 258 天前的主题,其中的信息可能已经有所发展或是发生改变。

    昨天晚上,Anthropic 公司推出 Claude 3 系列模型 ,被视为迄今最快且最强大的聊天机器人,能总结大约 20 万个单字(约一到两本长篇小说),使用者可上传照片、图表、文件等进行分析和解答,全面超越 GPT-4 ,大型语言模型(LLM) 的霸主一夕换人!

    Anthropic 是一家人工智能初创公司,得到了亚马逊(以及其他公司)的支持,投资额达 40 亿美元。该公司是有效利他主义运动的松散一部分,这实际上意味着它试图以安全、负责任的方式开发人工智能技术,造福公众,而不仅仅是股东。

    Claude 3 包括三个顶尖的模型,按能力递增排序:Claude 3 Haiku 、Claude 3 Sonnet 和 Claude 3 Opus 。

    Anthropic 表示,Claude 3 系列模型在推理、数学、编码、多语言理解和视觉方面,都竖立了新的产业基准。

    Claude 3 模型系列

    Claude 3 绰号涵盖了三个新的 LLMs ,其中最有能力的是 Claude 3 Opus 。这是 Anthropic 的全新高级 AI 模型,仅适用于 Claude Pro 用户。根据该公司的基准测试,其研究生水平推理能力在测试时得分为 50.4%,而 GPT-4 的得分为 35.7%。

    接着是 Claude 3 Sonnet ,如果您不想支付 Claude Pro 订阅费用,可以使用它。当然,它仍然被认为是非常有能力的,其研究生测试分数为 40.4%(再次与 GPT-4 的 35.7% 分数相比)。

    最后是 Claude 3 Haiku ,这是目前尚未发布的第三个模型。就复杂性和大多数功能而言,它位于家族树的底部,但其设计目的是成为最快的版本并提供近乎即时的响应。

    Claude3 与 GPT4 的比较

    以下是 Claude 3 与多个模型的比较:

    由此可见,Claude3 已经超越了 GPT4 ,成为当前最强大的模型!

    极快的响应速度

    Claude 3 可以支持实时客户交流、自动文本补全和数据提取等任务,这些任务要求响应迅速且即时。Haiku 模型是最快速度和高成本效益的,它能够在短短三秒内处理和解读 arXiv 上的信息密集研究论文(约 10k 个字符),包括论文中的图表和图形元素。我们预期 Haiku 在发布后将进一步优化性能。相比之下,Sonnet 在处理速度上比 Claude 2 和 Claude 2.1 快两倍,并展现出更高的智能水平。它特别适用于需要快速反应的场景,如知识查询或销售流程自动化。至于 Opus ,则在保持与 Claude 2 和 2.1 相似的处理速度的同时,提供了更高级别的智能。

    超强的视觉能力

    Anthropic 发表了一份长达 42 页的技术报告,以介绍自家这 3 款模型。Claude 3 系列模型能够支援即时使用者交流、自动完成和资料撷取等任务(需要立即且即时的回馈)。Anthropic 预计,在模型发布后,其效能还将得到进一步的最佳化。Claude 3 模型拥有与其他领先模型相当的复杂视觉能力。它们能够处理包括照片、图表、图形和技术图纸在内的各种视觉格式。

    更精准的答案

    Claude 使用了一套大型的复杂、事实性问题集,这些问题针对当前模型的已知弱点。他们将响应分类为正确答案、错误答案(或幻觉),以及不确定性的承认,即模型表示它不知道答案,而不是提供错误信息。与 Claude 2.1 相比,Opus 在这些具有挑战性的开放式问题上展示了两倍的准确度提升(或正确答案),同时还降低了错误答案的水平。

    也就是说模型会告诉你他不懂,而不是乱说从而误导你。(深受 GPT4 的欺骗)

    图片

    更长的记忆

    Claude 提供了长达 200k 的上下文窗口。为了有效处理长篇的上下文提示,模型需要强大的回忆能力。"大海捞针"( Needle In A Haystack ,NIAH )评估衡量模型从大量数据中准确回忆信息的能力。我们通过使用 30 个随机针/问题对中的一个来增强这一基准测试的健壮性,并在多样化的众包文档库上进行测试。Claude 3 Opus 不仅实现了近乎完美的回忆能力,准确率超过 99%,而且在某些情况下,它甚至识别出了评估本身的局限性,通过识别“针”句似乎是人为插入到原始文本中的。

    修正过度拒绝的问题

    Claude 旧模型常因为不够理解而拒绝回答,Claude 3 系列已在此方面显著改进,Opus 、Sonnet 和 Haiku 在面对可能触及系统安全边界的询问时,大大减少了拒绝回应的情况。

    价格方面

    虽然 Claude3 现在能够吊打 GPT4 ,但是价格实在是不太友好。API 比起 GPT4-Turbo 要贵很多。

    现在这样看来还是 GPT4 比较划算。

    GPT-4 Turbo (128K): $10 / $30

    Claude 3 Opus: $15 / $75

    Sonnet:$3 / $15

    Haiku:$0.25 / $1.25

    上面是 API 的价格,订阅 Claude Pro 也是可以使用 Claude 3 Opus 的,订阅价格跟 ChatGPT Plus 一样是每月 20 美元。

    Claude 官网:Claude \ Anthropic

    参考文章:Claude3 深夜发布,全面超越 GPT4 !

    15 条回复    2024-03-06 13:33:22 +08:00
    xiaoz
        1
    xiaoz  
       258 天前 via Android
    Claude 封号比 OpenAI 还狠
    kneo
        2
    kneo  
       258 天前 via Android
    开发订阅了吗?
    kneo
        3
    kneo  
       258 天前 via Android
    这个开放了吗?还是要等?
    lekai63
        4
    lekai63  
       258 天前
    claude 以前有个号,不过没开通订阅。

    关于 ai 能力的化,我觉得评分是一方面,具体还是要看自己的使用情况,比如这位推主可能并不觉得 claude 超越 gpt-4
    https://twitter.com/RubenHssd/status/1764692641436827842
    lcwing
        5
    lcwing  
    OP
       258 天前
    @kneo 能用了 但是很容易封号
    andrew2558
        6
    andrew2558  
       258 天前
    试了下,效果是真的可以
    Pepega
        7
    Pepega  
       258 天前
    目前来看,编程是 claude 的优势,附上比较视频
    ?si=mQJoqH8FbSr16UQD
    min
        8
    min  
       258 天前
    测试了一下在特定任务上和 gpt4 互有胜负,有竞争对用户来说是好事啊
    James369
        9
    James369  
       258 天前
    为什么我在注册页面输入手机号码地方找不到 China ,但是有 TW 。。
    nicoljiang
        10
    nicoljiang  
       258 天前
    测了一个写程序,差了 gpt4 不少。
    flynnlemon
        11
    flynnlemon  
       257 天前
    200k 的长文本输入月之暗面已经做了吧,感觉不是什么太新鲜的事情了
    uses090
        12
    uses090  
       257 天前 via iPhone
    Claude 3 确实写代码比 GPT4 和 Team 强很多,但是审查也比对手严重,稍微涉及到爬虫的东西即便有时候骗过去了他发现生成的代码有爬的倾向就立刻又给撤回了
    d29107d
        13
    d29107d  
       257 天前 via Android   ❤️ 1
    geniusmyn
        14
    geniusmyn  
       257 天前
    刚注册完还没来得及绑手机号就被封了 请问有无大佬有解决办法
    Kamiimeteor
        15
    Kamiimeteor  
       257 天前
    有人拼车 Claude3 pro 吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1125 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 18:49 · PVG 02:49 · LAX 10:49 · JFK 13:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.