V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fwin3001
V2EX  ›  OpenAI

疑似实锤 ChatGPT 性能下降,大佬们有没 GPT-4 的前后对比做参考

  •  
  •   fwin3001 · 2023-07-24 10:39:32 +08:00 · 3345 次点击
    这是一个创建于 472 天前的主题,其中的信息可能已经有所发展或是发生改变。

    新闻来源:solidot

    研究人员利用 OpenAI 的 API 在数学解题、回答敏感问题(如违法赚钱的方式)、代码生成和视觉推理等任务上测试了两个模型在 2023 年 3 月和 6 月两个版本的表现。结果显示,GPT-3.5 和 GPT-4 存在显著的性能差异,如 GPT-4 在素数识别任务中 3 月的正确率高达 97.6%,但 6 月仅仅只有 2.4%。GPT-3.5 的性能则有明显改进。这项研究再次引发了有关 OpenAI 是否为节省费用而调整模型的议论。

    一直纠结要否订阅 GPT-4 ,例如在 poe 或者 App Store 官方 app 。而且,最近 Claude 和 bard 也挺好用。当然,主要还是贫穷限制了想象力

    16 条回复    2023-07-25 10:08:52 +08:00
    tsja
        1
    tsja  
       2023-07-24 12:06:18 +08:00 via iPhone
    plus 会员一直在订阅,感觉 gpt4 明显越来越智能。不太清楚是不是 api 和网页版的模型是否一样
    fwin3001
        2
    fwin3001  
    OP
       2023-07-24 12:15:31 +08:00
    @tsja 谢谢经验提供。我也直觉认为应该是越来越好用才对,例如像这种自定义角色的功能
    SingeeKing
        3
    SingeeKing  
       2023-07-24 12:35:28 +08:00
    主观感觉 4 确实变傻了,甚至我感觉 Claude 比 4 给出的要更精准

    如果 ChatGPT Plus 还没啥大的更新下个月开始我就换退了
    dawn009
        4
    dawn009  
       2023-07-24 13:28:41 +08:00
    为了让 AI 更“安全”而增加的各种限制,副作用就是可能让 AI 智力下降。很难在不损害模型的前提下让它输出更“符合社会标准”的结果。看来 OpenAI 也没法很好的解决这个问题。
    huahsiung
        5
    huahsiung  
       2023-07-24 14:16:30 +08:00
    网上看到的,这个简单积分

    ∫(1,e)∫(e,e^2) 1/xy dxdy=?

    原来能算对,现在可能不行,又可能行

    https://i.niupic.com/images/2023/07/20/byBV.JPG
    8355
        6
    8355  
       2023-07-24 14:25:23 +08:00
    确实有很大问题,现在一些文档上直接写的 demo 问题,以前懒得查直接问都可以给出答案,现在要追问一次修正。我这个月都不打算续费了。
    fwin3001
        7
    fwin3001  
    OP
       2023-07-24 14:32:37 +08:00
    @huahsiung 试了下,不简单。官方 ChatGPT 3.5 算出来 1 ,Claude 算出来 e-1 ,bard 算出来 2 。然后回复 The final answer should be 1. Please check your calculation process ,之后都算出了 1 。感觉这个以后可以用来作为质量参考标准
    huahsiung
        8
    huahsiung  
       2023-07-24 15:00:02 +08:00
    @fwin3001 文心的 https://i.niupic.com/images/2023/07/20/byCi.png

    星火的 https://i.imgtg.com/2023/07/20/OF6D5I.png

    星火是强行正确,最后一步是,ln(e)-ln(1)-ln(2)-ln(e)=ln(2)-ln(1)=1 。可能是回答前先用计算机算了一篇代数 保证准确性。然后再用大型语言回答的。

    maple 算出来也是 1
    CruelMoon
        9
    CruelMoon  
       2023-07-24 17:21:56 +08:00
    4 明显越来越蠢,同样的问题 5 月能看懂 6 月之后经常出错
    pangxiang
        10
    pangxiang  
       2023-07-24 18:17:22 +08:00
    我用的 gpt4 测试了一下,能算出来
    问:假设你是一名数学专家,精通微积分、线性代数等知识,请你计算如下式子:
    ∫(1,e)∫(e,e^2) 1/xy dxdy=?

    答:这是一个双重积分的问题,其中的积分是对一对变量 x 和 y 的函数进行的,这个函数是 1/xy 。因此,我们需要使用二重积分的规则来解决这个问题。

    首先,我们要对内层的积分进行计算,也就是关于 x 的积分:

    ∫(1,e) 1/xy dx 。

    对于这个积分,可以先固定 y 值,然后对 x 进行积分。函数 1/xy 的不确定积分(原函数)是 ln|x|/y ,所以,我们可以把积分区间的上下限代入这个原函数,然后做差。

    所以,

    ∫(1,e) 1/xy dx = ln|e|/y - ln|1|/y = ln(e)/y - ln(1)/y = 1/y.

    然后,我们需要对这个结果进行另一个积分,也就是关于 y 的积分:

    ∫(e,e^2) 1/y dy.

    同样的,函数 1/y 的不确定积分(原函数)是 ln|y|,所以,我们把积分区间的上下限代入这个原函数,然后做差。

    所以,

    ∫(e,e^2) 1/y dy = ln|e^2| - ln|e| = 2 - 1 = 1.

    所以,原来的双重积分等于 1 。
    xuelang
        11
    xuelang  
       2023-07-24 18:54:55 +08:00
    个人感觉 gpt4 明显越来越智能的
    nasheep
        12
    nasheep  
       2023-07-24 20:32:59 +08:00 via Android
    确实是这样,前一天使用代码解释器随便一说它就能理解,第二天同样的问题它就理解不了了,但是也不好说,毕竟这种东西一直在动态变化着
    youthfire
        13
    youthfire  
       2023-07-24 20:49:22 +08:00
    我自己体会是网页版明显降智,api 保持原质量,但老模型 gpt-4-0314 质量更高( api )
    wushenlun
        14
    wushenlun  
       2023-07-25 00:27:27 +08:00 via Android
    还要啥证据,回答甚至比 3.5 拉胯了,一个简单问题反复回答错误
    xuelang
        15
    xuelang  
       2023-07-25 07:50:39 +08:00
    系统基准评测 https://selfboot.cn/2023/07/25/gpt4_prompt_evals/
    各位可以时不时跑一下评测看看
    houshuu
        16
    houshuu  
       2023-07-25 10:08:52 +08:00 via iPhone
    不一定,训练用的奖励函数和网友自己总结的测试基准天生存在 bias 。
    我自己每天用几十次感觉没啥特别大的变化
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2444 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 16:02 · PVG 00:02 · LAX 08:02 · JFK 11:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.