V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Bazingawang
V2EX  ›  分享发现

大模型你方唱罢我登场,到底谁在裸泳?

  •  
  •   Bazingawang · 187 天前 · 1558 次点击
    这是一个创建于 187 天前的主题,其中的信息可能已经有所发展或是发生改变。

    转载摘要

    本文以应用生成为场景,设计了一系列 testcase ,主要考查模型的推理能力及指令遵从的能力,测评了当前主流的国内外大模型。以下为关键结论:

    图片

    原文链接

    没想到百度表现这么差……

    10 条回复    2023-10-24 15:21:03 +08:00
    nomagick
        1
    nomagick  
       187 天前
    testcase 太烂,什么乱七八糟的,完全就是先入为主。

    prompt 完全就是驴唇不对马嘴,这个任务给人类做别人都要骂娘,起码找个能和人正常交流的的出题吧。
    合情推断就是把手上在 GPT4 上能运行的 prompt 拿过来,放在其他模型上测。


    不如说是模型容错性能测试,模型 SB 耐受指数测试
    codehz
        2
    codehz  
       187 天前
    汉语精调大模型用纯英语 testcase ,这不是为难人嘛。。。
    yanyao233
        3
    yanyao233  
       187 天前
    啥? baichuan2 这么差?不至于吧....其他很多评测报告+我自己的主观体验感觉并没有这么差啊
    zhlmmc
        4
    zhlmmc  
       186 天前
    @nomagick 不要推己及人。你倒是写一个 gpt-4 做不出来,但是其他模型能做出来的 testcase ?
    zhlmmc
        5
    zhlmmc  
       186 天前
    @codehz 如果是这样的话,为什么 Minimax 表现这么好?
    codehz
        6
    codehz  
       186 天前
    评价是有很多维度的,排序只是恰好命中了合适的维度,举个例子,中文大模型(包括精调的)的使用场景,除了一个合规性,还有一个就是回答问题的时候不会无故蹦出英语答案。即使是 GPT-4 ,有时候也会在要求用中文回复的时候使用英语回答,如果把这种 testcase 加进去,那排序就不好说了。
    最离谱的是啥,这 repo 只给了 15 个 testcases ,怎么看怎么像写论文的时候从实验数据里 cherry pick 出想要的结果的那种情形,你要说这玩意有啥代表性,反正我是看不出。
    nomagick
        7
    nomagick  
       186 天前
    @zhlmmc 太简单,全文背诵出师表
    Bazingawang
        8
    Bazingawang  
    OP
       186 天前
    @nomagick 这个 gpt4 还真行……
    nomagick
        9
    nomagick  
       186 天前
    @Bazingawang 后半段就不对了,很多模型都有这毛病
    Bazingawang
        10
    Bazingawang  
    OP
       186 天前
    @nomagick 看了下确实
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1703 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 16:31 · PVG 00:31 · LAX 09:31 · JFK 12:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.