转载摘要

本文以应用生成为场景，设计了一系列 testcase ，主要考查模型的推理能力及指令遵从的能力，测评了当前主流的国内外大模型。以下为关键结论：

原文链接

没想到百度表现这么差……

模型

testcase

裸泳

遵从

10 条回复 • 2023-10-24 15:21:03 +08:00

nomagick

2023-10-23 19:29:52 +08:00

testcase 太烂，什么乱七八糟的，完全就是先入为主。

prompt 完全就是驴唇不对马嘴，这个任务给人类做别人都要骂娘，起码找个能和人正常交流的的出题吧。
合情推断就是把手上在 GPT4 上能运行的 prompt 拿过来，放在其他模型上测。

不如说是模型容错性能测试，模型 SB 耐受指数测试

codehz

2023-10-23 20:40:30 +08:00

汉语精调大模型用纯英语 testcase ，这不是为难人嘛。。。

yanyao233

2023-10-23 21:38:53 +08:00

啥？ baichuan2 这么差？不至于吧....其他很多评测报告+我自己的主观体验感觉并没有这么差啊

zhlmmc

2023-10-24 09:21:44 +08:00

@nomagick 不要推己及人。你倒是写一个 gpt-4 做不出来，但是其他模型能做出来的 testcase ？

zhlmmc

2023-10-24 09:22:35 +08:00

@codehz 如果是这样的话，为什么 Minimax 表现这么好？

codehz

2023-10-24 10:32:34 +08:00

评价是有很多维度的，排序只是恰好命中了合适的维度，举个例子，中文大模型（包括精调的）的使用场景，除了一个合规性，还有一个就是回答问题的时候不会无故蹦出英语答案。即使是 GPT-4 ，有时候也会在要求用中文回复的时候使用英语回答，如果把这种 testcase 加进去，那排序就不好说了。
最离谱的是啥，这 repo 只给了 15 个 testcases ，怎么看怎么像写论文的时候从实验数据里 cherry pick 出想要的结果的那种情形，你要说这玩意有啥代表性，反正我是看不出。

nomagick

2023-10-24 11:30:47 +08:00

@zhlmmc 太简单，全文背诵出师表

Bazingawang

2023-10-24 15:01:56 +08:00

@nomagick 这个 gpt4 还真行……

nomagick

2023-10-24 15:03:42 +08:00

@Bazingawang 后半段就不对了，很多模型都有这毛病

Bazingawang

2023-10-24 15:21:03 +08:00

@nomagick 看了下确实

大模型你方唱罢我登场，到底谁在裸泳？

转载摘要