目前靠谱的 AI 模型水平排行榜有哪些? marena.ai 的 leaderboard 是否值得参考?
我看经常有大佬们提及 https://lmarena.ai/?leaderboard ,但是我看 gpt-4o 居然排名第二,比 gpt-o1-preview 和 Claude 3.5 Sonnet 还要强。个人平时用 AI 提问写代码,感觉 gpt-o1-preview 和 Claude 3.5 Sonnet 提供的基本都是可以直接用的,gpt-4o 提供的有时候不能使用。
有没有靠谱的 AI 模型水平排行榜? marena.ai 的 leaderboard 的排名依据是啥?应该不是生成代码能力吧?
1
eremit 1 天前 via Android 1
|
3
Persimmon08 1 天前
我也觉得 gpt4o 写代码的能力不如 o1 ,最近发布会后 4o 的表现更是比不上之前,似乎把算力都分配给 o1 了
|
4
Liftman 1 天前 1
反正都是第一梯队的。这个所谓的排名也只是针对特定情况下的分数。
你看国产模型的名次也不低,但是实际差太远了,全靠拟合。 只能说自己试才知道哪个最好。 |