• 请不要在回答技术问题时复制粘贴 AI 生成的内容
jinsongzhaocn
V2EX  ›  程序员

GLM 5.2, Design Arena(by The Intelligence Company) 榜单居然冲到第一了

  •  
  •   jinsongzhaocn · 2 days ago · 2215 views
    11 replies    2026-06-24 13:40:20 +08:00
    damontian
        1
    damontian  
       2 days ago via Android   ❤️ 3
    哪来的野鸡榜
    jinsongzhaocn
        2
    jinsongzhaocn  
    OP
       2 days ago
    @damontian 还行吧, 全球最著名的创业孵化器 Y Combinator ( YC ) 2025 年夏季训练营( S25 Batch )的明星毕业项目,并获得了 YC 合伙人的直接支持与早期投资.三个创始人 Grace Li 、Kamryn Ohly 和 Jayden Personnat 肯定都是哈佛毕业的
    mingtdlb
        3
    mingtdlb  
       1 day ago
    第一 这就有点扯淡了,榜单迟早被国产的玩坏了。目前我认为 claude 和 gpt 是顶级,国产还是有差距
    gloeaerris
        4
    gloeaerris  
       1 day ago   ❤️ 1
    @mingtdlb 这偏见太深了,又不是国产模型自己去测的,是你外国主子拿模型测的
    shintendo
        5
    shintendo  
       1 day ago
    @mingtdlb 好奇你说的“玩坏”是怎么个玩法?
    wwwwjack
        6
    wwwwjack  
       1 day ago
    呵呵 看看就好 他们高兴就行, 要是认真就输了
    mingtdlb
        7
    mingtdlb  
       1 day ago
    @gloeaerris 别急啊 孩子
    alexluo1
        8
    alexluo1  
       1 day ago
    @gloeaerris 都违法翻墙了还说这种话
    Rorysky
        9
    Rorysky  
       1 day ago
    @gloeaerris 国外这些 KOL 比你想得还要喜欢跟风
    gloeaerris
        10
    gloeaerris  
       19h 5m ago
    @alexluo1 哦,你违法翻墙出来不是看世界的?居然是来跪舔的啊 大清复活啦
    jinsongzhaocn
        11
    jinsongzhaocn  
    OP
       15h 0m ago
    @gloeaerris
    @mingtdlb
    说偏见有点过了,其实中国家长都这样对自己苛刻,也一代代遗传下来了。
    至于玩坏,其实都一样,claude fable 很多测试都以安全为由跳过。公认的 SWE-bench Verified 指标据说居然跳过了几百个,算做通过了,所以才出现了 95%的遥遥领先。这个测试指标里,GLM 完成了 4000 多个测试,fable 完成了 3000 多个。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   925 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 20:41 · PVG 04:41 · LAX 13:41 · JFK 16:41
    ♥ Do have faith in what you're doing.