V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
beimenjun
V2EX  ›  分享发现

赛博斗蛐蛐 - 大模型写翻页时钟 - Opus-4.6/GPT-5.4/K2.5/MiMo-V2-Pro/GLM-5/Qwen3.5-Plus/某 2.7/某包

  •  
  •   beimenjun ·
    PRO
    · 8 小时 13 分钟前 · 722 次点击

    前情提要

    因为做了个「📦豆腐」 https://www.v2ex.com/t/1199643 ,不可避免的需要做各个「主流」模型的适配。

    因此买了一堆 Coding Plan 的会员,以及给平台充了 Token 费用。

    友情提示

    本测评仅对「📦豆腐」 0.0.3 版本有效,不代表相关模型的实际表现。

    也不构成任何购买建议。

    本次模型以及购买渠道

    • Claude Opus 4.6 (Claude 官网 Max 订阅)
    • OpenAI GPT-5.4 ( OpenAI 官网 ChatGPT Plus 订阅)
    • Kimi K2.5 (月之暗面官网)
    • 小米 Mimo-V2-Pro (小米 MiMo 官网)
    • GLM-5 (z.ai Pro 订阅)
    • Qwen3.5-Plus-2026-02-15 (阿里云)
    • Minimax M2.7 Highspeed (Minimaxi Token Plan Max)
    • 豆包 doubao-seed-2.0-pro (火山引擎 Coding Plan Pro)

    测评流程

    1. 简单 prompt ,查看具体 Token 花费和实际成果
    2. 复杂 prompt 查看生成结果,并在实现的基础上,尽量一次说一个问题,看看能够调出基本实现功能的成品需要说多少次,花费如何

    第一项-简单 Prompt

    Prompt

    做一个翻页时钟
    

    图像结果

    Token 和时间耗费

    1. Claude Opus 4.6:Token 58809+4089 ,时间 1 分 20 秒
    2. OpenAI GPT-5.4:Token 64142+11954 ,时间 4 分 08 秒
    3. Kimi K2.5:Token 31385+3877 ,时间 1 分 20 秒
    4. 小米 Mimo-V2-Pro:Token 96302+4137 ,时间 1 分 48 秒
    5. GLM-5:Token 61492+3687 ,时间 1 分 59 秒
    6. Qwen3.5-Plus-2026-02-15:Token 54114+4235 ,时间 1 分 04 秒
    7. Minimax M2.7 highspeed:Token 34379+4449 ,时间 1 分 06 秒
    8. 豆包 doubao-seed-2.0-pro:Token 56160+5562 ,时间 1 分 36 秒

    个人评价

    Opus 4.6 、GPT-5.4 、GLM-5 基本上完成了翻页时钟的时间显示,虽然动画更新上都有点小问题。就不排序了。

    豆包虽然看上去好像也完成了,但是有三个页板,动画也诡异。

    其他几家都属于做小孩那桌的水平。

    第二项-复杂 Prompt

    Prompt

    实现一个高质量的 Flip Clock (翻页时钟)页面。
    翻页时钟由上下两页共同显示当前数字。
    
    翻页机制:
    上页沿着上页底边向前向下翻,最终覆盖下页,实现数字更新
    
    目标:
    实现一个具有真实机械翻页质感的数字时钟,支持 HH:MM:SS 实时显示,并在数字变化时执行平滑、稳定、逼真的翻页动画。
    
    具体要求:
    1. 使用原生 HTML + CSS + JavaScript 实现。
    2. 页面加载后自动读取本地系统时间,并持续更新。
    3. 显示格式为 24 小时制:HH:MM:SS 。
    4. 视觉风格要求极简、高级、现代,背景为深色。
    5. 页面需水平垂直居中,并考虑手机横屏竖屏显示。
    6. 代码需具备良好结构、注释清晰、便于维护。
    

    Claude Opus 4.6

    修正次数 2️⃣

    耗时 66 秒+44 秒+93 秒 = 203 秒( 3 分 23 秒)

    总输入 Token 204,763

    总输出 Token 12,122

    评价:反应迅速,智商在线

    GPT-5.4

    修正次数 1️⃣

    耗时 5 分 08 秒+1 分 09 秒 = 6 分 17 秒

    总输入 Token 106,321

    总输出 Token 16,081

    评价:意外的精美,就是太慢了

    Kimi-K2.5

    修正次数 0️⃣

    耗时 2 分 41 秒

    总输入 Token 38,003

    总输出 Token 6,656

    评价:最开始我用 Kimi 和另外三家测试了多次翻页时钟,感觉 Kimi 表现一般,有点怀疑可能处罚到什么缓存机制,但是人家就是这一次就完成了所有需求。

    小米 Mimo-V2-Pro

    修正次数 8️⃣

    耗时 2 分 05 秒 + 1 分 47 秒 + 2 分 12 秒 + 1 分 11 秒 + 38 秒 + 1 分 16 秒 + 43 秒 + 49 秒 + 1 分 12 秒 = 11 分 53 秒

    总输入 Token 853,234 总输出 Token 30,413

    评价:次数不少,效果一般,但至少活是做完了,我其实测试前是比较期待的,因为此前前期测试的时候 GLM-5>MiMo-V2-Pro>Kimi K2.5 ,但是这次测试并没有延续表现。每次来回速度挺快,经常一分钟就给出结论,但是只是快,这样子是不够的。

    GLM-5

    修正次数 4️⃣

    耗时 3 分 21 秒 + 2 分 1 秒 + 2 分 17 秒 + 1 分 50 秒 + 1 分 2 秒 = 10 分 31 秒

    总输入 Token 321,948

    总输出 Token 19,853

    评价:可能是最像 Sonnet 的国产模型了,整体智商还算在线,就是有点慢

    Qwen3.5-Plus-2026-02-15

    修正次数 1️⃣2️⃣

    耗时 1 分 34 秒 + 2 分 57 秒 + 2 分 16 秒 + 1 分 45 秒 + 31 秒 + 42 秒 + 20 秒 + 1 分 07 秒 + 22 秒 + 48 秒 + 1 分 20 秒 + 51 秒 + 46 秒 = 15 分 19 秒

    总输入 Token 1,174,338

    总输出 Token 70,181

    评价:其实很早就基本完成了,但是最后 8 次修正都是在调整横屏的文字大小,它设计了一套逻辑一直不能匹配“竖屏不裁剪,横屏显示适应宽度”的需求。聪明肯定是聪明,最后多次都调不清楚,也是实打实的,至少这一次测试中显得又聪明又傻。

    另外两个模型

    M2.7 是让我觉得孺子可教,结果越调越火大,可能是我驾驭不了。

    某包则属于,一开始就觉得可能没戏了,硬着头皮调,最后觉得还是放过自己。

    所以两个图不放出来了。

    最后的话

    这次基本都是原厂平台 + 「📦豆腐」进行的测试,可能会有一些地方做得不太好。

    但是这个本质上也只是一个特定领域的单次表现。一个小的切面,并不全面。

    就「📦豆腐」上的使用来说,GLM-5 是国产模型里感觉最稳定的,感觉是个能干活的模型。小米一度让我觉得可以摸到 GLM-5 了,但是很快它又显得有点傻傻的。千问则是一个又聪明又傻的波动状态。而 Kimi K2.5 多次测试后一次通过让我觉得有点诡异,Kimi 有点坑的地方是原来 Plan 并不提供 K2.5 使用吗?搞得我最后又去 moonshoot 官网充值,白亏一笔 99 。

    至于和 GPT-5.4 以及 Claude 的差距,只能说国产模型当自强,每个都有很多路要走。但是不少已经可以干一些活了,我还是很乐观未来的 Token 降价和模型能力提升的。

    大家对「📦豆腐」有什么意见和建议也请反馈。

    15 条回复    2026-03-24 21:36:35 +08:00
    rrubick
        1
    rrubick  
       8 小时 10 分钟前
    老哥 AI 付费这么多,app 不是开源就是免费,大善人啊。。。
    beimenjun
        2
    beimenjun  
    OP
    PRO
       8 小时 2 分钟前
    @rrubick 其实我多数 App 都是古法编程+聊天框形式弄的。让 AI 深入开发还是 3 月份才刚开始的。

    「📦豆腐」这玩意开发出来让别人消耗 Token 的,其实早该做各个官方平台的模型适配的,所以前两天开始买了一些会员做适配,也做一下测评。

    另外,如果大家有其他领域要看测评,我倒是这一个月可以抽时间做做,不然这些 Plan 放着也是浪费。
    iShao
        3
    iShao  
       7 小时 54 分钟前
    kimi code plan 使用 kimi-for-coding/k2p5 这个调用不了 2.5 吗?
    beimenjun
        4
    beimenjun  
    OP
    PRO
       7 小时 51 分钟前
    @iShao kimi-for-coding 不是模型名称吗?这玩意实际是 2.5 吗?
    iShao
        5
    iShao  
       7 小时 44 分钟前
    @beimenjun #4 之前把 kimi 的 code plan 放在 claude code 里用, 要配置模型的. 要么 thinking 要么 2.5, 不清楚你说的用不了 2.5 是啥情况, 我现在没有续费了
    codehz
        6
    codehz  
       7 小时 43 分钟前
    所以就直接跳过 sonnet 了吗,感觉这个才是 A\家比较实用的模型()
    idealhs
        7
    idealhs  
       7 小时 38 分钟前
    经典 GPT 非要带上标题,我都不知道 OpenAI 怎么写的预提示词
    beimenjun
        8
    beimenjun  
    OP
    PRO
       7 小时 25 分钟前
    @codehz 呼声高我就做一下 Sonnet ,确实是个挺好的参考,一开始只想着各家旗舰互相斗蛐蛐。
    soleils
        9
    soleils  
       7 小时 19 分钟前
    国产 GLM5 还是最稳的,GPT5.4 修 bug 是最强
    70nY
        10
    70nY  
       6 小时 59 分钟前   ❤️ 1
    https://clocks.brianmoore.com 可以看看这个网站也有画钟
    JYii
        11
    JYii  
       6 小时 47 分钟前
    @70nY #10 没看说明前,每分钟刷新吓我一跳,指针都飞了。

    OPUS 4.6 还是稳,稳得跟铁蛋似的。
    beimenjun
        12
    beimenjun  
    OP
    PRO
       6 小时 44 分钟前
    @70nY 这个网站有意思。
    banmuyutian
        13
    banmuyutian  
       5 小时 41 分钟前
    好玩
    Lanayaaa
        14
    Lanayaaa  
       2 小时 14 分钟前
    没有 gemini3.1pro 吗
    cskeleton
        15
    cskeleton  
       2 小时 11 分钟前   ❤️ 1
    原封不动的用了第二段 Prompt ,

    https://imgur.com/a/CLDVdDe
    上面这个是 Gemini 3.1 Pro High 在 Antigravity 中用 Plan Mode 实现的。卡片没有问题,动画很流程,但是两个:分隔符错位了。
    此外 Antigravity 在完成之后尝试开启一个 Chrome Agent 测试,但是开了 Chrome 不知道为何一直不能正确打开 HTML ,转头尝试打开 www.google.com 也失败,就无限循环卡死在测试了。

    https://imgur.com/a/rCX4ndd
    上面这个是用 Cursor Auto 在 Plan Mode 实现的,翻页动画僵硬,先播完动画,然后翻了半个卡片,再翻半个卡片。截图告诉它动画不对,改了一次还是这样。

    由于用了 Plan 模式,所以都不算快,token 用量什么的我就没关注了。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2668 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 15:48 · PVG 23:48 · LAX 08:48 · JFK 11:48
    ♥ Do have faith in what you're doing.