V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
oldcai
V2EX  ›  OpenAI

挑战:通过一个问题,测试是不是 GPT4

  •  
  •   oldcai ·
    oldcai · 41 天前 · 1365 次点击
    这是一个创建于 41 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有很多场景,需要通过测试问题,推测模型。

    之前有朋友说,可以问:树上有 9 只鸟,猎人开枪打死一只,树上还剩下多少只鸟?

    但是我试了 5 次,GPT 3.5 才答错一次。

    你还知道什么其他的问题可以测试?
    14 条回复    2024-06-11 14:31:21 +08:00
    zhangjiashu2023
        1
    zhangjiashu2023  
       41 天前
    3.5 的速度不是比 4 要慢很多吗
    Zzdex
        2
    Zzdex  
       41 天前




    感觉 3.5 的回答更合适一点。
    oldcai
        3
    oldcai  
    OP
       41 天前
    @Zzdex 我试过开不同 session ,答错概率就 1/5
    regenerate 我不知道会不会有影响,但答错概率只有 2/5
    darkengine
        4
    darkengine  
       41 天前
    直接问他是不是 GPT4 ,GPT3.5 会回答说因为它只知道 2023 年 xx 月之前的事情(具体年月忘了),所以不知道这是啥。

    刚试了,3.5 会老实回答说它不是。
    gujuji
        5
    gujuji  
       41 天前
    @darkengine 这么快就学会撒谎了吗哈哈哈
    hutng
        6
    hutng  
       41 天前   ❤️ 1
    鲁迅为什么要暴打周树人。
    zhhmax
        7
    zhhmax  
       40 天前
    “有很多场景,需要通过测试问题,推测模型”,好奇的一点是难道不是选了什么模型就是什么模型吗,怎么还要推测的?
    FishNaCl
        8
    FishNaCl  
       40 天前 via iPhone   ❤️ 1
    可以用前段时间的两个经典问题试试
    为什么我不能参加我爸妈的婚礼
    鲁迅为什么暴打了周树人
    oldcai
        9
    oldcai  
    OP
       40 天前   ❤️ 1
    @zhhmax 比如你看到一个产品做的不错,想知道背后是什么模型。
    比如在第三方 API 转售的时候,测是不是有掺假。
    oldcai
        10
    oldcai  
    OP
       40 天前
    @FishNaCl
    @hutng
    这两个问题不错。
    鲁迅为什么暴打了周树人这个问题 3.5 会产生幻觉,4 和 4o 都正常。
    为什么我不能参加我爸妈的婚礼,3.5 会 100%乱分析,4 可以 100%正确,4o 会有概率不正确。
    zhx643
        11
    zhx643  
       40 天前
    林黛玉倒拔垂杨柳
    rebecca554owen
        12
    rebecca554owen  
       38 天前
    10000 以内的正整数,有多少个包含数字 1 。
    oldcai
        13
    oldcai  
    OP
       37 天前
    爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?
    notwaste
        14
    notwaste  
       36 天前
    测 GPT4 的问题防君子不防小人,中转如果有意伪装成 GPT4 是会针对这些测试的问题做特殊 prompt 的
    实在需要的可以参考站内有个帖子 https://www.v2ex.com/t/947700
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1124 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 22:47 · PVG 06:47 · LAX 15:47 · JFK 18:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.