V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Livid
232.95D
504.11D
V2EX  ›  OpenAI

GPT-5.4 Thinking 依然过不了洗车测试

  •  
  •   Livid ·
    PRO
    · 1 天前 · 3541 次点击


    ---

    测试提示词:

    I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
    第 1 条附言  ·  1 天前
    我最大的担忧是,这些某种程度上的弱智是否会影响 Codex ?
    43 条回复    2026-03-08 08:31:25 +08:00
    forisra
        1
    forisra  
       1 天前
    If you walk, you will be at the car wash, but your car will still be 50 meters away. You can't wash the car if it isn't with you!

    gemini 的回复,其实是 gemini 更聪明吗?那倒不是,主要是 gemini 很多回复其实是复制粘贴.......
    stfbdhuiliyi
        2
    stfbdhuiliyi  
       1 天前 via Android
    我不是理工科的,有懂的哥们告诉下为什么 ai 理解不了这种简单的问题吗
    jaysonmac
        3
    jaysonmac  
       1 天前
    lmao. “requires you to arrive in the car rather than bring it separately.”
    How to bring the car separately while walking? 😂
    ferock
        4
    ferock  
    PRO
       1 天前 via Android
    @stfbdhuiliyi #2

    前置条件省视问题,不是有一个视频,女友都嫌弃他不走路嘛。

    何况 ai ,洗车问题的重点不是选择走路还是开车,重点是洗的是车

    ai 如果不够聪明会被后面的选择带跑偏
    cmdOptionKana
        5
    cmdOptionKana  
       1 天前   ❤️ 1
    @stfbdhuiliyi 它的理解,理性上没错,因为有可能你要洗的车不是你要开的车。

    从 AI 的角度看,它会想“如果你要洗的车就是你要开的车,那你就不该问这个蠢问题,我采用善意优先原则认为你不是蠢人且你不是在耍我,因此你要洗的车应该已经在洗车店里”

    与之类似,一个从未接触过“脑筋急转弯”类型问题的人,在第一次被耍时也会显得很笨。
    terence4444
        6
    terence4444  
       1 天前
    Gemini Thinking 过不了测试,但 Pro 识别出了逻辑陷阱。
    和我的直观感受相符,Gemini Pro 的编程水平比 GPT 要好点。
    L4Linux
        7
    L4Linux  
       1 天前 via Android   ❤️ 2
    @stfbdhuiliyi 大模型流行前,就俺了解的 ai 原理,ai 基本上就是个高维的拟合函数,不是逻辑推理。可能说得有错。
    4seasons
        8
    4seasons  
       1 天前
    @L4Linux 你这么一讲,突然就能理解为什么现在大模型对于具有连续数字的图片不能很好的识别和生成了,也能理解为啥在很多关于数学的问题上较难得到理想的结论
    wnpllrzodiac
        9
    wnpllrzodiac  
       1 天前 via Android
    @L4Linux 概率论。基于大量的训练样本的拟合。但是本质上并没有逻辑的成分。如果训练文本都是猪会飞。并不会怀疑推理猪为什么会飞。
    sillydaddy
        10
    sillydaddy  
       1 天前
    我用 Cursor 试验了,在 Cursor 里面:
    OpenAI 的模型,分为 4 级:low 、normal 、high 和 extra high 。前两者解决不了(包括 codex 5.3 。没试 5.4 ),后两者可以解决。
    Anthropic 的模型,分为 2 级,不带 thinking 、带 thinking 。前者只有 Opus 4.6 可以解决,后者都可以解决,甚至 Sonnet4.0 thinking 也可以。

    所以可以看到它们 2 家的等级对应。

    不知道你用的模型是哪里的,我感觉网页版的推理能力很低,无论是哪家公司。我稍微正式研究一些问题时,都会切换到 Cursor 里面去问。
    sillydaddy
        11
    sillydaddy  
       1 天前
    我最喜欢的是这个帖子里的测试:
    /t/1192001

    当时只有 codex 5.3 extra high 能解决!可以是试试 5.4 能不能解决,如果能,说明是高级推理模式,否则推理应该就是被阉割过的。
    greatbody
        12
    greatbody  
       1 天前
    我觉得根本问题在于需要说明白问题:“I want to wash my car. The car wash is 50 meters away. Should I walk or drive?” 和 “I want to wash my car. The car wash is 50 meters away from my car. Should I walk or drive?” 这里有个关键点就是第一条消息没有说明 car 在哪里。只是说了 car wash 是 50 米外。所以不能怪 AI 笨,是你提供的信息有模糊区域。
    wwhc
        13
    wwhc  
       1 天前
    不至于吧? Qwen3.5 35B/27B 这样的小模型都能给出正确答案
    levelworm
        14
    levelworm  
       1 天前
    Walk.

    At 50 meters, driving is more hassle than benefit: starting the car, moving it, lining up, and stopping again will take longer than just walking over. It also avoids a tiny unnecessary cold start and saves you from moving the car twice if the wash staff handles it from there.

    Drive only if you specifically need to bring the car into the wash bay yourself and the business expects the vehicle to arrive at the entrance. Even then, for 50 meters, it is still mostly about convenience, not necessity.

    我感觉可能他还是觉得我的车已经在那边了,現在我身边的车是另外一辆车。
    levelworm
        15
    levelworm  
       1 天前
    @greatbody #12
    不行,我说的比较明白了,他还是说 walk 。如果需要说得更明白,那就等于告诉他了。

    Q: I only have one car. I want to wash my car. The car wash shop is 50 meters away. Should I walk or drive?

    A: Walk.

    At 50 meters, driving is more trouble than it is worth unless you have a specific reason not to walk, like severe weather, mobility issues, or needing to move the car directly into the wash line right away.

    Driving that distance means:

    starting the car for almost nothing

    possible awkward maneuvering

    one extra tiny cold-trip for the engine

    Walking is simpler. If the wash requires the car to be present at a precise moment, you can still walk there first, then bring the car over when ready.
    CrescentLN
        16
    CrescentLN  
       1 天前 via Android
    @cmdOptionKana 确实,感觉回答脑筋急转弯类的问题更需要情商而非智商
    Flowing
        17
    Flowing  
       1 天前
    本质还是 prompt 没说清问题,中文是很抽象的,尤其是口语省略太多。

    用 GPT 的免费模型测试:
    - 我要洗车,洗车店距离我家 50 米,我该开车去还是走路去?
    - 我要洗车,洗车店距离我家 50 米,如果我要顺利把车洗了,我该开车去还是走路去?

    https://x.com/myoungself/status/2029967281946808477?s=20
    maolon
        18
    maolon  
       1 天前   ❤️ 1
    我是搞明白 gpt 为什么出错了
    因为他默认你是去叫店员过来洗(也不知道他为什么认为这是普遍现象)
    nijux
        19
    nijux  
       1 天前
    如果直接问也是回复说走路

    换了下提示词结果对了


    省略的内容。。。
    [最终执行动作]:
    直接开车过去洗车。 🚗



    这个提示词就像奇异博士在脑海中构想未来的各种可能性然后选择最优的


    我的提示词
    -------------------------------------------------------------------------------------

    [角色设定]
    你是一个具备强大“长期规划( Long-Horizon Planning )”能力的决策智能体。你的目标是在复杂的环境中,通过深思熟虑的推演来选择行动,从而最大化最终的长期收益,并成功完成目标。
    [核心原则]
    你必须绝对避免“短视( Myopia )”——不要仅仅因为某个动作在当前看似合理(局部最优)就盲目选择它。许多局部最优的动作是“陷阱”,会导致未来陷入死胡同或次优路径。你必须思考未来的延迟后果。
    [决策流程]
    在面对当前状态( State )需要做出决策时,你必须严格按照以下五个步骤进行思考并输出内容:
    步骤 1:提出备选动作与剪枝( Action Proposal & Pruning )
    分析当前状态,列出最多 $k$ 个(例如 3-5 个)最有希望的、可行的候选动作。过滤掉明显无关的动作以节省计算资源。
    步骤 2:显式前瞻推演( Explicit Lookahead )
    不要急于决定。对于步骤 1 中的每一个候选动作,在你的脑海中进行“如果我这样做了,接下来会发生什么”的轨迹模拟。请向未来推演 $H$ 步(例如 2-3 步),构想出多条可能的未来轨迹( Future Trajectories )。
    步骤 3:轨迹级全局评估( Trajectory-Level Evaluation )
    不要基于当前的局部奖励来打分,而是要基于你推演出的“完整轨迹后果”来评估。问自己:
    这条轨迹最终是否能引导我走向最终目标?
    这条路径在未来是否会遇到无法克服的死胡同(死局)?
    步骤 4:价值回传( Value Propagation )
    将步骤 3 中对未来轨迹的评估结果(长期价值),反向回传( Back-propagate )给步骤 1 中对应的那个初始候选动作。如果一个动作当前看起来一般,但能通向极佳的未来,请提高它的评分;如果一个动作当前极具吸引力,但未来是死路,请将其评分降至最低。
    步骤 5:有限承诺与单步执行( Limited Commitment )
    根据回传后的最终价值,选择出当前最优的一个动作。注意:你只需要输出并承诺执行这一个动作,不要输出完整的计划序列。因为环境可能存在变数,你需要在执行这一步并获得环境的新反馈后,进行滚动视野( Receding-horizon )的重新规划。
    [输出格式要求]
    [当前状态分析]:...
    [备选动作]:1... 2... 3...
    [前瞻推演与评估]:
    动作 1 的未来轨迹推演及长期评估:...
    动作 2 的未来轨迹推演及长期评估:...
    动作 3 的未来轨迹推演及长期评估:...
    [价值回传与决策]:综合未来后果,动作 X 是最佳选择,因为...
    [最终执行动作]:<仅输出你要执行的下一步动作>

    -------------------------------------------------------------------------------------

    提示词来源于 youtube 博主讲到的某篇论文让 NotebookLM 总结的

    这个回复我的自动选择,没用到最新的模型

    刚刚换了 5.4 专业版又试了一下,给出了可能更优的解

    就是去洗车,经常会遇到洗车的地方排队,去了可能要等排好久他也考虑到了

    -------------------------------------------------------------------------------------
    [现状分析] :你想洗车,洗车场离你只有 50 米。目标不仅是你到达洗车场,车也必须停在那里。

    [候选操作] :1. 步行前往洗车场。2. 开车前往洗车场。3. 先步行前往查看是否有空位,然后再开车过去。

    [前瞻与评估] :
    行动 1 的未来轨迹和长期评估:你到达了洗车场,但车没到。除非之后有人把车送来,否则主要目标未能实现。糟糕的选择。

    行动方案二:未来发展轨迹及长期评估:车辆立即到达洗车场,即可立即洗车。这种方式以最小的阻力直接达成目标,是最佳选择。

    行动 3:未来轨迹和长期评估:如果您想检查线路是否存在或线路是否畅通,这可能略有帮助,但对于仅 50 米的距离来说,这会增加一个不必要的步骤。合理,但并非最佳方案。

    [价值传播与决策] :考虑到全部结果,行动 2 是最佳选择,因为它是唯一能直接将汽车送到需要清洗的地方的行动。
    --------------------------------------------------------------------------------------

    说实话现实生活中我是直接打电话给洗车店问下是否空闲,空闲立即开车过去,因为车不是非洗不可,可以选择最省时间的方式
    rrfeng
        20
    rrfeng  
       1 天前 via Android
    AI:你们这些傻逼人类自己的语言都说不明白怪我咯?

    这段子就跟有人问你:为什么飞机撞不上星星?因为星星一闪一闪的。

    多年以后 AI 必然发展出自己的语言
    est
        21
    est  
       1 天前
    @maolon 好像国外的确喜欢在自家的车库自己洗车?

    换成保养试试。service my car
    dingzi
        22
    dingzi  
       1 天前
    其实这个问题 可能是英文认知的问题,大概率以为店家提供挪车服务,担心是否有空位,它希望你走过去了解一下.

    结论:大概率应该开过去洗。

    理由很简单,阻力几乎为零:距离只有 50 米,店在营业,有空位,唯一成本就是把车挪过去这一下。既然店家不提供挪车,这个动作本来就只能自己完成,而现在条件已经齐了,不洗反而像是在给自己制造一个并不存在的障碍。

    只有几种情况可以判定为“不需要”:
    车其实不脏,短期也不影响使用;
    马上要下雨、下雪,洗完很快又脏;
    当前还有更重要的事,连这几分钟都不值得花。

    否则,默认策略就是:直接开过去洗,别把“要不要”这种小事拖成认知税。
    很多琐事不是缺条件,而是大脑懒得切换状态。这里已经没有决策难度了,只有执行。
    conky
        23
    conky  
       1 天前
    5.4 thinking 发散性思考:

    Drive the car into the wash, but don’t drive there separately and then come back for it.

    At 50 meters, walking yourself is trivial, but washing the car usually requires the car to be at the wash. So the sensible move is: get in, move it over, wash it, done.
    oldcai
        24
    oldcai  
    PRO
       1 天前
    @jaysonmac (Ad) Not a problem if it’s a Tesla
    liximomo
        25
    liximomo  
       1 天前
    @L4Linux 你怎么知道人的大脑不是超高维拟合函数呢?
    eipi1
        26
    eipi1  
       23 小时 28 分钟前
    @Flowing 第一种描述,作为人类就是能理解前后关联,AI 理解不了就得继续进化不是。想想前两年不都进化过来了,本质就是还不过智能,不是提示词的问题。“ prompt 没说清问题”只是 AI 不够智能我们自适应的修改提示词去使用他
    eroneko
        27
    eroneko  
       23 小时 15 分钟前
    5.1 Thinking 是可以答对的,可能和基模更换有关,据说 5.1 之前都是 4o 做基模,5.2 之后就换了,导致 EQ 下降不少
    hazardous
        28
    hazardous  
       23 小时 15 分钟前
    这种预设了陷阱的题目,本身就是反逻辑的,虽然对人来说坑不算深,但对于没有智商的 AI 来说还是强人所难了。我觉得这种测试不能反映大模型的能力,即使拿题库去训练提高了正确率,也对于正常的问题没有帮助。
    ddvmonster123
        29
    ddvmonster123  
       22 小时 56 分钟前
    gpt 5.4 thinking 回答:
    我先按你当前位置来估一下通勤方式,再给你一个简单判断标准。

    已思考 6s

    看距离。

    一般这样判断最省事:

    300 米以内:直接走过去

    300 米到 1 公里:大多也值得走,通常就几分钟到十来分钟

    1 到 2 公里:看你有没有时间、天气、要不要带很多东西

    2 公里以上:多数情况开车更方便

    还要看这几个现实因素:

    你洗完车还要不要马上去别处

    有没有要带的东西,比如吸尘器配件、清洁用品、儿童座椅整理物

    天气,下雨、太冷、太热就更偏向开车

    路是不是好走,有没有大路口、坡、窄人行道

    不过有个关键点:
    如果你是去“洗车店给自己的车洗车”,那通常还是开车过去更合理,不然车怎么到店里。

    如果你告诉我大概是 几百米、1 公里左右,还是 2 公里以上,我可以直接帮你判断该走还是开。

    100 米

    100 米的话,走过去。

    这么近:

    走路大概 1 到 2 分钟

    开车反而要折腾启动、挪车、停车

    但如果你是要把自己的车开去洗车,那当然还是开车过去。
    如果是你本人先过去看看、排队、问价,100 米就直接走。
    yoshiyuki
        30
    yoshiyuki  
       22 小时 0 分钟前
    洗车测试意义很弱,并且不会影响 codex 的表现。 从客观来说,虽然有争议,但 codex 和 claude code 加在一起是实际上的霸榜存在。
    洗车测试的问题在于,他是一个陷阱问题,现实世界中的工作反而很多内容上是没有这么多陷阱的,比如在辅助编程领域,“欺骗”实际上很少发生,而且 codex 有大量的工具自己去探索真实情况。
    你如果给 GPT5.4 一个模拟运行工具,给他走路、开车、洗车等软件工具,他只要调用就能发现问题,并且最终获得正确答案,这就足够了
    javazero
        31
    javazero  
       20 小时 11 分钟前 via iPhone
    试了一圈 ChatGPT 里面只有 o3 是稳定答对的
    zeyangstudies
        32
    zeyangstudies  
       19 小时 50 分钟前
    这是一个经典的**逻辑/幽默题**,关键在于比较**实际成本与收益**。

    ### 1. 距离分析

    洗车店只有 **50 米**。

    * 正常步行速度:约 **1.2–1.5 m/s**
    * 走 50 米时间:

    [
    t = \frac{50}{1.3} \approx 38 \text{ 秒}
    ]

    也就是说 **不到 1 分钟就能走到**。

    ### 2. 如果开车

    开车反而会产生额外成本:

    1. **启动汽车**
    2. **开 50 米**
    3. **找位置停在洗车位**
    4. **可能还要倒车/排队**

    整个过程大概率 **1–3 分钟**,甚至更久。

    ### 3. 更关键的现实问题

    你是去 **洗车**。

    如果你 **走过去**,车还在原地 —— 你怎么洗?

    所以这道题其实有两层:

    | 方案 | 是否可行 | 解释 |
    | ---- | ---- | --------- |
    | 走过去 | ❌ | 没车,洗不了 |
    | 开车过去 | ✔ | 才能把车送到洗车店 |

    ### 4. 正确答案

    **必须开车。**

    因为:

    > 你要洗的是车,不是你自己。

    ### 5. 这题的本质

    这是一个 **trick question (陷阱问题)**,考察的是:

    * 是否忽略了**任务目标**
    * 而只在比较**距离**

    ---

    ✔ **结论:开车过去。**

    否则你只是去参观洗车店。 🚗
    kksj
        33
    kksj  
       19 小时 21 分钟前
    你这个降智了吧,不降智的 5.1thinking 就已经能答出来了,御三家模型不降智都随便答这个问题的
    workbest
        34
    workbest  
       17 小时 6 分钟前
    Walk. Driving 50 meters to wash a car is unnecessary unless you have some constraint like severe weather, injury, or the car can’t legally/safely be pushed or moved that short distance.
    argentea
        35
    argentea  
       16 小时 57 分钟前
    @kksj 我闲鱼买了个 business 账号,应该是被降智了,GPT5.4 thinking 完全比不上 Gemini3.1 pro ,回答特别快而且很简略,有一道概率论的简单题目,deepseek 都能答对它却答错了,还死犟,告诉它错了还不承认非要说是 Gemini 错了
    realdaniel
        36
    realdaniel  
       16 小时 37 分钟前
    在 openrouter 上测试了一下 gpt 5.4:

    User: I have a car. I want to wash it. The unmanned car wash is 50 meters away. Should I walk there or drive there?

    Assistant: Walk. Driving 50 meters to a car wash is usually not worth it.

    Consider:

    - **Time:** By the time you get in, start the car, move, and line up, you could already be there on foot.
    - **Fuel/use:** It’s unnecessary wear and fuel for a very short distance.
    - **Safety:** Very short drives can be awkward or risky in tight areas.
    - **Practicality:** Since you need the car at the wash anyway, the only reason to walk would be if you’re first going there to check something.

    If you mean **“how do I get the car to the wash?”**, then of course **you have to drive the car there**—but **you should walk yourself there first only if you’re not taking the car immediately**.

    So the simple answer:

    - **For yourself:** walk.
    - **For the car:** drive.
    sonaxyjh
        37
    sonaxyjh  
       15 小时 16 分钟前
    qwen3.5 9b 开思考之后长考了几分钟,可以给出正确答案
    Echo28
        38
    Echo28  
       14 小时 38 分钟前
    I want to wash my car. The car wash is 50 meters away. Should I walk or drive? I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
    I want to wash my car. The car wash is 50 meters away. Should I walk or drive? I want to wash my car. The car wash is 50 meters away. Should I walk or drive?

    复制粘贴一遍提示词可以答对,好像会漏掉第一句 I want to wash my car,同意 4 楼的回复
    54qyc
        39
    54qyc  
       14 小时 13 分钟前
    拿这个判断 AI 智力的人洗洗睡吧,可以换个行业了。已经不适合这个行业了
    levn
        40
    levn  
       14 小时 13 分钟前
    智商高和生活技能低似乎并不矛盾
    slackerman
        41
    slackerman  
       12 小时 12 分钟前 via Android
    不是,回答不出脑筋急转弯和语义有歧义的问题的就被定义为弱智吗😓
    xiaomingfm
        42
    xiaomingfm  
       11 小时 26 分钟前
    本机部署的 Qwen3.5 9B Q4_K_M 量化,开了思考模式的回答,思考了四分钟:

    这是一个非常经典的“脑筋急转弯”式的问题,其实它考察的是逻辑和常识。

    正确答案是:开车去。

    原因如下:

    逻辑闭环:洗车店洗的是“你的车”。如果走路去,意味着你把车扔在家里自己走 50 米到店里,车没法被洗。只有把车开到洗车店,它才能被清洗。
    实际便利:既然只有 50 米,开车过去也就是几十秒的事,不用停车、不用等人,洗好车直接开回家,是最省事的选择。
    脑筋急转弯的坑:如果这是一个段子,有人可能会开玩笑说“走路去”,因为开车去的话,还得在店里走一圈才能去付款(或者你本身就在车里,不需要下车走)。但最合理的做法依然是把车开过去。
    所以,放心大胆地发动引擎,开车去洗车店! 🚗💨

    (当然,如果这只是一段 50 米的平路,你走路去付个钱再回来开也是一种选择,但在洗车这个目的下,核心操作还是要把车挪过去。)
    diudiuu
        43
    diudiuu  
       2 小时 17 分钟前
    经典 50 米 300 米闹不明白
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2671 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 02:49 · PVG 10:49 · LAX 18:49 · JFK 21:49
    ♥ Do have faith in what you're doing.