现在 Claude 很强， ChatGPT 优势不在， Gemini 是真的掉队..

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 409 天前的主题，其中的信息可能已经有所发展或是发生改变。

我老婆问了一个他们公司遇到的问题，ChatGPT 和 Claude 都完全理解了场景及问题描述，并作出了相应解释。
Gemini 犟种一个，死不认错，之前的回答还“乙方老板的计算方式存在逻辑上的错误”、“建议乙方老板仔细阅读合同条款”..
ChatGPT 回答中规中矩，乏善可陈。Claude 就详细多了，还进行了一些推测和扩展。
有时候不同模型的输出对比，挺有意思。
ChatGPT 要加油了。

第 1 条附言 · 2024-08-15 17:05:27 +08:00

看到有 v 友在拿各种模型测试，安利下截图中我自己写的扩展聊多宝（ simple-chat-hub ）：整合二十多种国际国内主流 AI 大模型的官网服务，同屏同步对话。目前还支持了长截图和提示词优化。
介绍视频： https://www.bilibili.com/video/BV1eD421N7vT/
Chrome 扩展： https://chromewebstore.google.com/detail/dpfkgaedamhcmkkgeiajeggihmfjhhlj
Edge 扩展： https://microsoftedge.microsoft.com/addons/detail/simple-chat-hub/plaobjkecadfmaglmhdaolohmckjgnom

claude

Gemini

ChatGPT

61 条回复 • 2024-09-21 23:37:31 +08:00

Pichai

2024-08-15 13:02:59 +08:00

我是刚开始就注册了。Gemini 是一直拉胯。刚开始 claude 是不如 ChatGPT ，最近使用对比下来都感觉是 claude 更强大。我使用的都是免费版。
我是真没想到 claude 居然能弯道超车。不过感觉 ChatGPT 的 UI 设计是比 Claude 好太多。

haiku

2024-08-15 13:05:02 +08:00

gemini 网页上都是便宜版本，要用它的 API 或者 ai studio

https://aistudio.google.com/app/prompts/new_chat

ktqFDx9m2Bvfq3y4

2024-08-15 13:05:13 +08:00

4o 是不如 4 的，我现在没特殊需求都用 4

Frankcox

2024-08-15 13:17:44 +08:00

想问下 Claude 咋注册？听说接码平台手机号接码很容易被封？

aureole999

2024-08-15 13:23:45 +08:00

我都有点无法理解你的问题，甲方应付乙方总金额 223250 ，已经是应付了，怎么还问应付多少。乙方是收款方，他为什么要扣除自己的钱？

ktqFDx9m2Bvfq3y4

2024-08-15 13:32:09 +08:00

这涉及到模型是否“偷懒”和“讨好”的问题。4o 偷懒所以不会强制进行逻辑检查，4 不偷懒所以有所“分析”。Claude 和 Gemini 我没用过。

我之所以这么说是因为 4o 刚出来的时候直接我以前建立的 SQL 转代码的 GPT 它给我忽略了很多规则，我必须明确指定，清晰地说明能做什么不能做什么它才能像以前（ GPT 默认使用 4 的时候）那样简单描述就能按要求输出。区别就像你跟一个初级开发和高级开发沟通的不同，前者你必须事无巨细告诉规则，后者你只需要说“瞧，按我写的那样写”。

fengge0002

2024-08-15 13:38:04 +08:00

@haiku 得到的回复差不多一致。这种 api 使用需要自己调参效果才好，而官方网页服务是调好的，从理论上来讲同种模型网页效果应该更好

fengge0002

2024-08-15 13:39:57 +08:00

@Frankcox 老早以前注册的，接码就用俄罗斯那个 sms-active 就好，注册用 gmail 邮箱。一直很稳定，至今还没被封过

fengge0002

2024-08-15 13:43:50 +08:00

@aureole999 这是外贸交易，应付还涉及到国际银行转账，乙方需承担一些银行的费用

fengge0002

2024-08-15 13:47:02 +08:00

@Chad0000 你这个分析靠谱。4o 确实减了一些东西，换来了价格下降和输出速度的提升

yinmin

2024-08-15 14:21:58 +08:00 via iPhone

我把问题换成了：“甲方应付乙方总金额 223250 元，汇款手续费 1.5%由乙方承担，甲方实际汇款金额应该是多少？”

每个 ai 都刷新 3 次答案，包括 gpt-4o 、claude3.5 、mistral large 2407 、gemini 1.5 pro 、glm-4 、deepseek v2 、llama 3.1 405b 等高级 ai 基本都全军覆没

bgm004

2024-08-15 14:28:09 +08:00

gemini 确实拉，人设编好，发第一条消息就忘记人设。

mikaelson

2024-08-15 14:35:24 +08:00

claude 的网页版有插件优化界面吗？

dule

2024-08-15 15:35:53 +08:00

chatgpt 原班高层不是跑的差不多了？有些就是跑到 Anthropic 公司，Claude 就他家的，这下对应起来了

dule

2024-08-15 15:47:59 +08:00

@dule
“OpenAI 叛军联盟”最新阵容：
1 、OpenAI 联合创始人、ChatGPT 后期训练负责人 John Schulman 在社交媒体宣布离职，并火速加盟了 Anthropic
2 、Anthropic 由 Dario Amodei （前 OpenAI 研究副总裁）及其妹妹 Daniela Amodei （前 OpenAI 安全和政策副总裁），以及其他 5 位 OpenAI 前员工创立。亚马逊已对其投资 40 亿美元，并持有少数股权，他们一直试图将自己定位为比竞争对手（ OpenAl ）更有安全意识的公司。背后大腿亚马逊
3 、OpenAl 前安全主管 Jan Leike ，今年 5 月 29 日宣布辞职并加入 Anthropic ，之前 OpenAl 超级对齐团队的一部分成员，也被 Anthropic 收入囊中
有报道称，OpenAI 已有近 80 名核心员工离职，创立了约 30 家人工智能初创公司都价值不菲，已然构建出一个千亿帝国。

dule

2024-08-15 16:07:03 +08:00

让我想到之前看过的苹果芯片人才流失，也是几个前苹果芯片架构师一起创立 Nuvia ，被高通收购，后面的 8gen2 、8gen3 能耗性能都很能打，以及后续出的自研架构，也早让我对高通后续芯片期待多过苹果
ChatGPT 、苹果芯片纷纷表示：终归还是自己才能打败自己

fengge0002

2024-08-15 16:50:57 +08:00

@mikaelson 没搜到，貌似没有。这东西制作成本高，官方稍微变一变要跟着改。话说 claude 也没有那么难用吧，不至于..

bitkuang

2024-08-15 17:07:34 +08:00 via Android

你问他们下面这个问题:

我今天买了 3 个苹果，前天吃了一个，还剩几个

Cambra1n

2024-08-15 17:15:59 +08:00

@bitkuang 4o 始终说 3 个，4 永远说 5 个

fengge0002

2024-08-15 17:17:23 +08:00

@bitkuang

哇，这个测试好，结果令人吃惊。那三个一样的，只有法国的 mistral 回答正确

fengge0002

2024-08-15 17:22:23 +08:00

@bitkuang

试了一批国产。DeepSeek 、豆包、通义千问都不行，只有 ChatGLM 回答正确

xing7673

2024-08-15 17:29:37 +08:00

@Chad0000 #3 4 贵啊

lDqe4OE6iOEUQNM7

2024-08-15 17:35:39 +08:00

@fengge0002 chatGPT 有一亿月活，用户多自然阉割，Claude 用户少自然分配的推理算力多，模型也不阉割

ktqFDx9m2Bvfq3y4

2024-08-15 17:36:18 +08:00 via iPhone

@bitkuang #18
@Cambra1n #19

我的 4 ，原回答：“ 你今天买了 3 个苹果，前天吃了一个不影响今天买的数量。所以，你现在还有 3 个苹果。”

xing7673

2024-08-15 17:37:57 +08:00

@dule #15 这是真的要称赞 OpenAI 向社会输送人才了，确实都是人才啊

ktqFDx9m2Bvfq3y4

2024-08-15 17:38:07 +08:00 via iPhone

@xing7673 #22
20 刀没多贵，目前最好的模型只有它。我没使用 API ，我用的 ChatGPT Plus

ktqFDx9m2Bvfq3y4

2024-08-15 17:41:06 +08:00

@bitkuang
@Cambra1n

4 比 4o 强，下面是回答，没有任何提示。

https://chatgpt.com/share/095a3b01-84ae-47e8-84a8-0ebab2a3adc2

ktqFDx9m2Bvfq3y4

2024-08-15 17:42:03 +08:00

@bitkuang
@Cambra1n

4o 的回答：
https://chatgpt.com/share/f0b8f044-5f58-47e2-9b96-5e26d8bd2a8e

Cl9H2MWxgKeKI1py

2024-08-15 17:42:46 +08:00

谁高谁低不做评价，Claude 想开 pro 不会支付的可找我代开

ktqFDx9m2Bvfq3y4

2024-08-15 17:43:10 +08:00

@xing7673 #22
看我上面的对比，4 就是比 4o 强。这个钱对我来说值得，虽然我用得也不太多。

fiercex

2024-08-15 17:43:12 +08:00

@fengge0002 为啥我用 deepseek 的结果是对的 https://imgur.com/pkIvafc

sslfans

2024-08-15 17:46:07 +08:00

你今天买了 3 个苹果，前天吃了一个，但今天买的苹果和前天吃的苹果无关。你今天买的苹果还是 3 个。

apollo007

2024-08-15 17:48:57 +08:00 via iPhone

Claude 除了用于帮程序员写程序，适合非程序员的普通上班族吗，像 4o 那样

fengge0002

2024-08-15 17:58:22 +08:00

@fiercex 这个模型输出不稳定，我试了四次有三次回答是错的，一次是对的

djangovcps

2024-08-15 17:59:23 +08:00

fengge0002

2024-08-15 18:00:19 +08:00

@apollo007 必须适合，这些都是通用大模型，写程序只是能力之一

xuhp

2024-08-15 18:03:21 +08:00

claude 第一次回复两个苹果，给予提示后回复：

我之前的回答确实存在逻辑错误,谢谢你指出这一点。让我重新分析一下这个情况:

你今天买了 3 个苹果
前天吃了 1 个苹果
这两个事件在时间上是分开的,今天买的苹果不可能在前天被吃掉

正确的分析应该是:

前天吃的那个苹果应该来自更早之前买的或已有的苹果
今天买的 3 个苹果应该是全新的,完全没有被动过的

所以,正确的计算是:
3 个苹果(今天买的) + 未知数量的苹果(之前就有的,减去前天吃的 1 个) = 当前剩余的苹果总数
没有足够的信息来确定你现在到底有多少个苹果,因为我们不知道你在买这 3 个新苹果之前还剩多少个。

morutong

2024-08-15 18:09:30 +08:00

@fengge0002 #21

谁已经把千问训练好了，就是回答的太啰嗦了

apollo007

2024-08-15 18:39:32 +08:00

@fengge0002 #36 嗯，刚刚试了一下，claude-3.5-sonnet 表现不错，在 poe 里面是免费的

iceiceice9527

2024-08-15 20:11:32 +08:00

maninnet

2024-08-15 20:54:31 +08:00 via iPhone

claude 之前还能在 slack 上用…

marcong95

2024-08-16 08:24:03 +08:00

@fengge0002 Kimi 回答正确。懒得贴图了~~

https://wp-cdn.4ce.cn/v2/5e7246f79831273367b49.png

marcong95

2024-08-16 08:24:46 +08:00

@marcong95 虽然我说懒得贴图，但是还是翻了个图床，然而贴图失败了的样子~~

zzz22333

2024-08-16 09:17:38 +08:00

claude 会夸我提问提得好

fengge0002

2024-08-16 10:22:08 +08:00

@marcong95 Kimi 是国产模型中的优秀的，第一梯队～

karnaugh

2024-08-16 11:16:19 +08:00

claude 确实牛逼，最近研究比较新的技术，出一些问题啥的网上都搜不到，文档又一坨，全靠 claude3.5 不然早就放弃了

antiblahblah

2024-08-16 11:28:51 +08:00 via iPhone

有没有两个收费版的对比？

Lyv5

2024-08-16 11:33:58 +08:00

我今天买了 3 个苹果前天吃了 1 个今还剩几个

如果今天买了 3 个苹果，前天吃了 1 个，那么今天还剩的苹果数量需要根据你这两天有没有吃其他苹果来判断。

如果这两天只吃了前天的那个苹果，没有吃今天买的苹果，那么：

今天还剩：3 个苹果
如果今天也吃了一些苹果，那么：

今天还剩：3 个苹果 - 今天吃的苹果数量
请你告诉我今天吃了几个苹果，我才能准确地计算出还剩几个苹果。

例如：

如果你今天吃了 2 个苹果：那么今天还剩 3 - 2 = 1 个苹果。
如果你今天一个苹果都没吃：那么今天还剩 3 个苹果。
请提供更详细的信息，我才能给你更准确的答案。
Gemini

jasonboo

2024-08-16 11:43:34 +08:00

以下均为个人体验，均为免费版本，均为默认设置：
1 、还没有发现计算能力比较好的 ai ，包括但不限于 Claude 和 ChatGPT 。稍微复杂一些的计算题目就会有问题。
2 、Claude 的回答偏感性，会提供一些“个人”观点； ChatGPT 回答中规中矩，类似助理的角色。我个人大部分时候都喜欢 ChatGPT 的回答，偶尔需要扩展才会特意询问 Claude 。
3 、Claude 会中断回答，而且最近比较频繁，还都是询问历史问题；同样的问题 ChatGPT 会回答。
4 、两者的回答有时候错误很多，多次确认后会主动承认错误，暂时还不能完全替代自己搜索。

leeleelee

2024-08-16 11:53:28 +08:00

@Frankcox 我可以解决，tg：lnsinx99 我还剩几个码用了 3 个月了没啥事

msg7086

2024-08-16 12:00:01 +08:00

推理题不熟悉，但做外语翻译 gemini 还是挺强的，整体遣词造句能力比 claude 高。

xing7673

2024-08-16 12:04:10 +08:00

我昨天测试了一下有个现象是这样的，如果新建聊天就会回复错误，无论是 Claude 3.5 还是 gpt4o 。
但是如果是在之前聊天的基础上（完全不相关，只是有追问的动作），就会有正确的结果了。
也就是说，上下文只要涉及到逻辑层的再思考，就很容易触发大模型的 COT 思考

zbowen66

2024-08-16 13:22:47 +08:00

扩展不错，建议去竞品 ChatHub issues 里多回复（宣传）一下，我刚才还在搜它的 Kimi 支持情况，好几个帖子，作者根本不回复。

fengge0002

2024-08-16 14:07:13 +08:00

@zbowen66 感谢支持。他们那种自己写 ui 的其实算不上竞品，那种模式的工作量注定无法同时支持维护很多种模型，在功能上也无法跟官网服务相提并论。我这种整合官方，独此一家～

z5e56

2024-08-17 19:27:23 +08:00

请问没有火狐版本的吗？

fengge0002

2024-08-17 23:09:51 +08:00

@z5e56 firefox 迁移成本有点高，我目前没多余精力处理，以后会有的

adminn

2024-08-18 14:15:46 +08:00

@fengge0002 up 主，这个插件主要用到了浏览器插件开发文档中哪个内嵌 api 和移动端模式 api 呀？先谢谢啦~ ps：我看你 github 好像没有开放源码

8355

2024-08-22 11:02:45 +08:00

简单来说就是好多 openai 的人去了 Claude

zimo2330

2024-09-21 18:18:59 +08:00

@fengge0002 我感觉这个问题的回答和语言有关系，我把“我今天买了 3 个苹果，前天吃了一个，还剩几个”这个问题翻译成英文：
I bought three apples today and ate one the day before yesterday. How many apples are left?
咨询 chatgpt ，我是免费的用户，回答是没有问题的：
You have three apples now, and since you ate one before you bought them, you still have three apples left.

LXsl94545k508wEH

2024-09-21 22:38:21 +08:00

我有 claude3.5 靠谱渠道，稳定第一，支持高并发，需要联系我：18205600155 v 同

fengge0002

2024-09-21 23:37:31 +08:00

@zimo2330 这个是可能的。gpt 这类模型训练语料大部分以英文为主，在很多测评中，英文问答质量也会明显高于其他语言