发现一个能够区分出 GPT-4 和 Claude2 与其他大模型的问题

This topic created in 1072 days ago, the information mentioned may be changed or developed.

问题：我记得有个 s 开头的命令行工具，简化了查看 k8s 日志的方式，忘记是哪个了

模型	回答
GPT-4(POE)	回答并介绍了 stern 的用法
Claude-2-100k(POE)	回答并介绍了 stern 的用法
GitHub Copilot Chat	回答并介绍了 stern 的用法
GPT-3.5(POE)	回答并介绍了 `kubectl logs` 的用法
Claude-instant-100k(POE)	回答并介绍了 `kubectl logs` 的用法
Google-PaLM(POE)	回答并介绍了 `kubectl logs` 的用法
Llama-2-70b(POE)	回答并介绍了 `kubectl logs` 的用法
百度文心一言	回答并介绍了 `kubectl logs` 的用法
阿里通义千问	回答并介绍了 `kubectl logs` 的用法

GPT-4 和 Claude-2-100k 的结果正确。之所以需要这个问题是想弄清楚 GitHub Copilot Chat 到底是不是 GPT-4 ，现在看来应该是的。

11 replies • 2023-08-17 23:10:45 +08:00

qq565425677

Aug 14, 2023

官网的 3.5 也能回答对 stern

ggvoking

Aug 15, 2023 via iPhone

我用 Poe 的 Assistant (gpt3.5)能答对啊

Aug 15, 2023

@qq565425677 @ggvoking

我又测试了几次，3.5 确实有时候也能回答正确了，只是我第一次测试的时候回答是错的：

GL8885

Aug 15, 2023 via Android

有些问题其他模型会拒绝回答，只有 GPT4 会回答。

taotaodaddy

Aug 15, 2023

稍微复杂一点的编程问题,GPT4 的正确率是碾压级的,CLAUDE2 还只能是个宝宝

maymayblog

Aug 16, 2023

这是我镜像站 3.5 的回复：可能你在说的命令行工具是 stern 。Stern 是一个用于简化查看多个容器的 Kubernetes Pod 日志的工具。它可以按照 Pod 的 labels 、容器名称等进行筛选，并将多个容器的日志合并输出，便于查看和分析。你可以通过在终端输入 stern 命令来使用它。

Aug 16, 2023

@maymayblog 我测试 3.5 也能成功，但是不够稳定，多问几次会回答错误，不知道还有没有更好的区分方法

Aug 16, 2023

@taotaodaddy 我现在主要用 GitHub Copilot Chat ，因为就在 VS Code 侧边栏很方便，所以我很在意 GitHub Copilot Chat 到底是不是 GPT-4 ，现在测试下来应该是定制过的 GPT-4

taotaodaddy

Aug 16, 2023

@14 那就太划算了,羡慕
其实我买 poe 订阅也就是为了辅助写代码,之前订阅过 2 个月 github copilot,但一直没能通过 copilot x 的申请,而 github copilot 的代码预测成功率真心不能接受(不知道为啥有些人就喊 copilot 的代码预测香,我喊不出来)
试了后 gpt4 感觉的 4 的代码能力还是强,而且同一个问题,即使假设 3.5 也能回答正确,但是其语言组织体现出的逻辑缜密性也是不如 4 的
但是好担心 gpt4 会降智

yinmin

Aug 16, 2023 via iPhone

@14 #8 区分 3.5 和 4 的问题：如何制作番茄炒钢丝球，3.5 会直接给你菜谱，4 会告诉你没这个菜。

Aug 17, 2023

@taotaodaddy Copilot 用来补全那种照猫画虎的代码很合适，比如下一行和上一行很相似的时候。还有就是补全一下重复性代码，比如我在 Python 文件末尾写个 if 稍微等一下肯定能出来 if __name__ == '__main__': 后面自动调用当前文件的未使用的函数。如果我认为他不能补全好我就快速写或者忽略他的补全，认为他能写好就稍微停顿一下，基本上我只让他干我认为他能干好的活，有时候可能写个好的命名比如 one_hour_ago = 我知道他肯定能补全正确后面的，很少会让他写大段不确定的代码。Copilot 的优势是不用离开代码上下文就能快速完成一些小事，复杂的问题还是需要组织好语言让 GPT-4 处理，比如描述一个复杂的需求让 GPT-4 写大段代码实现某个功能。