gpt 会不会将用户输入给他的数据用于模型训练呢？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 617 天前的主题，其中的信息可能已经有所发展或是发生改变。

第 1 条附言 · 2024-03-27 11:16:28 +08:00

经评论区 v 友提示：

1. GPT 和 chatgpt3.5 可以关闭将用户数据用于训练的选项，默认是开启的
2. 相关设置为 Settings > Data controls > Chat history & training
3. 关闭后将看不到 chat histroy ，不是很方便友好

数据

训练

安全

23 条回复 • 2024-03-29 15:31:15 +08:00

villivateur

2024-03-27 10:24:46 +08:00

会的，ToS 里面有写

MossFox

2024-03-27 10:26:37 +08:00

会的，而且不止训练还有真人检查。玩得太花号都给你扬了。

gpt5

2024-03-27 10:28:39 +08:00

会。

TyCoding

2024-03-27 10:29:37 +08:00

当然会

shuling

2024-03-27 10:36:43 +08:00

team 订阅有说明，不会用于训练

Persimmon08

2024-03-27 10:46:46 +08:00

@villivateur
@MossFox
@gpt5
@TyCoding

1. 大概从三周前，我问 gpt 一个项目的问题，他总是从角度 A 回答，是一个非常传统的角度
2. 而我一直在探索从角度 B 解决这个问题，非常有前景，之前几乎没有人在这个领域想到这样做过
3. 由于要写项目，最近三周我经常和 gpt 讨论，并且发给一些角度 B 相关的 PDF 论文，让他总结并经常讨论
4. 今天我问 gpt 三周前的那个问题，他竟然不从 A 角度出方案，从 B 角度出方案
5. 细思极恐，如果其他人问 gpt 类似问题，他直接从角度 B 回答，那么我这么久的努力不都给白嫖了？

wolfydw

2024-03-27 10:52:51 +08:00 via iPhone

感谢你对 Ai 领域的贡献

xxj2220

2024-03-27 10:56:14 +08:00 via Android

不然你觉得为什么现在 chatgpt 变蠢了，估计被特意喂了很多屎

sdjl

2024-03-27 11:01:16 +08:00

会的，你直接问它，它会说它会的。

Persimmon08

2024-03-27 11:03:24 +08:00

@wolfydw
我想要有所贡献，但是不想以这种形式贡献啊。
如果大家有一些很好的想法，比如有商业、技术或学术价值
但是担心在与 GPT 交互的过程中泄露，大家与 gpt 交互会有所保留

guosic

2024-03-27 11:03:42 +08:00

ChatGPT 设置里有一个选项，可以选择不参与训练
![]( https://p.sda1.dev/16/954463410175a810bad57c9b27b05c7e/屏幕截图 2024-03-27 105921.png)

Persimmon08

2024-03-27 11:05:55 +08:00

@sdjl 我这边 gpt4 和 chatgpt3.5 都回答说不会用于 "不会将用户的输入数据直接用于模型的训练或改进"

Persimmon08

2024-03-27 11:09:56 +08:00

@guosic 感谢，已经找到这个按钮了，原来可以设置

sdjl

2024-03-27 11:13:40 +08:00

@Persimmon08 那可能有所改变，我之前问它回复的是会的。我觉得一般来说都是会的。

Persimmon08

2024-03-27 11:20:55 +08:00

@xxj2220 竟然还有这样干的，友商吗？

sunfly

2024-03-27 12:16:14 +08:00

当然会，不用白不用

gpt5

2024-03-27 12:48:25 +08:00

卧槽，你说的好像是真的。我曾经创造出一个缩写，用以检测他是不是会学习我输入的东西。以前在新的聊天中问他这个缩写是什么意思，他都会 xjb 回答，后来我就把这事儿忘了。刚刚又问了他一下，确实回答正确了。

gpt5

2024-03-27 12:50:23 +08:00

我以前认为他只会学习更加抽象的能力(表达能力、推理能力等)。这么看来，莫非真在学习对话的具体内容。

jZEdn7k4

2024-03-27 18:26:24 +08:00

会，chatgpt enterprise 版最重要的特性就是 privacy ，不会用你的数据训练，参见 https://openai.com/blog/introducing-chatgpt-enterprise 那么反之普通版没充钱到位的

ex1gtnim7d

2024-03-27 20:04:42 +08:00

@sdjl #14 怎么可以拿模型的回复结果来作为参考，毫无价值

jasonlz

2024-03-28 11:55:51 +08:00

大部分人对 LLM 训练真是一无所知。你和 GPT 的对话里，你的输入是 prompt 数据，GPT 生成的数据不会用作自己训练，prompt 数据更不会用来做 LLM 训练。最多用来做对齐工作，但是用户数据清洗困难度远比各种渠道搜集的语料库难得多。个人认为 GPT 不会用对话数据作为训练，对话数据价值低且使用难度高。

Persimmon08

2024-03-28 15:15:42 +08:00

@jasonlz

openai 在 [Data Controls FAQ]( https://help.openai.com/en/articles/7730893-data-controls-faq) 中提到用户数据用于 improve and train model 相关内容，使用 train 作为关键词在该页面进行搜索，部分内容如下

1. Data controls offer you the ability to turn off chat history and easily choose whether your conversations will be used to train our models.

2. While history is disabled, new conversations won’t be used to train and improve our models

3. ChatGPT, for instance, improves by further training on the conversations people have with it, unless you choose to disable training.

4. Once you opt out, new conversations will not be used to train our models.

jasonlz

2024-03-29 15:31:15 +08:00

@Persimmon08 我只是从理论说明，用对话数据做 LLM 训练不太可能。至于 OpenAI 使用用户数据来干什么，也许他们有其他的用途，比如做一些模型反馈、模型测试、模型对齐。但就以我经验来看也不太可能，除非 OpenAI 有非常牛逼的清洗数据能力，但这点数据对模型能力到底提高还是倒退都不一定。