V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
justincnn
V2EX  ›  OpenAI

自己搭建一个私域 openai 可行么?

  •  
  •   justincnn · 2023-04-05 12:44:55 +08:00 · 2137 次点击
    这是一个创建于 603 天前的主题,其中的信息可能已经有所发展或是发生改变。
    把自己的一些项目和知识放在里面,或者把感兴趣的数据不断喂投,慢慢的形成自己的,且保密的信息池
    7 条回复    2023-04-08 15:19:53 +08:00
    xmumiffy
        1
    xmumiffy  
       2023-04-05 12:51:17 +08:00 via Android
    zacharyjia
        2
    zacharyjia  
       2023-04-05 13:08:16 +08:00
    首先基于 OpenAI 的 API 必然是不行的,不满足你的**保密**要求。最近三星已经出了几次 ChatGPT 的泄密事件了。

    不考虑保密,可以用 1 楼的方法。

    考虑保密的话,需要自己部署私有的开源 LLM ,比如清华的 ChatGLM ,Meta 的 llama 等。两种模式:一种是参考现有的模式,对每次提问去搜索相似的文本语段,作为上下文提供给 LLM ,然后它根据上下文和问题进行回答;另一种是用你自己的数据对它进行 fine-tune ,让你的知识嵌入到模型当中。
    iloveoovx
        3
    iloveoovx  
       2023-04-05 13:12:57 +08:00
    去看看微软怎么解决保密问题的
    毕竟 2B 解决方案保密需求是第一要求
    q307990588
        4
    q307990588  
       2023-04-05 22:22:14 +08:00 via Android
    怎么一直喂? gpt 最大的储存 token 不是有限的么,记住现在的,会把之前的遗忘吧
    Fenix666
        5
    Fenix666  
       2023-04-06 10:28:22 +08:00
    不考虑保密的话,用 fine-tune ,一楼的办法还是摆脱不了 token 限制,但 fine-tune 贵的一批
    avenger
        6
    avenger  
       2023-04-07 15:04:22 +08:00
    @Fenix666 fine-tune 测试了不可行,参考我的帖子
    Fenix666
        7
    Fenix666  
       2023-04-08 15:19:53 +08:00
    @avenger 对,embeddings 是成本最低办法,但缺点仍然很多,目前最明显的问题就是 1:token 限制,2:上下文对话里如果使用了代词之类的词,会出现匹配不准,这个我看 openai 论坛里有人提过,不知道怎么解决。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3177 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 13:32 · PVG 21:32 · LAX 05:32 · JFK 08:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.