V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
iorilu
V2EX  ›  程序员

怎么感觉 v2 这里很少有 ai 或大模型开发相关得讨论啊

  •  
  •   iorilu · 331 天前 · 11944 次点击
    这是一个创建于 331 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在不是 ai 火吗

    我在思考各种 gpt, llama 这种 对于 ge 个人来说有没有什么好的方向能够 做些产品

    怎么没有人想在开发一个国内得 huggingface 这种可以分享上传模型得网站

    这样比如有个人训练得模型, 可以发到这个网站上, 用户可以付费使用, 网站本身也可以提成一部分

    81 条回复    2024-03-26 11:09:20 +08:00
    faceair
        1
    faceair  
       331 天前
    https://www.modelscope.cn/models
    https://openi.pcl.ac.cn/modelsquare/main

    有几个了。一般模型文件都很大,需要很大的存储空间和带宽,个人或者小站长可能搞不起。
    z1829909
        2
    z1829909  
       331 天前
    感觉成本不低, 一个模型几百兆几个 g, 带宽费用有点扛不住
    iorilu
        3
    iorilu  
    OP
       331 天前
    @faceair 不错得, 我看看

    居然没有一个大厂愿意搞一个平台, 也不知道在干啥
    me221
        4
    me221  
       331 天前
    modelscope 好像是阿里搞得
    yinmin
        5
    yinmin  
       331 天前 via iPhone   ❤️ 1
    国内上线 ai 服务要牌照的,huggingface 模式不合法啊
    extrem
        6
    extrem  
       331 天前
    我是很好奇国内审查是怎么知道某些产品的技术实现是用了 ai,然后一定要求它搞个牌照的
    F798
        7
    F798  
       331 天前 via iPhone   ❤️ 1
    闷声发大财
    xiyan00
        8
    xiyan00  
       331 天前
    楼上的路走窄了, 个人不是去搞大模型, 而是搞应用, 这块还是待开发的蓝海, 前景广阔
    说白了是 v2 基因不同, ai 相关去即刻
    jianchang512
        9
    jianchang512  
       331 天前
    huggingface 这个都被墙了,知道处于什么顾虑吗
    James369
        10
    James369  
       331 天前
    @jianchang512 也不知道是墙谁,真正搞技术创造的人,它根本就墙不住
    mightybruce
        11
    mightybruce  
       331 天前
    AI 早就内卷了, 现在已经不是一年前,多了解了解国内和国外做这方面的前沿吧。
    另外自己训练和微调 没有 1 百万 以上的投入还是不要想了,这方面的确是有不少公司赚到钱。
    做应用的开源大多是玩具。
    现在能搞好 AI 应用的都是之前已经有相应的产品比如金山、腾讯文档 或者低代码平台 运维管理平台, 通过 AI 辅助使得更加智能和友好( AI 提效),而不是做一些通用的 AI 应用,通用 AI 比如写作、翻译国内外也快烂大街了。
    mightybruce
        12
    mightybruce  
       331 天前
    模型网站我也给一个吧,自己玩玩可以,赚钱没有技术,没有资金,还是不要想了
    https://www.codewithgpu.com/image
    可以在 autodl 上便宜租到一些 GPU 服务器,但是训练和微调需要的投入还是很高的。
    mightybruce
        13
    mightybruce  
       331 天前
    aigc 图像生成 倒是在国内玩的人很多,模型网站像 C 站 https://civitai.com/
    可以去看看
    国内 c 站镜像
    https://www.stablediffusion-cn.com/
    Jianzs
        14
    Jianzs  
       331 天前
    @iorilu modelscope 是阿里的
    c5QzzesMys8FudxI
        15
    c5QzzesMys8FudxI  
       331 天前 via iPhone
    国内有魔塔社区
    NXzCH8fP20468ML5
        16
    NXzCH8fP20468ML5  
       331 天前   ❤️ 15
    v2 只是一个休闲的科技社区,指望有上面高深的内容,真的是想多了。
    不要说 AI 了,大数据都没见 v2 几个人讨论,Spark/Hive/Flink/Hudi/Paimon/ClickHouse/CDC/ETL ,这几个名词能在 v2 搜出几个内容来?
    就连数据库都很少人进行严谨讨论,大部分时候都是赛博斗蛐蛐。
    felixcode
        17
    felixcode  
       330 天前 via Android   ❤️ 2
    这里果粉浓度高,但凡苹果在大模型开发上有点优势,还不得吹翻了?(参考 M2 Ultra:干翻英伟达!决战 AI 之巅 的讨论)
    xbird
        18
    xbird  
       330 天前
    这不抄的 hugging face 吗?就跟国内 gitee 抄 github 一样。。。
    gaobh
        19
    gaobh  
       330 天前 via iPhone   ❤️ 1
    在这里找合伙人,没钱被喷。发布产品和想法,被抄袭。哈哈,这里早就没什么人发正经东西了
    fox0001
        20
    fox0001  
       330 天前 via Android
    想找正经的讨论都比较难
    frankies
        21
    frankies  
       330 天前 via Android
    个人没啥机会。
    本来打了挺多,想想这一句就够了。
    murmur
        22
    murmur  
       330 天前
    i2ex ,不是 nv2ex ,大模型得要 nv 才行
    lidongyooo
        23
    lidongyooo  
       330 天前   ❤️ 4
    额其实机会挺多的,大家要多结合一些垂直行业去找嵌入点。AI 本质上是提高生产效率,而一些传统行业还存在大量优化的空间。就算只会大模型微调,在市场上也能找到一份工资不低的工作。这就是搞技术的人要提高的东西,我们说广度并不是只局限于计算机领域的广度,要把各行各业结合起来。在技术人眼里不值一提、烂大街的技术,在外行看来可是很牛逼东西,而你就可以利用这个行业认知割韭菜。
    xuanbg
        24
    xuanbg  
       330 天前
    这玩意有啥好讨论的,实在是想不出来可以放在这里讨论的点
    rm0gang0rf
        25
    rm0gang0rf  
       330 天前
    LLM 挺多的
    chendy
        26
    chendy  
       330 天前   ❤️ 1
    摸鱼论坛,唠正事干啥
    clementewy
        27
    clementewy  
       330 天前
    @extrem 最大诚信原则,她觉得你是的时候,最好有牌照。
    k9982874
        28
    k9982874  
       330 天前   ❤️ 9
    你以为这是个技术网站,其实是个情感网站
    MuscleOf2016
        29
    MuscleOf2016  
       330 天前
    因为不会
    MiketsuSmasher
        30
    MiketsuSmasher  
       330 天前 via Android   ❤️ 1
    对啊,能上首页相关讨论的没见过几个,薅 ai 或大模型羊毛的倒是一大把
    zw1027
        31
    zw1027  
       330 天前
    我一直以为这里是摸鱼论坛,偶尔针对一些问题互助一下而已
    waltcow
        32
    waltcow  
       330 天前
    abelmakihara
        33
    abelmakihara  
       330 天前
    v2 是摸鱼论坛 不是技术论坛
    johnnyyeen
        34
    johnnyyeen  
       330 天前
    基础模型、算法研究个人就算了吧,
    对工业场景、专业场景的强化,训练解决专门模型解决专门问题,感觉可以搞。
    justfindu
        35
    justfindu  
       330 天前
    个人训练大模型属实有些些难了, 成本是个大问题, 语料是个大问题.
    wangqifox
        36
    wangqifox  
       330 天前
    @mightybruce 有没有类似的开源的模型管理平台,想在内部私有化部署一个
    ShadowPower
        37
    ShadowPower  
       330 天前   ❤️ 2
    最近微调了 Yi-6B ,能用来写知乎回答,能过知乎的 AI 检测……
    虽然没什么用,但是好玩。比给 GPT 写各种各样的 Prompt 好玩多了。

    目前还有不少问题,回答里会有很多广告、引流的内容。

    这是一些例子:

    cherryas
        38
    cherryas  
       330 天前   ❤️ 1
    @ShadowPower 牛哇。完全看不出来是 ai 写的。 虽然回答内容属于纯纯的知乎高赞味。
    zhusimaji
        39
    zhusimaji  
       330 天前
    当你在微调模型,发现需要 A100 H100 的时候就知道成本蛮高的
    mightybruce
        40
    mightybruce  
       330 天前
    @wangqifox 图像生成时有的,stable diffusion 可以加载各种微调模型

    vercel 之前出了一个 ai playground, 它集成了各种开源和商业的 LLM 模型 sdk, 可以看看
    https://sdk.vercel.ai/docs
    hiphooray
        41
    hiphooray  
       330 天前
    因为都在刷论文 and 闷头卷,并且巨大的硬件成本使得开发者人数本就不会太多(来自一个具身智能算法开发者,以及拜托国内外 CS 的大佬们不要再创造新词汇了)
    xjx0524
        42
    xjx0524  
       330 天前
    @4rat 同一直记得是魔塔,后来发现人家叫魔搭...
    ShadowPower
        43
    ShadowPower  
       330 天前   ❤️ 29
    想给大家分享几点:
    1. 虽然个人制作一个预训练模型不太现实,但是其实微调模型的门槛很低;
    2. 如果你只有 6GB 显存,可以尝试微调 Qwen 1.8B 。虽然不能指望它给你准确回答问题,或者帮你写出正确的代码,但用于只需要想象力的文学创作方面还不错;
    3. 零一万物的 Yi 系列模型其实很强,尽管中文互联网上讨论得少。主要优势在中文写作上。虽然它不那么遵循指令,然而 34B-Chat 的中文写作质量真的可以超过 GPT4 ;
    4. 除了在 LLaMa 1 刚出来的那个时代,实际上,参数量大的开源模型效果往往不理想。参数量小的开源模型反而更实用;
    5. 不要迷信 M2 Ultra 192GB ,想玩出花样,目前看来,NVIDIA 仍然是首选。


    说说为什么参数量大的开源模型效果不理想吧。其实最大的原因在于参数量越大,训练成本越高。哪怕对于商业公司来说,预算也不是无限的。训练大模型其实有很多复杂的工程问题,需要多机器的都不简单。

    参数量小的模型因为训练成本比较低,很快就能迭代新版本,不断地追加训练数据。
    于是,小一点的模型相比大一点的模型,训练得更加充分,数据也更多样。
    对商业公司来说,也更适合尝试不同的训练方法。全参数训练 6B 模型最低其实只要一块显卡,60 多 GB 显存。

    还有,为什么不要迷信 M2 Ultra 192GB 。
    我尝试了市面上绝大多数比较受欢迎的模型(仅中/英文),绝大多数有用的模型都在 1~34B 内。其中又有几乎 95%的模型在 1.5~14B 这个范围内。

    M2 Ultra 192GB 的优势则是可以在输出效率能接受的情况下尝试 70B 、120B 、180B (只有一个)的模型。
    不过很快你就会发现这些模型一点用都没有:
    写作很差,都是那种总-分-总的议论文结构,而且非常机械、死板;
    写代码或者回答问题都是错误百出……写代码最好的模型大多数有 34B 左右的参数量;
    角色扮演也很无趣,输出实在是太正经了。无论扮演什么,都像在跟售后客服聊天,而且服务范围很有限。最好的角色扮演模型大多数是 13B 左右的参数量。原因很简单,网友自己微调模型,能接受的最高成本在这里。

    另外大型语言模型其实可以量化运行,而且性能损失很小。llama.cpp 的 Q5_K_M 量化几乎不影响写作性能,依然能保持和 fp16 同等的质量。只是输出的内容不完全相同。

    如果想用 M2 Ultra 192GB 训练模型,其实并不好使。坑很多,有这些:
    运行不一定报错,但是训练出来的模型可能是废的。还不好排查问题在哪,网上没人讨论。比如,训练 Stable Diffusion 的 LoRA 拿来用,输出的图都是黑的……
    训练速度超级慢。要是模型本身就不大,其实用 NVIDIA 游戏显卡坑少效率还高。模型大到 NVIDIA 游戏显卡跑不起来的情况下,训练速度就相当慢了。你不会愿意把它放着跑个一两年,还保持满载。

    PyTorch 的 MPS 后端跑很多模型看起来“能跑”,但是有一些算子实际上没有 MPS 实现,会回退到 CPU 上跑。所以不能光看显卡理论性能。
    在训练的时候,ANE 是完全用不上的(推理的时候能用上,但它只能做 INT8/FP16 卷积)。而 NVIDIA 显卡的 Tensor Core 能用上。

    个人玩 LLM 最具性价比的选择是 3090 ,进阶选择是两块 3090 ,缺点是噪声比较大,主板和电源要求也高。
    4090 在噪声方面好一些,但是现在还是太贵了。

    不捡垃圾,不买矿卡,不魔改的情况下,入门选择是 4060Ti 16GB 。
    只想体验一下的话,租个 VPS 玩玩,或者用 llama.cpp 用 cpu 跑……
    xjx0524
        44
    xjx0524  
       330 天前
    @k9982874 早些年 v 站真的是技术论坛,很多疑难杂症都能在这求解,但现在真的越来越水了。。。
    tangtang369
        45
    tangtang369  
       330 天前
    这种要靠 gpu 跑的 个人自己做慈善 可能钱包吃紧
    当然如果你也 ai 的问题也可以问我
    anubu
        46
    anubu  
       330 天前
    国内玩的话应该会接触到魔搭、autodl ,差不多就是 huggingface 、colab 一类,集成度比较低但能用。
    模型和平台个人开发者应该没太多机会,都是比较重的方向。搞一些工具或应用,比如 RAG 、可控生成,似乎还有点意思。比如 langchian-chatchat 、fastgpt ,有能力也可以搞一搞应用框架一类。
    目前的商业化落地比较困难,LLM 生态都是看着挺有意思,要做到能投产却很困难。有大量的开源项目,不怎么费力就可以跑个七七八八,但要做到融合到生产业务里就很困难了。基于 langchain 、llama-index 等框架,糊一个勉强能落地的应用,能从政企跟风项目层层外包中捞点汤喝已是不错的结果。
    iorilu
        47
    iorilu  
    OP
       330 天前
    @ShadowPower 不错得经验分享, 我目前就一个小机器配 3060 12G, 装了 ubuntu 做测试机玩玩

    如果想弄比如两块 4060ti 16G 之类得, 现在又方便能分布式跑在两块卡训练吗
    ShadowPower
        48
    ShadowPower  
       330 天前
    @iorilu 只想双显卡加快训练速度的话,用 huggingface 的 accelerate 库就可以了,官方文档: https://huggingface.co/docs/accelerate/index

    不过它只支持数据并行,所以不能解决那种一块显卡显存不够,用多块才够的问题。

    之前看过一些框架,据说支持把模型拆分到多块显卡上训练。例如 DeepSpeed 、ColossalAI 之类的。只是我还没成功跑起来……
    herozzm
        49
    herozzm  
       330 天前
    个人没机会
    iorilu
        50
    iorilu  
    OP
       330 天前 via Android
    @ShadowPower 比如想专门微调用于中文写作生成的模型,能推荐下吗, 比如我想基于一个中文模型训练金庸全集写武侠,用那个模型比较好

    本来我想找个中文的 GPT2 ,因为我觉得 GPT2 模型大小比较合适,但 gpt2 好像没公认比较好的中文模型把

    另外比如用某个模型,那 embeding 是用模型自带的比较好还是用 bert 中文这种,毕竟 bert 也算是专门训练词嵌入的吧
    ShadowPower
        51
    ShadowPower  
       330 天前   ❤️ 1
    @iorilu
    Yi-6B 就挺好的,预训练数据里已经有好多小说数据了。
    如果还想更小一些,还有 RWKV ,不过相关的生态比较少。

    embeding 用这个: https://huggingface.co/moka-ai/m3e-base
    Huelse
        52
    Huelse  
       330 天前
    自从 v2 在墙外后就意味着有更多的情绪贴会被发出来,纯粹的技术讨论只在几个小分区里可以看到,算是各有利弊

    回归本题,我认识的 AI 大佬都是博士以上的,他们大多没空在这类论坛上发帖,而且 AI 对硬件条件要求较高,不是每个人都能玩得动的,可以说是大公司或国家级别的资源才够,大概率都涉密
    gitlight
        53
    gitlight  
       330 天前
    我还在天天调 BERT 洗 bad case(꒦_꒦) ,LLM 玩不起
    zjuster
        54
    zjuster  
       330 天前
    v2 这里主要是“应用“,如何将 chatgpt 的服务接口封包为国内可用的第三方。 这个实际地多。
    mightybruce
        55
    mightybruce  
       330 天前
    看了看 ShadowPower 发的,其实个人玩玩还是可以的,
    这类模型微调很多, 其实就是用语料训练一个 chatbot
    半年前那个 AI 孙艳姿 唱歌 还火过,也是这类, 自己玩玩可以, 商业上谈不上。
    另外,国内任何 AI 应用上线 还要接受《生成式人工智能服务管理办法》制约,敏感词是要过滤的。

    国内外 AI 团队已经不再是简单的微调了,都已经上升到 AI 对齐了。
    jim9606
        56
    jim9606  
       330 天前 via Android
    你如果是说当个 openai 搬运工的,大把,我差不多天天都能看到。
    至于真搞训练的,不是要大把钱就是大把数据,跟小创业者也没啥关系。
    而且你看那些追这波热潮的,哪怕是大厂,都是顶多换皮微调级别,真搞训练的怕不是连融资都拿不到。
    isouu
        57
    isouu  
       330 天前
    @ShadowPower 这是用 Base 模型还算 Chat 模型?训练数据的话是将知乎高赞回答喂进去的吗
    ShadowPower
        58
    ShadowPower  
       330 天前
    @isouu Chat 模型,训练数据是一些大 V 的回答
    isouu
        59
    isouu  
       330 天前
    @ShadowPower 训练好的模型能够有哪些变现的场景呢?
    veotax
        60
    veotax  
       330 天前
    可以看看这个 langchain 平台,可以集成多种 GPT 接口:

    Casibase:开源的企业级 AI 知识库,让 AI 助手学会所有企业内部文档知识!包括如下特性:

    1. 支持 ChatGPT 、Azure OpenAI 、HuggingFace 、OpenRouter 、百度文心一言、讯飞星火、Claude 等众多国内外模型;
    2. 支持多种 Embedding 嵌入 API 接口,如 OpenAI Ada, 百度文心一言等;
    3. 支持多种文档格式:txt, markdown, docx, pdf 等,支持 PDF 文件智能解析;
    4. 支持 AI 小助手通过右下角弹框嵌入到应用网站,进行在线实时聊天,支持聊天会话人工接入;
    5. 支持多用户、多租户,支持 Casdoor 单点登录;
    6. 所有聊天会话保存日志,管理员可查看、修改,方便审计、计费等操作;
    7. 界面语言支持中文、英文等多语种。

    Casibase 帮助实现企业内部员工知识分享与积累、智能客服等多种功能场景,也适用于个人知识库场景。目前开源版已达到 GitHub 1500+ stars ,用户好评如潮,欢迎体验~

    - GitHub: https://github.com/casibase/casibase
    - 官网文档: https://casibase.org
    ShadowPower
        61
    ShadowPower  
       330 天前
    @isouu 我还没想过这个问题
    isouu
        62
    isouu  
       330 天前
    @ShadowPower 大佬加个微信吧 我也是在搞大模型训练的 咱们一起探讨探讨应用场景
    nikenidage1
        63
    nikenidage1  
       330 天前
    @ShadowPower 这么整齐的标点符号,一眼 AI ,哈哈
    fakecoder
        64
    fakecoder  
       330 天前
    @ShadowPower #37 大佬这个牛哇,有教程不
    uni
        65
    uni  
       330 天前
    @ShadowPower #37 这个效果看着挺牛逼的啊
    gw1100
        66
    gw1100  
       330 天前
    declandragon
        67
    declandragon  
       330 天前
    现在 AI 模型互相训练,如果有一个模型的内容有很多假的或者有问题的,其他模型会崩塌的很快吧?
    brom111
        68
    brom111  
       330 天前
    主要是应用方面 大厂对于个人的体验上是降维打击的。自己搞确实没意思。
    daiv
        69
    daiv  
       330 天前
    @ShadowPower #43 请问如果想专门弄一个写文章, 一些新能源领域方向应用的新材料介绍为主的文章, 建议用什么模型?

    看了你的分享, 是不是该选 34B-Chat
    highsun16
        70
    highsun16  
       330 天前
    @ShadowPower 知乎风格的微调大佬可以出个教程吗?
    guotie
        71
    guotie  
       330 天前
    因为大部分人不会,搞的人还是太少太少,虽然看起来很火
    guotie
        72
    guotie  
       330 天前
    不像学 java ,学 rust ,很快就能来一个 hello world
    bug123
        73
    bug123  
       330 天前
    @xiyan00 请问下 即刻 是不是这个 okjike ?
    ShadowPower
        74
    ShadowPower  
       330 天前 via Android
    @daiv 是的
    ShadowPower
        75
    ShadowPower  
       330 天前 via Android   ❤️ 1
    @highsun16 其实目前还没达到令我满意的效果,后面还得看看怎么把数据清洗一下。之后还得再试试训练的时候能不能额外带上 Prompt ,让生成的内容更可控。

    折腾完了之后,等有空我写一篇吧。
    gowinder
        76
    gowinder  
       329 天前 via Android
    @ShadowPower 期待
    highsun16
        77
    highsun16  
       329 天前 via iPhone
    @ShadowPower 期待🥰
    daiv
        78
    daiv  
       309 天前
    @ShadowPower #43 请问是否方便加 微信/QQ, 或者邮件, 联系你, (咨询这方面内容, 可付费)

    我的微信:
    https://s2.loli.net/2023/07/12/cEJPlK4oFNkrwWb.png
    leo6668
        79
    leo6668  
       270 天前
    @ShadowPower 大佬用的 gpu 配置是咋样的?可以透漏一下吗
    niunaisuan93
        80
    niunaisuan93  
       242 天前
    @ShadowPower 老哥能简单给个教程吗 怎么用知乎的数据微调
    ShadowPower
        81
    ShadowPower  
       242 天前
    @niunaisuan93 这模型的效果其实很差,大多数时候都会乱讲……我已经放弃了
    之前找的网上的开源代码,简单改了改
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1160 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 18:35 · PVG 02:35 · LAX 10:35 · JFK 13:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.