V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Int100
V2EX  ›  程序员

AI(大模型)本地化项目 和 部署设备

  •  
  •   Int100 · 108 天前 · 2350 次点击
    这是一个创建于 108 天前的主题,其中的信息可能已经有所发展或是发生改变。

    请问一下各位都是怎么"AI(大模型)本地化"的?

    有没有一些推荐的项目?例如 hugging face ,localai 。

    另外大家的本地模型都是跑在什么设备上?直接 Linux 服务器 + Nvidia 显卡吗?

    手头的设备是 MacBook Pro M3, 尝试跑一些编译的时候经常因为 arm64 架构出错。

    6 条回复    2024-01-11 16:43:03 +08:00
    shuimugan
        1
    shuimugan  
       108 天前   ❤️ 14
    客户端
    https://lmstudio.ai/ 界面布局合理,功能也 ok 。
    https://github.com/oobabooga/text-generation-webui/ 界面不太好用但功能丰富,适合丢公网加个密码访问。
    都支持上下文不足被截断时那个 continue 继续续写,都支持多种显卡加速,都支持开 OpenAI 格式的接口方便你拿其它客户端去调用。

    模型
    https://huggingface.co/TheBloke 下载量化后的 GGUF 格式,一般看自己内存多大下载对应的规格,Q8 是损耗最小的但是最占资源速度也最慢,Q4_K_M 相对平衡。我现在喜欢下载 Q5_K_M 以上玩

    设备
    m2 ultra 76-core 192gb 官翻版

    推荐模型
    https://huggingface.co/TheBloke/Phind-CodeLlama-34B-v2-GGUF CodeLlama 的微调版,我拿来写代码还可以,Q4_K_M 规格量化速度 23token/s
    https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF Mixtral-8x7B:混合专家模型,速度很快准确率也 ok ,Q4_K_M 规格量化速度 50token/s ,Q5_K_M 是 37token/s
    https://huggingface.co/TheBloke/Yi-34B-200K-GGUF 零一万物,中文能力不错,有黄文的模型是基于它做的微调,而且有 200k 的上下文,Q8 规格 开启 20w 字上下文,内存不放模型占用 48GB ,内存也放模型占用 83GB ,真微服务的话整个服务丢进去问问题也可以
    https://huggingface.co/TheBloke/vicuna-13B-v1.5-GGUF 刚出来的时候一鸣惊人,很小很强悍,中文能力也不错,能写黄文能写代码。


    其它推荐
    https://www.reddit.com/r/LocalLLaMA/ 上面玩本地模型的很多,讨论热度高。
    https://github.com/SJTU-IPADS/PowerInfer 灵活使用 cpu 和 gpu 的内存,让更小显存的设备跑大模型有更快的速度,todo 里有多 GPU 和 M 系列芯片的计划,值得期待,我的 2 个 2080ti 22g 有望在今年跑 70B 规格嗖嗖快了。
    https://github.com/ml-explore/mlx-examples 不喜欢跑量化的要满血的,可以用苹果的 mlx 框架来驱动模型,按说明先转换格式就可以跑起来了,我现在也期待其它客户端把它也整合进去。
    shawndev
        2
    shawndev  
       107 天前
    能用 cuda 还是用 cuda ,以下转自自己的推特:

    换 M2 Max 的 Mac Studio 后和 13700K+4090 做了下机器学习的对比。在 BERT 文本分类场景,13700K 1it/s ,4090 30it/s ,M2 Max 6it/s 。均使用 huggingface 的 Pytorch 实现,其中 M2 Max 使用 mps 后端(但未验证是否所有 operator 都支持 mps )。
    MonTubasa
        3
    MonTubasa  
       107 天前   ❤️ 2
    曾经我也很苦恼这个问题,大部分时间用的云服务器。直到有一天我老婆送了我一张 4090
    Alias4ck
        4
    Alias4ck  
       107 天前   ❤️ 1
    mac 有个傻瓜的,原理是基于 llama.cpp 和 docker ,偏命令行,对命令行情有独钟的可以试试(它也支持 linux

    ollama( https://ollama.ai/)
    Lockroach
        5
    Lockroach  
       107 天前
    llama.cpp ,直接配合其他文件运行大模型
    Int100
        6
    Int100  
    OP
       107 天前
    @shuimugan 这是我在 v2 上看到的质量最高的回复!感谢分享!

    @shawndev @MonTubasa @Lockroach @Alias4ck 谢谢分享,我这去试试。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1201 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 23:35 · PVG 07:35 · LAX 16:35 · JFK 19:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.