V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  clvin  ›  全部回复第 1 页 / 共 1 页
回复总数  4
100 天前
回复了 ddvswgg 创建的主题 程序员 关于在本地部署开源模型的一些问题请教
1. 40G 可以跑 7B 的模型。
2. ollama 是比较方便的部署方式,如果想并发性能更好一些,可以使用 vllm 来推理。
3. 熟练的话就很快,不熟的话照着文档来部署。
4. ollama 和 vllm 都支持兼容 openai API 接口,就是 http 调用。
5. 上 RAG 可以使用集成好的框架,比如 dify 之类的。
6. 上 RAG 的话,还需要 EMBEDDING 和 RERANK 的模型,具体可以看 dify 的文档。
求一个码,谢谢~ aGNsdmluQGdtYWlsLmNvbQ==
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3178 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 13:40 · PVG 21:40 · LAX 05:40 · JFK 08:40
Developed with CodeLauncher
♥ Do have faith in what you're doing.