lithiumii 最近的时间轴更新
lithiumii

lithiumii

V2EX 第 365877 号会员,加入于 2018-11-26 17:23:48 +08:00
今日活跃度排名 4532
lithiumii 最近回复了
理论上最低限度的跑起来:显存 + 内存 + 硬盘 > 模型 + context
但是比较傻瓜的软件(比如 ollama )一般不能直接把硬盘当缓存用,所以比较傻瓜的一键跑起来:显存 + 内存 > 模型 + context
人的阅读速度大概是 5 token 每秒,所以跑起来并且速度勉强能用:每秒 token 数 > 5
因为速度主要瓶颈是内存或显存的带宽,普通家用双通道 < 服务器 4 通道 < 中低端显卡、苹果统一内存 < 高端显卡,所以模型放到显卡的比例越大,速度越快。另外就是做推理的时候模型不同的层可以放进不同的显卡,不走 nvlink 仍然速度很快,因为不同的层之间通信要求没有那么高,所以多个 PCIe 槽直接插多显卡就可以放下更大的模型并且获得更快的速度。
最后是计算模型体积,一般的完整模型 fp16 每 B 近似 2G ,量化到 q4 的模型近似 0.5G 每 B ,但是这样算太粗糙了可以再加个 20% 当余量。context 计算很麻烦,不同参数的模型需要的不一样,而且可以自己调高调低,ollama 默认给得非常低只有 2k (很多模型支持到 128k ),所以再加个 10% 当余量。
那就是 显存 + 内存 > 1.3 × 模型体积。
6 天前
回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
能,但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ,往下 70B 之类的魔改显卡也能了,还更快。
7 天前
回复了 FlorentinoAriza 创建的主题 随想 AI 替代法官的可行性
你有没有考虑过有些判决是非法律的因素在影响,判决有可能不公正是设计的一部分,是 feature 不是 bug
petals 比你们早吧,而且是小显存的卡分布式部署大于单卡显存的模型。可惜免费节点已经没人跑了。
40 天前
回复了 abcfreedom 创建的主题 生活 求分享砍价技巧
跟父母学了点,就很简单,一直问能不能再便宜点
是的,有一阵子不稳定,就改自建 planet 了,ztncui
55 天前
回复了 readman 创建的主题 NAS 突然想不通了,做备份的意义是什么?
小姐姐:没 raid ,直接分盘存,炸了拉倒
收藏的影视作品:raid1 ,万一炸了一个盘还有一个,万一都炸了就认倒霉
重要数据:在各种地方都复制了一份
20T 硬盘也就两三千吧,够你全家拍十年了吧,除非是 24 小时录像
80 天前
回复了 hapsinge 创建的主题 Apple 苹果 Vision Pro 真的会停产吗?
去店里修手机要等,就给我弄了个试用。效果是真的好,比家里的 q2 不知高到哪里去了。希望苹果持续烧钱,把整个供应链成本拉下来,然后我们买竞争对手的平替
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   978 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 16ms · UTC 22:53 · PVG 06:53 · LAX 15:53 · JFK 18:53
Developed with CodeLauncher
♥ Do have faith in what you're doing.