有人用 4070 、4060 显卡的笔记本测试过跑 llama3 ,问问题,或者读取文档做总结,需要多长时间吗?
1
rabbbit 215 天前
内存太小只能跑小模型,效果不好。
|
2
rabbbit 215 天前
举个例子,给出一段文本,让模型回答文中日期相关的问题。7b 会瞎编,72b 则没这个问题。
|
3
beginor 215 天前 via Android
确实,13b 以下的都只能称之为小模型,用于学习其原理或者娱乐一下还可以。
真正能用的得 30b 以上的模型,最好是非量化版本的,然而 30b 以上的模型又不是一般电脑能跑得动的。 |
4
godqueue OP 就是用来学习,就看看返回速度快不快而已。。其他的不重要。。
|
5
godqueue OP 现在用的是 mac pro2017 笔记本,有点老。。新的 mac 好像跑这些也不太行。。
看了下 4080 、4090 的笔记本都比较贵。。想先看看 4060 、4070 之类的本能不能简单的满足学习的场景 好像除了这个,我对显卡没啥要求。。这样来看去买 4080 、4090 笔记本又感觉有很费钱。。 |
6
rabbbit 215 天前
小的 0.5b 都有。问题是他瞎编的时候,搞不清楚到底是数据、提示词有问题,还是模型的问题。
|
7
haiku 215 天前 via Android 1
7b 有三五十 token 一秒吧,13b 好像只有十左右了
|
8
godqueue OP @rabbbit 我还没遇到这个情况。。只是学了一下提示词、function calling 。然后自己用了下公司的知识库。。随便问回答的感觉还可以,用的 llama3 模型。一般情况下用提示词基本都能解决。。
|
9
sentanl869 215 天前
最近用笔记本的 3070Ti 跑 llama3:8B 模型,问问题响应很快,有点出乎意料,本来以为会挺慢的;文档总结还测过;
目测模型推理使用的显存 4G 左右,长时间的推理开销也还没来得及测试; |
11
rabbbit 215 天前
试试这个
根据已知资料,回答用户问题.不要回答已知资料中没有的内容. \n 已知资料: 爱达·魔都号(英语:Adora Magic City )是中国第一艘国产大型邮轮,由上海外高桥造船于 2019 年 10 月 18 日开始建造,2023 年 11 月 4 日交付中船嘉年华,2024 年 1 月 1 日正式营运,将以上海为母港,执航日本及东南亚航线。该船长 323.6 米,宽 37.2 米,总吨 13 万 5500 吨,有 24 层楼高,2125 间客房,可载乘客 5246 人。船上有豪华酒店、影院剧场、水上乐园、健身房、篮球场、免税店、海上探索营等设施,全船有 5G 信号覆盖。船上一共配备了 20 艘救生艇。 \n 用户问题: 魔都号的尺寸是多少? |
12
lrigi 215 天前 via iPhone 1
@rabbbit 我测了一下 mac 上 ollama 默认模型,均为 4bit 量化
wizardlm2:8b 根据已知资料,爱达·魔都号( Adora Magic City )的尺寸为:长度 323.6 米,宽度 37.2 米。 phi3:4b 魔都号的尺寸为 323.6 米长,37.2 米宽。 Llama3:8b 根据已知资料,爱达·魔都号( Adora Magic City )的尺寸是: * 长 323.6 米 * 宽 37.2 米 因此,这艘邮轮的长宽为 323.6 米 x 37.2 米。 |
14
gpt5 215 天前
大几十 b 的模型,大概需要什么配置跑?
|
16
Ayahuasec 215 天前
用 7840HS+RTX4050Laptop 的笔记本跑过 llama.cpp ,卸载了 20 层到 GPU 上,把 context 限制在 2048 的话,跑 q4km 量化的 14b 模型,日志文件里记录的一次速度如下:
llama_print_timings: prompt eval time = 1300.29 ms / 385 tokens ( 3.38 ms per token, 296.09 tokens per second) llama_print_timings: eval time = 52142.44 ms / 331 runs ( 157.53 ms per token, 6.35 tokens per second) 有 GPU 加速的话 Prompt Eval 的速度会非常快,基本上发出几百个字的文本给模型以后,马上就能开始回复了。纯 CPU 计算的话 Prompt Eval 的速度只有 10 Tokens/s 左右,体现在应用上就是发了一段比较长的文本给模型要等很久才开始回复( 500 字可能要等半分钟的样子)。 但是 RTX4050 的显存比较小,如果要开启比较大的 context 的话,就只能往显存上放更少的层,模型的输出速度就会慢下来。不过我感觉可用性还是挺好的,至少出门在动车上的时候连不上网就可以直接问本地模型了。 |
18
godqueue OP @Ayahuasec amd cpu 不影响跑大模型吗?现在 amd 的 cpu 咋样,还有啥东西会存在兼容问题之类的么?
跑虚拟机或者安装 linux 系统会有影响吗? 我是用 ollama run llama3 "summarize this file $(cat test.txt)" --verbose 这个命令来看速度的 total duration:4m16.4180938s load duration:524.8u 。。。。。 |
20
lrigi 214 天前 via iPhone
@BernieDu 我知道,楼主或其他人不一定知道默认是 4bit 啊,我不看我也知道有 fp16 ,但有 fp16 又怎样?你能说一下 4bit 和 fp16 在实际中区别在哪吗?我测一下只是为了说明这种任务模型不一定非要 70b ,
|
23
looveh 214 天前
macM1 跑 8B 都有点卡,我试了一下服务器上的 3090 ,跑 8B 完全没问题,跑 70B 也很卡
|
24
godqueue OP 你们不会拿笔记本显卡跑 70b,如此大模型吧。。
|
26
Ayahuasec 214 天前 via Android
@godqueue 现在软件兼容性上,AMD 和 Intel 没有太大区别吧。我感觉支持 AVX 然后内存带宽不差、内存容量够的话,CPU 跑起来 int4 的 14b 左右的模型,虽说不算快但是起码可用了。
虚拟机的话主要考虑 GPU 能不能直通进去,或者虚拟机内部要能调用到主机的 CUDA ,不然 GPU 加速跑不起来。 |
30
bibi012 214 天前
同问, 一直想自己搭环境
|
31
Charon2050 214 天前
外行人有个疑问,能不能用时间换空间,不考虑速度的情况下,在小内存的机器上跑 70b 之类稍大的模型呢?
|