有一个 16G 显存的显卡闲置,跑了几个模型,测试过一阵子了。
 $ ollama list
NAME                     ID              SIZE    
llama3.1:latest          46e0c10c039e    4.9 GB
gemma2:latest            ff02c3702f32    5.4 GB
deepseek-coder-v2:16b    63fb193b3a9b    8.9 GB
具体的任务是内容标题生成和翻译。
llama3.1 是 8b 参数,gemmma2 是 9b ,deepseek-coder-v2 是 16b 。
内容标题生成来讲,不是很能对比出差别。因为生成的标题即使有偏差也大差不差。但是对于翻译,需要一定的翻译质量。
对于翻译来讲 deepseek-coder-v2 > gemma2 > llama3.1 。
平时用到的翻译是 Bob 翻译+沉浸式翻译,用的还挺频繁的。
所以大家还有什么小一点的模型推荐跑一跑试一下?主要做一些小任务。
|      1forgottencoast      237 天前 微软好像有好几个小模型。 | 
|      2tozp      237 天前 微软刚发布的 phi4-mini 3.8b 是目前效果最好的小模型,可以去看 hf 介绍,我在 Orin Nano 上部署了一个用,很不错。 | 
|      4BernieDu      237 天前 小模型肯定是新出的 qwq32 最好,不过 ollama 默认 q4 需要 20g 显存,你可以等等看有没有人量化 q2 的 | 
|  |      5Kinnikuman OP $ ollama run phi4 pulling manifest pulling fd7b6731c33c... 54% ▕███████████████████████████████████ ▏ 4.9 GB/9.1 GB 104 MB/s 44s @tozp 我试试这个 phi4 | 
|      6listenfree      237 天前 Q2 量化,我测试了,很不好使 | 
|      7wwhc      237 天前 推荐 Qwen2.5-14B-Instruct-1M-Q5_K_L.gguf 或 Qwen2.5-7B-Instruct-1M-Q6_K_L.gguf ,不建议 Distill 版本,Distill 版本更于擅长于解决推理或数学问题。另外建议直接使用 llama.cpp | 
|  |      8Leon6868      237 天前 Qwen2.5 14B .不要用 QwQ ,QwQ 是刷分模型 | 
|      9tabc2tgacd      237 天前 @BernieDu q4 量化后的效果并不好,ollama 提供的就是这种,我昨天测试直接一直卡在思考中了 | 
|  |      10uncleroot      237 天前 中英翻译和取标题,Qwen 系列应该是开源系列效果最好的。 | 
|  |      11mU9vX912XopmAoE1      237 天前 @tozp  @BernieDu https://huggingface.co/spaces/Jellyfish042/UncheatableEval 根據這邊的榜單, 最好的是 Llama-3.2-3B 第二 Qwen2.5-3B 第三 RWKV-x070-World-2.9B-v3-20250211-ctx4096 | 
|  |      12mortal      236 天前 via iPhone 我用 glm-4-9b |