$V2EX
Solana
Give SOL to Copy Address
使用 SOL 向 slowgen 打赏,数额会 100% 进入 slowgen 的钱包。
 slowgen 最近的时间轴更新
slowgen

slowgen

V2EX 第 83209 号会员,加入于 2014-11-23 14:34:54 +08:00
今日活跃度排名 10714
根据 slowgen 的设置,主题列表只有在你登录之后才可查看
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
slowgen 最近回复了
A4YJGZtiFZJywxC3vmK7aJngFJWCotVLbfFQ5TgvaAwx 感谢
2025 年 12 月 3 日
回复了 fingers 创建的主题 问与答 AI 分析视频的底层逻辑是什么,成本有多高?
2025 年 12 月 3 日
回复了 street000 创建的主题 Node.js Anthropic 收购 Bun
其实是不太利好 Deno 的一集,Deno 那个 compile 只是把代码无脑合并成一个文件(连压缩都没,注释还保留着)再嵌入 Deno 里,Bun 的 compile 虽然也是合并代码后嵌入到 Bun ,但是还可以 minify + bytecode ,比 Deno 小个几十 MB 。

虽然 Bun 的稳定性一般,但是拿来做客户端工具太爽了,不去和 Deno 、Node 在服务端领域竞争的话没对手
2025 年 12 月 3 日
回复了 cnhongwei 创建的主题 Local LLM 各位 AI 大佬,请教一下私有化部署 AI 模型的问题?
https://chat.qwen.ai/https://chat.z.ai/ 选择带 V 型号的模型,把脱敏或者不重要的图片丢进去问,如果能满足需求就可以按照这些模型大小买硬件。

OCR 能力可以体验 https://huggingface.co/spaces/tencent/HunyuanOCR ( https://huggingface.co/tencent/HunyuanOCR ) 和 https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo ( https://huggingface.co/PaddlePaddle/PaddleOCR-VL ) ,不到 1B ,是个电脑都能跑。

5w 以内能买的性价比最高就是 192GB 的官方翻新的 Mac Studio Apple M2 Ultra (24 核 CPU + 60 核的 GPU)那款,跑个 gpt-oss-120B 和 Qwen3-Next-80B-A3B 都很轻松,再跑一个带视觉能力的模型就可以了,2 个模型同时加载也不会爆显存,一起干活挺快的,难度高点就跑 Qwen3-VL-235B-A22B 。192GB 统一内存的好处是未来出了新模型大概率也能跑,不像 4090 48GB,5090 32GB 这种要凑多卡容易爆预算加爆显存。

AMD 的 Max+ 395 这些的瓶颈在于内存带宽,太弱鸡了,能跑但是跑不快,速度只有 M2 Ultra 的 1/3 ,也就跑个 Qwen3-VL-30B-A3B ,如果你体验下来能满足的话,倒也不是不行。
2025 年 11 月 21 日
回复了 wenerme 创建的主题 程序员 LLAMA CPP 比 Ollama 快得多
ollama 就是个废物,在 r/LocalLLaMA 都被喷了好多回了,精准控制参数贼麻烦,还不如直接去 llama-server 看参数 https://github.com/ggml-org/llama.cpp/tree/master/tools/server

而且现在 llama.cpp 自带的 webui 也挺好用的,越来越强大了,缺点就是多个模型加载有点麻烦,要开多个命令。
在 mac 上用 llama.cpp 是最方便的,去 release 页下载编译好的文件就好了,只有 15MB ,追新模型很方便。
举个例子:我跑 gpt-oss-120b 模型,开中等级别推理,这个命令就搞定

/Users/admin/llama/build/bin/llama-server \
-m /Volumes/RC20/lmstudio-community/gpt-oss-120b-GGUF/gpt-oss-120b-MXFP4-00001-of-00002.gguf \
--host 0.0.0.0 \
--port 50505 \
-fa on \
-np 4 \
-ub 2048 -b 2048 \
-c 131072 \
--presence-penalty 1.1 \
--n-gpu-layers 99 \
--jinja \
--alias openai/gpt-oss-120b \
--chat-template-kwargs '{"reasoning_effort": "medium"}' \
--temp 1.0 \
--top-p 1.0 \
--top-k 0

Windows 上同理,下载对应的文件解压就用

Linux 上也很方便,N 卡的话直接 cuda13 驱动一装,docker 配置一下 nvidia 作为 runtime 完事

docker run --gpus all \
-v /home/slowgen/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf:/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf \
-p 12345:12345 \
ghcr.io/ggml-org/llama.cpp:server-cuda \
-m /models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf \
-c 40960 \
-np 4 \
--jinja \
--n-gpu-layers 99 \
--temp 0.7 \
--min-p 0.0 \
--top-p 0.8 \
--top-k 20 \
--presence-penalty 1.05 \
--port 12345 \
--host 0.0.0.0 \
--mlock \
-mg 0
2025 年 11 月 20 日
回复了 crocoBaby 创建的主题 Local LLM 折腾了一晚上大模型,索然无味
5060 太丐了,全新也掩盖不了丐的事实,你这个就像“新买了一个 500MB 容量的托管虚拟主机然后部署了一个 WordPress ,玩了一下主题和插件之后索然无味”,能怪 WordPress 太弱吗?
2025 年 11 月 3 日
回复了 zungmou 创建的主题 互联网 虎嗅网被撤销了证书
通配符证书被吊销,那大概率是和测试环境证书共用一个证书,然后被喜欢用 GitHub 做笔记的猪队友把测试环境配置打包下来放笔记里,然后被扫描到了
管理后台首选 amis ,基本上都是在改 json 文件
2025 年 10 月 14 日
回复了 lileyzhao 创建的主题 程序员 奔 4 的.NET 老兵,想深入 AI 大模型方向,但很迷茫
卖课流永不过时
2025 年 10 月 14 日
回复了 xkwdm 创建的主题 Node.js 删除 node_modules 文件夹非常耗时
可以用华硕的 RAMDisk https://dlcdnets.asus.com/pub/ASUS/mb/14Utilities/ASUS_RAMDisk_V2.03.00_for_Windows_10_64-bit.zip (有 Referer 校验,需要地址栏输入打开)
把内存分出来当硬盘,结合 WSL1 在里面使用 rm -rf 删除,超快
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2257 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 16:10 · PVG 00:10 · LAX 08:10 · JFK 11:10
♥ Do have faith in what you're doing.