safetensors 模型部署请教

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 462 天前的主题，其中的信息可能已经有所发展或是发生改变。

大佬们，我现在有两个 safetensors 格式的模型文件，一个只有 130M ，另一个 3G+ 我现在想要部署这个模型使用，我不太清楚这两个文件都是什么意思，我需要怎么部署，纯新手有没有操作案例或者示例代码指引一下迷路人

safetensors

部署

新手

11 条回复 • 2024-11-12 20:06:53 +08:00

zhmouV2

2024 年 11 月 11 日

safetensors 不包含模型本身的结构，只有模型参数，你得知道这个模型是啥样的。然后 safetensors 一般还是用 python 部署吧，就是安装一下 pytorch 之类的框架，最后用 gpt 写个示例代码就行。

WolverineL

2024 年 11 月 11 日

@zhmouV2 我 gpt 了个示例代码，但是一直跑不起来不知道模型该怎么用，130M 和 3G 都只是参数吗
我看 130M 是张量 3G 那个我也不知道是什么，现在的场景就是只给了我两个 safetensors 文件，让部署

WolverineL

2024 年 11 月 11 日

是 Lora 模型 safetensors 格式

zhmouV2

2024 年 11 月 11 日

@WolverineL #2 你找到的是画图的模型吗，3G 大小感觉是一个画图的模型，然后 130M 是对应的 Lora ？“Lora”不是某一种模型，而是对模型参数的微调方法，类似于一种“插件”，以画画为例，某个特定的“Lora”模型能够让原来的大模型本体画出之前不认识的角色/画风/概念之类的。建议先搜索一下模型的文件名，知道大概是哪个范围的才能有答案。

DefoliationM

2024 年 11 月 12 日 via Android

用 ollama 的话，需要手动转一下，具体可以参考 https://tech.takuyakobayashi.jp/2024/06/14/526 ，转完之后直接用 ollama run xxx 就能运行。

DefoliationM

2024 年 11 月 12 日 via Android

@DefoliationM 下面的量化可以不看

huoshen

2024 年 11 月 12 日

凭直觉先用 transformers 的 AutoModelForCausalLM 和 AutoTokenizer 试试看能不能 load 再说

WolverineL

2024 年 11 月 12 日

@zhmouV2 是一个画图模型，大佬。
模型文件是这个 chilloutmix_NiPrunedFp32Fix ，那我是需要以什么形式启动模型
StableDiffusionPipeline.from_pretrained 这个是不是可以载入模型，
然后再将 lora 参数文件(130M) load 进 pipe: pipe.load_lora_weights (lora_weights)

WolverineL

2024 年 11 月 12 日

@DefoliationM 好的我看一下

thevita

2024 年 11 月 12 日

不知道 sd 有不有毕竟好的推理框架哦, 比如如果你用你上面的 diffusers 的话，就看怎么 load lora 呗

https://huggingface.co/docs/diffusers/v0.14.0/en/training/lora#inference

charlert

2024 年 11 月 12 日 via Android

用 Comfyui 建工作流啊，教程很多