V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  smalltong02  ›  全部回复第 1 页 / 共 3 页
回复总数  54
1  2  3  
我蛮喜欢 Qwen 和 YI 模型的,它们为开源社区做出了很大贡献。
如果你想自己研究的话,还是建议要搞一块 4090 。这样 34B-4bit(GPTQ),13B-8bit(GPTQ)和 7B-16bit ,都可以无压力的使用 GPU 加载并推理。如果想玩更大的模型,比如 70B 的模型,那么建议把内存也升到至少 64G 。这样可以使用 CPU 和内存加载 70B-4bit 量化的 GGUF 格式。

此外给你推荐一下我的开源项目,比较符合你的需求,这一个项目支持很多的本地和在线模型,少量图像模型和语音模型:
图像模型支持:OpenDalleV1.1 ,ProteusV0.2 ,SDXL-Lightning ,GhostXL 等
音乐模型支持:facebook musicgen 系列
语音输入输出支持:whisper ,OpenAI 和 Azure 在线语音
https://github.com/smalltong02/keras-llm-robot

如果你想使用知名的开源项目,那么我推荐
LM Studio - 安装简单,可以只使用 CPU+内存做推理。缺点是只支持 GGUF 格式。
Ollama - 同上,缺点在多一个没有漂亮的 GUI 。
text-generation-webui - 这是最知名的项目,几乎所有格式都支持。
4 天前
回复了 tmtstudio 创建的主题 OpenAI GPT-4o 可以媲美 GPT4plus 吗,具体差距在哪
推理速度快了 2 倍,API 价格降了一倍。MMLU 分数更高,图像识别也更好。现在还没有开放语音和视频的接口,等开放了再来测试。
4 天前
回复了 tmtstudio 创建的主题 OpenAI GPT-4o 可以媲美 GPT4plus 吗,具体差距在哪
GPT-4o 已经可以用了,你可以通过 openAI 的 playgroud 试用。也可以用我的开源项目,在本地试用它(需要有 OpenAI 的 API Key )。

不过现在 OpenAI 还没有开放更多的接口,还无法传送语音或视频给它。

我的项目地址是:
https://github.com/smalltong02/keras-llm-robot
4 天前
回复了 jedeft 创建的主题 程序员 部署 langchain 需要什么硬件配置
langchain 是一套简化大语言模型加载推理的框架,而且还提供 Agent 和各种工具的集成,它本身并不需要什么硬件配置。真正吃硬件的还是你想加载的模型,鉴于一般办公台式机的 GPU 都没有或者很差,那建议你只能玩玩 gguf 的量化模型了。
4 天前
回复了 GeekGao 创建的主题 程序员 使用黑轴机械键盘 coding 的网友多吗?
个人比较推荐青轴和红轴的键盘,青轴力反馈适中,声音听着也愉悦。红轴声音小点,力反馈比黑轴要小,长时间敲击不累。
@sabernwj 好的,感谢支持!
@pming1

好的,感谢支持!
@james2012

多谢指正,等 Sora 或者 Vidu 可以使用了就配真正的视频。
只有游离在法律的边缘才能赚大钱吗?
在 windows 平台下可以,前提是内存够大,不怕推理慢。
@kenshinhu

看起来是 Linux 机器,你可以部署 8bit 的量化模型,16GB 的显存够用了。
@secondwtq

经过测试 Llama-3 和 Phi-3 都能够和 Function Calling 和代码解释器一起使用。其实 Function Calling 对模型的能力要求要低一些,代码解释器要求模型的能力要高一些。对于 Function Calling ,大部分模型在几轮对话之后都会失去调用 Function 的能力,只有 GPT-4 模型在这块做的是最好的。
@kenshinhu

7B 模型如果不进行量化,仅仅使用 16G 的显存加载模型并推理不太够用,尤其是 Linux 系统,必须要保证显存足够。如果是 windows 系统,是会向内存借用一部分保证不会报内存不足错误,但也会导致推理降速。建议 7B 模型使用 3090 或者 4090 显卡进行测试。
@euph

目前还没有测试过呢。
@lanlanye

量化模型最主要的问题就是精度会有一些损失,有点类似于有损压缩。两个数据很近的话,比如第一个是 0.2385637 ,第二个是 0.2385644 ,那么量化之后很可以这两个值都落在同一个 int 值上面,这就会造成精度损失。量化模型偶尔会有输出乱或者不停止,通常就是这种问题造成的。
@SylarQAQ

我的这个项目偏向于对热门模型进行各种任务测试并可进行横向比较用的,更倾向于摸清模型在各种任务中的实际表现。

比如你在使用其它开源项目的时候可能会有这样的烦恼。比如 text-generation-webui 项目,它可以适配大部分的离线模型,但不支持在线模型。LM Studio 项目,它可以使用 CPU 跑任何模型,但它仅支持 GGUF 格式模型。ComfyUI 对图像模型的支持生成非常专业,但它仅此而已。Open Interpreter 项目可以让你在本地运行代码解释器,但它仅仅支持 GPT-4 等在线模型,离线模型需要接入其它开源项目。

当你想对不同的模型(包括在线模型和各种离线模型)在相同环境下测试 RAG 任务,接入代码解释器,使用 Function Calling ,搜索引擎,或者接入 TTS ,生成图像的时候,你发现你需要使用一个或者多个开源项目互相配合才能达到目的,并且很可能多个开源项目还无法同时接入。当你想比较离线模型和 GPT-4 ,Gemini 这种闭源在线模型在搭配相同工具在各种任务中表现差异的时候,你会发现很难或者可能根本就做不到。

我的这个开源项目就是针对这类问题才做的,它可以加载各种在线模型,也支持各种热门的离线模型(包括量化模型)。
并且提供了相同的工具,包括
1. 接入搜索引擎
2. Function Calling
3. 角色扮演
4. 代码解释器
5. 接入 TTS (语音输入和输出)
6. 接入图像识别模型
7. 接入图像生成模型

举例说明:
这是一个早期的例子,将图像模型接入 llama-2-7b-chat 模型,让它也可以想多模态模型那样,拥有从图像生成另一幅图像的能力:

https://youtu.be/crQ5mJSJzrg
https://youtu.be/30yoa3lCnB8
@fredweili 是的,而且这次 MS 的 Phi-3 也不错,3B 的模型也都可以完成这些任务,只不过成功率低一些。
不错,不过我想做一个可以离线生成漫画的 AI 工具,语言模型和图像生成模型可以自由选择。
那是因为 ollama 加载的是 gguf 的量化模型。
1  2  3  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2466 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 28ms · UTC 02:17 · PVG 10:17 · LAX 19:17 · JFK 22:17
Developed with CodeLauncher
♥ Do have faith in what you're doing.