V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  neteroster  ›  全部回复第 1 页 / 共 38 页
回复总数  742
1  2  3  4  5  6  7  8  9  10 ... 38  
1 天前
回复了 anivie 创建的主题 机器学习 模型部署的姿势
个人简单用用 llama.cpp 就行,要生产环境或者有高并发 / 高性能要求的推荐 sglang ,会比 vllm 快。
3 天前
回复了 xingfu0539 创建的主题 Google 为什么我的 gemini 2.0 一点也不智能
建议用 AI Studio ,谷歌 C 端那个产品非常垃圾,加了一堆奇怪提示词,模型效果降的很严重。我觉得 1206 在大部分情况下能打碎 4o 是很显然的,我现在都不觉得这两是一个级别的东西了。
官网的现在完全不值得,因为你根本不知道他什么时候会降智,说不定你就一个月花 20 刀结果一直在用 4o mini ,然后还不告诉你,就这么过去了。

DeepSeek V3 能力还不错的(至少他们尽力做了),但目前来看编程上的综合能力离 Claude 3.5 Sonnet 还有距离。但是后者目前看来官网也不好买会员,因为非常喜欢封号。

总之就这两家官网一个喜欢降智一个喜欢封号,都是很折腾的。我的推荐是日常简单问题用 deepseek 或者白嫖 Google 的 AI Stusio ( 1206 旗舰模型一天 免费 100 次,Flash 1500 次),遇到有实在不行的再配合中转 API 站的 claude 或者 o1 API (前提你得找到保真的),这样下来应该是比较节省经费的。

还有个方案就是开 POE 或者 you.com 会员,对 3.5 sonnet 或者 4o 需求比较大的可以考虑,至少模型都是真的。
6 天前
回复了 houshuu 创建的主题 Local LLM DeepSeek V3
先不谈性能,工程上就很强。整个模型训练的 H800 GPU Hour 甚至低于训练两次 LLaMA3 8B 的 H100 GPU Hour ,这还是在 H800 阉割了互联的情况下
11 天前
回复了 Chicagoake 创建的主题 Apple Apple Music Win 端使用问题
Win 端我这里基本没法用,各种问题,莫名其妙连不上网络,崩溃,播放中断等等
@Liftman #28 不,ChatGPT 降智是广泛验证确实存在的刻意行为,不是模型幻觉。无法搜索是因为提供给模型的工具不包含搜索(可以验证),这是降智的表现之一。除此之外还广泛验证了降智和 IP 干净程度强相关,这些都是有大量样本的结果,不是幻觉可以解释的
17 天前
回复了 PROJECT 创建的主题 OpenAI 大家觉得哪个 AI 现在最强?国产的
qwen deepseek glm
OpenAI 的话,温度为 0 输出也不同是预期的,这一点无法避免。指定 seed 会好点,不过也不能保证确定性。

感觉你这个需求提高准确率得上点 RAG 结合 few-shot 或者直接用微调模型,啥都不用模型可能法律这方面知识不够。
33 天前
回复了 wildlynx 创建的主题 Windows windows11 还是个半成品
Explorer 卡死和设备 / 驱动的关系一般会大些
43 天前
回复了 jim9606 创建的主题 Windows 新系统 Windows 的性能和响应不佳的原因
@weijancc 现在有什么方法可以稳定关闭 defender 嘛
44 天前
回复了 JiangNanLong 创建的主题 问与答 14 寸轻薄本推荐
> 处理器都是 ultra5 7 9 ,或者 R7-8845 处理器,这几款都不支持 ubuntu

不是,你从哪看到的?

---

Linux 的话各机器差别无非是各种设备的驱动兼容性和暗坑,这点可以自己按型号查已经购买的人的反馈
@neteroster #3 没注意都是用单卡测的,那就不涉及多卡推理的方式了。不过非要本地推理现在性价比高的方案应该还是游戏卡多来几张
认同这篇文章的主要观点,它谈及了一些关于本地 LLM 推理很多人没注意但很重要的内容。

先不谈高 batch (毕竟日常不常用),大多数人都没意识到 M 芯片 prefill 很慢,而这个在上下文长的情况下是挺致命的。而且其实 decode 速度也会受上下文长度影响,很多测试仅仅是在很短的 prompt 下去测生成,得到一个看起来挺好看的数字,然而实际使用中很多情况下根本不是这种场景。

个人观点是,当前,本地 LLM 推理对于大多数普通用户或开发者没有显著的使用必要,除非是特殊需求(例如强隐私需求等)。个人用户花大价钱购买设备单纯只是去推理本地 LLM 在现在看起来是不太明智的,当然如果是其他需求顺便推模型或者单纯太有钱买来玩玩那倒也没什么。即使非要谈本地推理,Mac 的应用场景也是较窄的,文章中写的已经听明白了。

文章还谈到了投机解码,这个确实很有意义,特别是对于生成内容主要是代码的情况,加速应该是相当明显( cursor 的自动补全就用了),期待未来这方面的发展。

作为补充,看起来文章测 text generation 的时候只是用了 llama.cpp ,他的多卡实现应该还是 pipeline parallel ,有一些后端支持 tensor parallel ,多卡情况下单 batch 性能应该还能进一步提高(但对 PCIe 速度有更高要求),希望有相关测试。
机械革命翼龙 15 Pro / 8845H + 4060
更换 96G D5 RAM / 2T(SD10) + 1T SSD(RC20 ,原有) / AX210 网卡 / 相变片
>>> 合计 6298

FiiO KA3 解码小尾巴 >>> 358
54 天前
回复了 wencan 创建的主题 OpenAI 如果要购买 openai 和 claude,有什么好推荐?
@jiager #1 楼主想要的是 OpenAI 和 Claude 这种 sota 模型,本地的先别来碰瓷。

然后回答楼主问题:如果楼主在国内,现在 Claude 的 ChatGPT 官方风控都很厉害,OpenAI 是模型降智神不知鬼不觉,Claude 是直接封号。

因此买第三方比较好,比如 POE 和 you.com 这两个可以考虑下。然后如果价格合适也可以找 API 中转(这里要注意鉴别真伪),然后用本地客户端,比如 ChatBox 。
59 天前
回复了 neteroster 创建的主题 问与答 笔记本双通道内存有必要买套条吗
@msg7086 @Suzutan @killgfat 谢谢各位!
@Zys2017 不是,笔记本😂
64 天前
回复了 babyedi31996 创建的主题 程序员 本地部署大语言模型哪家强?
70B M3 Max 之前看的数据 tg 大概只有 4-5 TPS ,而 M4 Pro 内存带宽只有 270G ( M3 Max 300 或 400G )。这还只是 tg ,你上下文长的话还要忍受特有的超级缓慢 pp ,建议先对速度有个概念。( tg 指文本生成速度,pp 指提示处理速度)

现在这个时间,70B+ 的模型还是用在线 API 性价比高些,尽管有各种问题但好歹基本都能解决,本地花这么多钱最后还慢的要死。真要本地玩也不建议 Mac
是的。对于准确性要求没那么高的领域帮助很大。

例如日文轻小说和 GalGame 已经有特化模型 SakuraLLM 了,仅 14B 就能达到相当可观的翻译水准,可以跑在消费级显卡上,叠上 batch 效率非常高。最新的实验版已经支持了术语表功能,显示出了良好的术语对照翻译遵循能力。社区里还有人在做小说关键词地名人名自动提取,结合模型的术语表翻译功能,翻译一致性还会再上一个台阶。

大模型的发展也极大促进了外文游戏翻译补丁的制作,现在 AI 翻译补丁制作显示出繁荣的迹象,可参看: https://2dfan.com/downloads
94 天前
回复了 TigerS 创建的主题 OpenAI ChatGPT 的 UI 这几个有什么区别?
LobeChat 各方面比较完善,但是性能比较差。个人比较喜欢 ChatBox 。这几个都有在线 demo ,不如自己试一试
1  2  3  4  5  6  7  8  9  10 ... 38  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1165 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 33ms · UTC 23:14 · PVG 07:14 · LAX 15:14 · JFK 18:14
Developed with CodeLauncher
♥ Do have faith in what you're doing.