V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  neteroster  ›  全部回复第 1 页 / 共 38 页
回复总数  757
1  2  3  4  5  6  7  8  9  10 ... 38  
6 天前
回复了 zhuwd 创建的主题 NVIDIA NVLink 对显卡集群的影响有多大?
1. 都用这些设备了不用 sglang 跑去用 ollama 这种干啥
2. 没多大并发占用当然不会高,bs=1 decode 是显存带宽瓶颈。
> 数据和状态变更喂给大模型,作为增量训练数据更新大模型来实现

持续学习某种程度上是机器学习和 LLM 领域的“圣杯”,目前研究距离这个目标还远的很。除去成本因素还有一些更本质的问题,例如[灾难性遗忘]( https://arxiv.org/abs/2308.08747)。

另外,目前的大模型没法直接从预训练文本泛化到各种任务,例如通用 QA 。例如你预训练代码库,不做其他处理的情况下模型根本没法回答/检索关于这个代码库的问题。这些都是要靠数据管线做的,甚至还需要很多“智能工人”。
因为模型能在语言间泛化,不仅包括人类语言,也包括编程语言。而且训练多种语言之后可以承担很多跨语言任务。

#7 > LLM 翻译虽然很通顺但不准确,以前用 GPT 翻译经常把意思改了

当前 SOTA 模型在常见语言互译上已经可以做到相当高的精度,特别是在上下文充足的情况下,已经不是传统的翻译模型可以企及的了。
Together 和 Fireworks.ai
还有一个比较便宜的不过我没试过 https://studio.nebius.ai/playground?models=deepseek-ai%2FDeepSeek-R1
@sworld233 R1 蒸馏的 Qwen 7B 是拿 Math 版本的,所以一般任务有点一言难尽。14B 和 32B 才是普通的版本蒸馏出来的。

---

楼上说的 Gemma2 9B 就可以,然后还有 GLM4 9B ,Qwen 2.5 7B 也还可以。
R1 确实很猛,带思考的大模型做这种题只会越来越强,毕竟:结果可验证 + R1 指明了强化学习在推理 LLM 上的有效性,这俩一结合就能预估这种算法竞赛未来的 LLM 能打过所有人类就是和 alpha go 打败人类棋手一样自然的事情。

虽说如此,实际应用场景复杂得多,还要在 Agent 、超长记忆、持续学习这几个领域有所进步才行,现在的技术这几个方面是明显薄弱的。很期待未来的发展。
@neteroster #1 CosyVoice 也支持,没记清楚
https://funaudiollm.github.io/cosyvoice2/

https://github.com/RVC-Boss/GPT-SoVITS

https://github.com/fishaudio/fish-speech

其中后两个还支持少样本声音克隆,可以搞点自己喜欢的声音样本做克隆生成
47 天前
回复了 w568w 创建的主题 C# C# 有哪些显著的缺点?
语言感觉挺好的。我来提一个显著的:官方调试器 vsdbg 是专有的,所以如果你用除 vs 和 vscode 等之外的部分编辑器的话(例如 cursor )就会有调试方面的问题,只能用一些平替调试器
49 天前
回复了 lifehz 创建的主题 Apple mac air m1 能搭 deepseek v3 吗?
想多了,Q4 都要几百 G 内存
51 天前
回复了 anivie 创建的主题 机器学习 模型部署的姿势
个人简单用用 llama.cpp 就行,要生产环境或者有高并发 / 高性能要求的推荐 sglang ,会比 vllm 快。
53 天前
回复了 xingfu0539 创建的主题 Google 为什么我的 gemini 2.0 一点也不智能
建议用 AI Studio ,谷歌 C 端那个产品非常垃圾,加了一堆奇怪提示词,模型效果降的很严重。我觉得 1206 在大部分情况下能打碎 4o 是很显然的,我现在都不觉得这两是一个级别的东西了。
官网的现在完全不值得,因为你根本不知道他什么时候会降智,说不定你就一个月花 20 刀结果一直在用 4o mini ,然后还不告诉你,就这么过去了。

DeepSeek V3 能力还不错的(至少他们尽力做了),但目前来看编程上的综合能力离 Claude 3.5 Sonnet 还有距离。但是后者目前看来官网也不好买会员,因为非常喜欢封号。

总之就这两家官网一个喜欢降智一个喜欢封号,都是很折腾的。我的推荐是日常简单问题用 deepseek 或者白嫖 Google 的 AI Stusio ( 1206 旗舰模型一天 免费 100 次,Flash 1500 次),遇到有实在不行的再配合中转 API 站的 claude 或者 o1 API (前提你得找到保真的),这样下来应该是比较节省经费的。

还有个方案就是开 POE 或者 you.com 会员,对 3.5 sonnet 或者 4o 需求比较大的可以考虑,至少模型都是真的。
56 天前
回复了 houshuu 创建的主题 Local LLM DeepSeek V3
先不谈性能,工程上就很强。整个模型训练的 H800 GPU Hour 甚至低于训练两次 LLaMA3 8B 的 H100 GPU Hour ,这还是在 H800 阉割了互联的情况下
61 天前
回复了 Chicagoake 创建的主题 Apple Apple Music Win 端使用问题
Win 端我这里基本没法用,各种问题,莫名其妙连不上网络,崩溃,播放中断等等
1  2  3  4  5  6  7  8  9  10 ... 38  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1007 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 38ms · UTC 19:42 · PVG 03:42 · LAX 11:42 · JFK 14:42
Developed with CodeLauncher
♥ Do have faith in what you're doing.