DeepSeek V3 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 415 天前的主题，其中的信息可能已经有所发展或是发生改变。

https://github.com/deepseek-ai/DeepSeek-V3

看了下 Code 榜单，性能提升挺明显。

像 Aider 、Polyglot 这类任务，和日常用自然语言修改的准确率体感是比较接近的。如果不刻意刷榜，感觉至少接近 3.5 Sonnet 的水平了。

官方 API 价格虽然涨了几倍，但相比 OpenAI 和 Claude 依然是白菜价，输出 100 万 token 就 1 刀出头。

已经把 avante.nvim 的默认模型从 Sonnet 换到 V3 了，接下来几天打算实际测试下提问和修改的准确率。之前尝试用 2.5 平替但是准确率和 Sonnet 差的还是挺远的，希望这次效果不会失望。

22 条回复 • 2025-01-24 17:30:46 +08:00

1

mumbler

2024 年 12 月 27 日

性价比最高的还是 gemini 2.0 flash,免费 1500qpd, 100 万上下文,多模态,能力和 gpt4o 一个级别, 收费也才 1 元人民币/M

2

hbdh5

2024 年 12 月 27 日

3

没人关注训练部分吗？看看原始论文，推理部分的优化似乎来自蒸馏自家的推理模型，auxilary loss 动态调度负载 + DualPipe 优化 pipeline bubbles + 根据通信做混合精度优化，计算与通信的瓶颈的优化做到极致了。以至于训练成本只有 500 多万刀，和 o 家和 g 家比算是用乞丐的成本达成了至少也是不相上下的结果。要我说，closedai 不做人干脆把 gpu 匀给 deepseek ，可惜匀不得。

3

dwu8555

2024 年 12 月 27 日

deepseek 还是国人的项目？

4

AlohaV2

2024 年 12 月 27 日

@dwu8555 是的。猜猜他家资金咋来的🤣

5

apollo007

2024 年 12 月 27 日 via iPhone

我觉得这个处理文科类的，效果比 claude 3.0 opus 还牛

6

sutking

2024 年 12 月 27 日 via iPhone

@AlohaV2 #4 咋来的？😳感觉好神秘。

7

bk201

2024 年 12 月 27 日

@sutking
@AlohaV2 收割 a 股股民是吧

8

suguo210

2024 年 12 月 27 日

幻方用来收割韭菜的利器

9

AlexHsu

2024 年 12 月 27 日

这玩意有 671b 参数？本地弄起来得多少 h100 啊

10

FakerLeung

2024 年 12 月 27 日

写代码跟 claude3.5 比起来如何？

11

andrew2558

2024 年 12 月 27 日

看了很多人推荐 deepseek,所以也想试一下，好家伙，要电话号码不说，还要身份证号码。闪了闪了

12

fang2hou

OP

2024 年 12 月 27 日

@FakerLeung

榜单上的话不说同水平，至少逼近是有的。
但这个实际效果还得自己去体感测试下，反正现在用 API 还是打折的，一百万 token 才两块钱，放到 cursor ，avante 里面高强度用个一周先看看效果。
也可以试试网页版的 V3 ，注册后是纯免费的。

13

dgthyiolyjmyt2

2024 年 12 月 27 日

@dwu8555 幻方的，还是 fp8 训练的，训练过程全程无回滚

14

fang2hou

OP

2024 年 12 月 27 日

@andrew2558 不需要吧，用英语界面试试，海外也挺多用 deepseek 的

15

wyhooo

2024 年 12 月 27 日

@dwu8555 你的对手盘就是这玩意。

16

neteroster

2024 年 12 月 27 日 via Android

先不谈性能，工程上就很强。整个模型训练的 H800 GPU Hour 甚至低于训练两次 LLaMA3 8B 的 H100 GPU Hour ，这还是在 H800 阉割了互联的情况下

17

hbdh5

2024 年 12 月 27 日

1

@neteroster 是的，论文主要的亮点就是训练部分，不得不说还得是 MoE ，要是 dense 模型参数太大的话一张卡放不下数据交换的妈都不认识，根本没地应用这么多优化。只能送钱给老黄。

18

xiaket

2024 年 12 月 28 日

英文版只要求邮箱验证, 而且可以用微信支付来避免付美元的手续费

19

xiaket

2024 年 12 月 28 日

我自己试用了一下, 让模型回答旅行制定行程和关于 AWS/GCP 的技术问题, 两个场景的结论都合乎我的要求. 于是充值了 50 块, 准备用用看

20

ziding

2025 年 1 月 1 日

我自己的使用经验是性价比爆棚,效果比 qwen2.5 要强,已经满足我的需求了

21

huanggua

2025 年 1 月 24 日

能介绍下怎么配置 avante deepseek 嘛，用 lazy.nvim , lua

22

fang2hou

OP

2025 年 1 月 24 日 via iPhone

@huanggua 看这个，我已经给出了我的配置

https://www.v2ex.com/t/1101942

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 1771 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 23ms · UTC 01:35 · PVG 09:35 · LAX 17:35 · JFK 20:35
♥ Do have faith in what you're doing.