1
wanghui22718 1 天前
3. 能效与成本
功耗 昇腾 384:总功耗 559kW (液冷 PUE 1.1 ),单位算力能耗 0.54 TFLOPS/W 8 卡 H100:总功耗约 5.6kW (单卡 700W ),单位算力能耗 1.24 TFLOPS/W ,能效比显著领先 成本 昇腾 384:单价约 820 万美元,国产化政策支持降低长期供应链风险 8 卡 H100:硬件成本约 30-40 万美元,但受出口限制影响(如中国需采购阉割版 H20 ) |
2
andyskaura 1 天前
@wanghui22718 你太歪了吧。要比也是 npu 之间对比
|
3
snow0 1 天前
@wanghui22718 不是已经不允许买英伟达的卡了吗
|
4
catazshadow 1 天前 via Android
半吊子
|
5
Cu635 1 天前
生态问题和文档问题还没解决。
更重要的是,文档不开放,还是封建人身依附(法人也算“人”身)那套封建思想,把普通开发者当贼来防。 |
6
Meteora626 1 天前
推理各家算力都差不多,难的是功耗控制,训练像阿里用自己的卡训练,内部信息谁知道。而且抱怨成本高也不是国内大厂才抱怨,看看 llama 的论文,n 卡集群 nan 一次就是几万几十万的成本,万卡考验的不光是卡,更是集群。
|
7
xeonforce 1 天前 via Android
拉,昇腾的设计其实面向的是十年前的上一代 ai (视频图像处理那类),大模型的本代 ai 只是凑巧可以跑,很多地方受限。
年初 ai 潮测过推理,性能差,支持的模型及其有限,社区支持差,很多内容只给合作伙伴级别的提供。 训练段端有个未经证实的国外源消息,deepseek 缺卡想转昇腾,华子驻场支撑都搞不定。 另外国内外都已证实的是,昇腾目前一直还是台积电代工,包括流出的下一代,自主能力 emmm 你懂的。而且自从封锁后的这么多年就没啥技术改进,下一代纯粹是真•胶水双核。个人不看好昇腾的软硬实力 |
10
bluryar 14 小时 52 分钟前
评论区看到国产就只想到昇腾吗,除了情绪啥也看不到,MOE 时代,NVLink 的国产替代方案比芯片算力更加需要关注吧。
软件方面,国产芯片公司都会养团队去适配特定的 LLM ,其他非 LLM 模型的适配虽然细碎,LLM 可不一定差到拿不出手。VLLM 、SGLang 也在积极接受国产芯片的适配 PR 吧? |
12
coefu 12 小时 15 分钟前
力不从心,不得不跟,代际( 1 ~ 2 )差距。
HBM3 在追求量产(之后还有 HBM3e )。棒子 HBM4 即将量产。 这是最关键的,比制程更关键。 gpu core 制程可以找代工( tw 如果顺利归附,台积电直接转化),制程不再成为问题。 cuda 生态应该是正在对齐(厂商都有对应的算子开发招聘)? LLM 底层基石 transformer 的原理机制已经吃透到阿 B 上面教程泛滥,各种变种层出不穷,这是最擅长的从 10 挖掘到 10ⁿ。为什么讲这个,因为为了最优化底层硬件对应做了很多定制。 最后,LLMs 能不能抵达( 1 年,10 年,100 年?)定义还不清晰明了的所谓 AGI 也还是个问题。不过这都无所谓,就怕这个过程中创造了更多的附加品,这些附加品的价值是无法确定的(不过当前 LLMs 也并没有蒸汽机时代的工业革命带来的进展大)。好比美苏太空争霸带来了不少科技的进步。如果不跟,他有我没有,那真是亏大发了。 |