发布于

DeepSeek V4 与 Ascend 拼图

作者
  • avatar
    名称
    宋元平
    Twitter

摘要: 中国本土 AI 算力基础很可能比外界低位估计大得多。DeepSeek V4 也许会成为第一个明确的信号:华为 Ascend 已经能够承载接近前沿水平的大模型开发。

中国离"本土 AI 算力基本够用"这件事,可能比市场共识以为的要近得多;而 DeepSeek V4 在 Ascend 950PR 级硬件上训练或进行实质性开发,也已经有足够的合理性,值得投资者和 AI 研究者认真对待。

这是一篇拼图式论证。没有任何单一线索可以独立证明结论——这些碎片拼在一起之后的方向感,才是重点。

1. SMIC 的财报比表面上更有信息量

SMIC 财报里最关键的线索,不是某个显眼的晶圆总量数字,而是收入的分类结构。

在 SMIC 2024 年报中:

  • 消费电子(consumer electronics)收入占比从 25.0% 跳升至 37.8%
  • 电脑与平板(computer & tablet)占比则从 26.7% 降至 16.6%

这个细节非常关键。SMIC 的报表已经把手机和电脑平板作为单独品类拆了出来,消费电子这个大类里并没有将它们混在一起。一旦这些传统大项被分离出去,剩下能解释如此大幅变化的先进制程高价值产品,其实屈指可数。AI 加速器是最直接、也最有解释力的候选。

我认为这是整篇文章最重要的洞察之一:仅从 SMIC 自己的分部口径来看,AI 加速器对收入的贡献就很可能远超外界想象。

其余财务指标也指向同一方向。产能持续扩张,12 英寸晶圆占比上升,资本开支在利润率承压的情况下依然维持高位,库存也明显走高。一个困在成熟制程、缺乏增长引擎的晶圆代工厂,不会是这副样子。

2. 晶圆算术说明外部低位估计太低了

晶圆算术无法证明 2025 年 Ascend 的精确出货量,但足以说明一点:外部那些最低位的估计,哪怕用稍显保守的假设来检验,都很难站住脚。

先看 910C 的基本经济学:

  • 910C 采用双 die 封装
  • 一片 12 英寸晶圆大约可以切出 40 个原始 910C 等价单元
  • 最终良品率取决于 die 良率、封装良率和测试良率
  • 合理的有效产出区间大约是每片晶圆 8-16 颗合格 910C 等价单元

核心公式:

月合格 910C 等价数 = 先进制程月投片量 × Ascend 分配比例 × 每片晶圆合格数

这里最重要的是保持现实感。50%-75% 的 Ascend 产能分配比例大概率太高——别忘了中国还有大量其他战略芯片也在争夺同一批先进产能。更合理的调整思路不是把 Ascend 占比拉到极端,而是在略高一些的先进制程总产能基础上,搭配温和的 Ascend 份额。

晶圆场景示例

场景先进制程月投片量Ascend 分配比例每片晶圆合格 910C 等价数月产出
保守20,00015%1236,000
基准25,00020%1260,000
高良率25,00025%16100,000
高产能30,00030%16144,000

核心结论就在这里:你根本不需要特别激进的 Ascend 分配假设,产出就已经远超许多外部最低位估计。温和的分配比例加上略高一些的先进制程月投片量,就够了。

当然,封装和 HBM 是绕不开的现实瓶颈——晶圆投片不等于最终交付的加速器。但这个限制影响的是精确数字,而非方向判断。从方向上看,供给侧的画面仍然明显大于低位叙事。

3. Token 算术也指向同一方向

自上而下的需求侧图景,与自下而上的供给侧算术相互印证。

本次研究使用的 token tracker 估算,到 2026 年 2 月,中国日均 token 消耗量已达约 180 万亿。公开可引用的摘要来源之一,是 CLS/富途对中国 AI token 经济的整理报告。

换算下来:

  • 180,000,000,000,000 tokens/天
  • ÷ 86,400 秒/天
  • = 约 20.8 亿 tokens/秒

硬件吞吐方面,我找到的最干净的公开数据来自华为 CloudMatrix384 的 arXiv 论文,其中给出了 DeepSeek-R1 在 Ascend NPU 上的推理速度:

  • 高吞吐场景:每颗 NPU 1,943 decode tokens/秒
  • 低延迟场景:每颗 NPU 538 decode tokens/秒

来源:Serving Large Language Models on Huawei CloudMatrix384arXiv)。

910C 等价算力推算

假设场景单芯片吞吐利用率隐含芯片数
高吞吐·下限1,943 t/s100%约 107 万颗
高吞吐·务实估计1,943 t/s50%约 214 万颗
低延迟·下限538 t/s100%约 387 万颗
低延迟·务实估计538 t/s50%约 774 万颗

我不会把这些数字读成"中国真的部署了这么多物理 910C 芯片"。更准确的理解方式是:这是一组 910C 等价算力推算

但这已经足以说明一件事:中国目前可观测到的 token 经济体量,很难与"国内算力底子很薄、外加少量走私英伟达"这种叙事兼容。

还有一个值得点明的细节。DeepSeek-R1 虽然标称参数量很大,但本质上是 MoE 架构,服务效率远高于同等参数规模的稠密模型。因此,用 DeepSeek-R1 级别的吞吐作为估算基线,并不算离谱。

图:自上而下的 token 需求与自下而上的晶圆产能算术指向同一方向——中国实际可用的 AI 算力基础,很可能比最低位外部估计大得多。

4. Ascend 950 很可能比市场意识到的更早就已存在

拼图的下一块关键碎片是时间线。

华为公开路线图上标注的是:

  • Ascend 910C2025 Q1
  • Ascend 950PR2026 Q1

950 这一代是真正意义上的架构跃迁。它引入了 SIMD/SIMTFP8MXFP8HiF8MXFP4——这不是一颗单纯提频的 910C,而是整个家族中第一款明显面向训练场景的公开型号。

图:华为 Ascend 路线图。对本文论证而言,最关键的一点是:FP8 首次出现在 950 这一代,而非 910C

路线图本身很重要。但真正耐人寻味的线索在于:2025 年 9 月的 Huawei Connect 大会上,工程样品阶段的 950 硬件似乎已经被现场拍到了。

这件事的重要性被严重低估了。路线图上的一张幻灯片可以只是愿景;但工程样品的实物照片,意味着硬件在那个时间点已经真实存在。而且这次不像是一张孤立的芯片照——公开流传的 Huawei Connect 图片中,似乎同时出现了 950PR950DT 和刀片服务器工程样品。这个信号比单独一张封装照片强得多,因为它表明华为当时展示的已不只是"未来的芯片",而是接近完整系统栈的多个组成部分。这大幅提升了"集群就绪时间比外界以为的更早"这一判断的可信度。

Huawei Connect 2025 上拍到的 Ascend 950PR 工程样品

图:公开流传的 Huawei Connect 2025 图片,通常被解读为 Ascend 950PRAscend 950DT 和刀片服务器工程样品。放在一起看,它们指向的不是路线图上的某个远期产品,而是 2025 年 9 月已经摸得到的硬件栈。原始讨论源于下方引用的贴吧帖,搜狐也有对应的二次整理。

此外,还有一条 2025 年 11 月 27 日的贴吧帖子,声称字节跳动当时已经在做 950PR 的 PoC 验证。原帖措辞是"最近在做 PoC",意味着项目在发帖时很可能已经进行了一段时间,而非恰好在 11 月 27 日当天启动。仅凭这条帖子,我不会拿它来独立支撑整篇论证;但作为佐证,它与整条时间线咬合得异常紧密。

换句话说:一旦你接受"9 月已经能看到 950 实物硬件",那"11 月底合作伙伴已经拿到硬件"就不再是什么奇闻。

5. DeepSeek 的 FP8 表述几乎直接指向 950PR

到这里,DeepSeek 这条线索才真正收紧。

DeepSeek 官方于 2025 年 8 月 21 日发布了 V3.1。随后,DeepSeek 公开表示,其采用的 UE8M0 FP8 格式是为"即将发布的下一代国产芯片"设计的(36Kr)。

这个时间节点极为关键。如果 DeepSeek 在 8 月 21 日发布的模型栈中就已经使用了面向 950 的 FP8 格式,那么 DeepSeek 对这代硬件的了解必然更早。你不可能在模型发布当天临时为一款尚未公开的芯片发明一套新的数值格式——你需要提前了解架构细节,需要时间做格式适配,还需要时间围绕这个格式进行训练或至少完成实质性的模型开发。这意味着 DeepSeek 对 950 这一代的知悉,在时间上应当早于 2025 年 9 月 Huawei Connect 上的公开路线图发布。

再对照华为路线图:

  • 910C 不支持 FP8
  • 第一款明确支持 FP8 的公开型号,就是 950 这一代

范围已经收得很窄了。

我认为最合理的解读是:

  • 高置信度:DeepSeek 所指的就是 Ascend 950 这一代
  • 中高置信度:最可能的具体目标是 950PR

为什么更倾向 950PR

  • 910C 可以直接排除——格式不对
  • 960970 太远
  • 950DT 在路线图上又排在 950PR 之后

所以,更准确的说法不是"DeepSeek 在为某款模糊的下一代国产加速器做准备",而是"DeepSeek 很可能在为 Ascend 950 家族做准备,最可能的目标就是 950PR。"

6. V4-on-Ascend 的时间线其实比直觉上更顺

真正的关键问题是:硬件时间线和模型时间线能不能对上?我认为能。

供给侧已不再是最有力的反驳。前面的 SMIC 分析已经说明,在合理的产能和分配假设下,中国完全有能力每月生产数万颗下一代 Ascend 芯片。如果 950PR 级别的硅片在 2025 年 9 月已经实物存在,合作伙伴在 11 月底拿到硬件也合情合理,那么硬件时间线本身就没有那么牵强。

模型侧的时间线于是可以线性展开为以下序列:

  1. 2025 年 11 月下旬至 12 月上旬: DeepSeek 很可能开始基于 950PR 级硬件的 V4 实质性工作。
  2. 2026 年 1 月中旬: 若以 V3 报道中的 45 天训练周期为基线,预训练大致在此前后完成。
  3. 2026 年 1 月下旬至 2 月上旬: 后训练、评估、部署准备。
  4. 2026 年 2 月 11 日: DeepSeek 网页端出现第一个可感知的 V4 checkpoint。
  5. 2026 年 2 月 13 日: 第二个 checkpoint 出现,表明首轮上线后迭代几乎立即在继续。
  6. 2026 年 2 月 27 日: 社区追踪者观测到新 checkpoint,评测表现进一步走强。
  7. 2026 年 3 月 2 日: 再一个更新 checkpoint 被观测到。
  8. 2026 年 3 月 4 日至 12 日: 全国两会时间窗口。
  9. 2026 年 3 月 12 日之后: 更完整的 V4 正式发布窗口开启。

2 月 11 日到 3 月 2 日这一段,更像是持续的后训练与 checkpoint 迭代,而非一次性发布。社区追踪的评测图也恰好呈现这个模式:DSv4lite-0211021302270302 逐步上行,0302 版本明显强于 2 月初版本。

图:社区追踪的 DSv4lite 各 checkpoint(0211021302270302),评测分数逐步攀升。从趋势上看,这更像一个持续迭代优化的过程,而非某次静态模型快照。

调优周期是否已百分百完成我们不得而知,但到了这个时间点,大概率已经完成或已非常接近——剩下的问题主要是发布时机,而不再是"模型本身是否就绪"。

政治日历在这里也不能忽视。2026 年全国两会持续至 3 月 12 日。截至 3 月 11 日,我们仍处在这个窗口之内。如果 DeepSeek 打算做更完整的 V4 公开发布,更自然的时间窗口是两会结束之后,而非会议进行中。

关于起始日期的补充说明:2025 年 12 月 1 日 不应被理解为某个精确的单点启动日,它只是合理区间的中点。最早可能的起点是 11 月下旬,最晚可能的起点是 12 月上中旬。重点不在某一天,而在于:一旦把硬件时间线与 45 天预训练假设拼合起来,整条序列是说得通的。

图:将硬件、训练、checkpoint 与发布时间线串联来看,DeepSeek V4-on-Ascend 的完整路径是可以走通的。

7. 这篇文章究竟在主张什么

本文不是在主张:

  • 我们已经知道 2025 年 Ascend 的精确出货量
  • 我们已经知道 DeepSeek 的精确训练启动日或集群规模
  • 我们已经拿到了 V4 全程端到端在 950PR 上预训练的确凿证据

本文真正在主张的是:

  • 中国本土 AI 算力基础很可能显著大于外部最低位估计
  • 华为在 2025 年 9 月前后,950 这一代的硬件与系统组件已经以实物形态存在
  • DeepSeek 很可能提前接触到了这代硬件,并且大概率以 950PR 为目标在做开发
  • 因此,一个"在 Ascend 上完成了实质性开发的 DeepSeek V4"是一种真实的可能性,而非边缘猜想

这已经足够了。

结论

我的结论不是"中国已经在所有维度上追平英伟达"。这不是本文要说的事。

本文真正要说的是:外界对中国本土 AI 算力的估计过于保守。中国距离本土 AI 算力自足——尤其在推理端——很可能比许多分析师以为的要近得多。而 DeepSeek V4,或许就是第一个高度可见的信号,标志着国产硬件正在从"能用"迈向"能支撑接近前沿的大模型开发"。

参考资料