切换到宽版
  • 24阅读
  • 2回复

[数码讨论]国产GPU迎战英伟达H200 [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
212390
金币
614059
道行
2006
原创
2441
奖券
3260
斑龄
41
道券
1197
获奖
0
座驾
设备
摄影级
在线时间: 46457(小时)
注册时间: 2008-10-01
最后登录: 2025-12-20
只看楼主 倒序阅读 使用道具 楼主  发表于: 昨天 11:13

给国产芯片多一些时间

文/林书

编辑/刘宇翔

2025年12月17日,沐曦股份在科创板上市,首日收盘价829.90元,较发行价104.66元上涨725.24%,沐曦专注于高性能GPU芯片研发,产品覆盖人工智能计算、通用计算及图形渲染领域。

就在不到两周前的12月5日,摩尔线程正式登陆科创板,成为“国产GPU第一股”,是2025年科创板募资额最大的IPO,从受理到过会仅用88天,发行价为114.28元/股,上市首日涨幅达425.46%。

国产GPU 厂商的密集上市并备受市场追捧,某种程度上,对“狼又回来了”的回应。据媒体报道,2025年12月8日,美国总统特朗普在社交媒体宣布:美国将允许英伟达向中国"经批准的客户"出口H200人工智能芯片,但需将销售收入的25%上缴美国政府。

美国智库进步研究所报告显示,H200的性能几乎是H20的六倍,但仍与最新的Blackwell芯片存在代际差距——这恰好卡在"能用但不先进"的甜蜜点上。因此美国解禁 H200其实是其"温水煮青蛙"策略的延续——“倾销”性能相对落后但仍具竞争力的H200芯片,试图延缓中国国产替代的进程。

更有意思的是,黄仁勋曾直言不讳地表示,增加对华芯片销售额既能让中国企业依赖其技术,又能为公司带来更多研发资金。这种"以战养战"的思路,与美国鹰派的"技术依赖论"不谋而合。

但这场"温水煮青蛙"的意图能否得逞,还要看我国接不接招。从加快国产 GPU 厂商上市来看,显然,我国并不上钩。

01

没有H200的日子

2022年至2025年,美国对华半导体出口管制政策层层加码。2025年4月,美国进一步收紧管制,导致英伟达为中国市场定制的特供版H20芯片被迫停售,公司因此承受了约45亿美元的库存损失及80亿美元的潜在收入损失。英伟达CEO黄仁勋在2025年10月公开表示,受出口管制影响,英伟达在中国的市场份额从95%骤降至0%,公司"100%离开了中国市场"。

这三年,被业界称为中国AI芯片产业的"至暗时刻",但也正是这三年,催生了国产芯片的加速崛起。面对外部封锁,国产GPU厂商采取了"三管齐下"的突围策略:

在单卡性能暂时无法与英伟达匹敌的情况下,国产厂商通过堆面积、堆晶体管、堆芯片的方式来弥补性能差距。华为昇腾910C采用双Die设计,FP16算力达到800 TFLOPS,性能逼近英伟达H100的80%;寒武纪思元590综合性能达到英伟达A100的70-80%;海光信息深算二号FP16算力达1024 TFLOPS,接近A100的90%。

由于能效比较差,国产卡普遍采用"电力+工程能力"硬顶的方式解决功耗问题。摩尔线程的"平湖"架构支持单芯片最高1000W TDP动态功耗管理,通过液冷等工程手段确保稳定运行。虽然每瓦性能仍落后英伟达约30%,但国产卡低功耗版已经正流片。

说白了,在这段时期,国产卡往往采用用更密集的液冷,堆更多服务器机架,试图以更强的工程能力来补落后的能效。

最后是"生态兼容+编译层hack"。面对英伟达CUDA生态的垄断地位,国产厂商采取了兼容策略。海光DCU通过ROCm生态实现对CUDA的"软兼容",实测迁移效率可达85%。华为CANN架构采用"指令翻译+动态调度"技术,实现对CUDA API的80%覆盖。

这里的“兼容 CUDA”,从技术上来说,相当于做了一层翻译器,让国内 GPU 能跑英伟达的指令语言,例如英伟达的函数叫 CUDA_X,国产的函数叫 BR_X(比如壁仞),→ 相当于就做一张“对应关系表”,代码调用 CUDA_X 时自动转成 BR_X。就像查字典一样,把“英伟达语”翻译成“国产语”,通过合并算子、分拆算子、调整执行顺序等一系列手段,将CUDA中的算式变得更适合本地语法。

但问题也显而易见:永远慢半拍—— 因为对方不断更新语言,你永远要追新词,英伟达每次更新CUDA、更新架构,国产厂商立刻要做新的翻译器,这在战略上十分被动。

H200 被挡在门口的三年,国产 GPU 技术路线呈现出非常鲜明的“中国式风格”——在工艺受限的情况下,通过“架构取巧、集群堆叠、算子融合、软件兼容”这些工程学上的努力,硬生生把落后的硬件打磨到可用、能上规模、适配大模型训练的程度。

这套路线不是工程上的最优解,但在封锁环境下,是现实可行的最优解。

02

差距到底在哪?

要评估国产GPU与英伟达H200的技术差距,需要用统一的标准进行量化对比。根据美国商务部工业与安全局(BIS)定义的"总处理性能"(TPP)指标,可以对主流AI芯片进行横向比较,作为参考。

这里的TPP指标,指的是解析:TPP = 2 × MacTOPS × 操作位长,通常以TFLOPS(FP16)× 16计算。根据伯恩斯坦研究2025年12月发布的报告,各芯片TPP性能对比如下:

- 英伟达H200:60,000 TPP(基于Hopper架构,141GB HBM3e,4.8TB/s带宽)

- 英伟达H20:15,832 TPP(特供版,性能仅为H200的26%)

- 华为昇腾910C:36,912 TPP(性能约为H200的61.5%,国产最高)

- 寒武纪思元590:29,360 TPP(性能约为H200的49%)

- 海光BW1000/DCU3:14,688 TPP(性能约为H200的24.5%)

- 摩尔线程S4000:约20,000 TPP(性能约为H200的33%)

从公开数据可以看出,国产顶级芯片在单卡性能上仍落后H200约1.6-2倍,但已经超越了H20,达到了"可用"的水平。

然而,在训练能力方面,国产卡单卡仍落后2-3倍,但所幸的是,集群层面可通过"堆卡+高速互联"弥补部分差距。

华为CloudMatrix 384集群(384张昇腾910C)性能接近英伟达GB200 NVL72,在部分大模型训练任务中表现良好。但需要注意的是,由于工艺制程限制(国产芯片普遍采用7nm,H200采用4nm),每瓦性能仍落后30%左右。

推理能力方面,国产Top卡已持平甚至超越阉割版H20。华为昇腾910B2的INT8算力达到762 TOPS,在推理阶段处理低精度数据效率较高;寒武纪思元590在推理场景中也表现优异,KV-Cache放得下、带宽够用。沐曦曦云C550的显存带宽达到1600-1800GB/s,超越H200的4.8TB/s,在大规模推理任务中具有优势。

成本和功耗方面,目前海光BW100采购价格约10万元/张,寒武纪590价格从最初8.5万元降至6-7万元,华为910C约18万元,均显著低于H200的30-40万元。更重要的是,H200还需额外支付25%的"美国税",使得国产卡在成本上具有约50%的优势。功耗方面,虽然国产卡单卡功耗较高,但考虑到H200的700W TDP,实际差距并不悬殊。

生态进度是国产芯片最大的短板,但也是进步最快的领域。

目前,华为昇腾的CANN 工具链已支持与 MindSpore 深度协同和 PyTorch 一键迁移。其他国产平台也在做类似深度编译器与中间表示 (IR) 适配,让开发者可以更少手动改代码地运行大模型。

其中的主要原因,在于不同国产芯片厂商、云厂商、软件团队、科研院校都在合作推动生态规范标准化、工具共享、适配案例共享。

这种产业协同在生态建设上是少见优势。

综合来看,国产芯片与H200在训练方面的差距依旧存在,但在推理方面,已收敛到"能用+成本更低+可控"的水平。

现阶段,国产芯片正从"勉强及格"向"好用"的爬坡阶段迈进,根据根据伯恩斯坦的推测,预计2026-2027年,将在部分场景实现与H200的全面竞争。

03

未来的较量

在产业方面,从技术演进来看,英伟达刚刚发布的Blackwell Ultra系列仍延续"堆料涨性能"的路线,赌的是摩尔定律(或"黄氏定律")尚未终结。所谓“黄氏定律”,不是什么物理学定律,而是英伟达CEO黄仁勋提出的'GPU性能每两年翻一倍'的经验法则。

这种“定律”与其说是自然规律,不如说是英伟达研发投入和市场策略的体现——每年投入超过70亿美元的研发费用,让竞争对手望尘莫及。

但国产芯片没有直接硬碰硬,而是采用"架构取巧+多芯片封装+集群堆叠"的迂回战术。华为昇腾采用双Die设计,通过先进封装技术提升集成度;摩尔线程"平湖"架构实现Chiplet可扩展架构,支持计算Die、HBM3e存储Die与IODie灵活配置;沐曦曦云C700系列进一步扩展对FP4等低精度的计算支持,对标H100。

总体上来看,在先进工艺受限的情况下,国产芯片通过架构创新实现了性能突破。华为昇腾910C采用达芬奇架构3.0,集成32个自研AI Core,支持原生CANN异构计算;寒武纪思元590采用MLUarch架构,通过指令集优化提升计算效率;海光深算三号采用x86+GPGPU的Chiplet封装,通过2.5D封装实现HBM2e内存直连,带宽达1.6TB/s。

这些技术创新使得国产芯片在特定场景下能够实现与英伟达相媲美的性能表现。

并且从应用层面看,国产AI芯片已经找到了自己的"舒适区",而且干得相当不错。

例如智算中心这类场景,现在已经成了华为的“主场”。截至2025年,全国600多个智算中心项目中,超过300套Atlas 900超节点已经商用部署,华为昇腾在智算中心领域可以说是"一枝独秀"。涵盖互联网、电信、制造等多个行业。中国电信粤港澳大湾区的智算昇腾超节点,更是成为全球首个商用的超节点项目。

同样地,在面向国内大生态的专用场景,例如智能安防、金融风控、OCR / 文本语义检索、音视频内容处理(如自动剪辑、AI 转码)等任务中,国产卡可针对特定算法做深度定制优化。

通过自研编译器和算子库直接对接国内框架如MindSpore,在“我只要这个任务跑得快就够了”的场景下,专用定制往往比通用 GPU 效率更高。

而在低延迟/ 小规模边缘场景,例如边缘 AI、工控设备、机器人本地推理等场景,国产 NPU/ASIC 方案比通用 GPU 效率更高。因为架构从一开始就针对推理做到低功耗,不依赖重型 CUDA 生态

说到底,国产芯片的优势场景都有一个共同点:对成本、功耗、供应链安全敏感。在这些场景,性能不是唯一指标,性价比和自主可控才是王道。

总结而言,H200的有限解禁是美国"技术依赖"策略的体现,试图通过提供次高端产品维持中国对美国技术的依赖。但这一策略为时已晚——在H200“断供”的封锁期内,中国AI芯片产业已经建立起从硬件到软件、从单卡到集群的完整解决方案。

而这套日益牢固的基本盘,不是一块H200 就能轻易“打回原形”的。

更重要的是,大模型越来越稳定,训练次数变少的当下,最贵的训练不再那么频繁,但推理量是每天都在爆炸,国产卡能不能吃掉训练,短期不重要,只要把推理吃死,整个产业也就立住了。

在进入“战略相持”阶段的当下,倘若再多给国产芯片一些时间,假以时日,国产训练卡也将"上桌掰手腕"。

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
212390
金币
614059
道行
2006
原创
2441
奖券
3260
斑龄
41
道券
1197
获奖
0
座驾
设备
摄影级
在线时间: 46457(小时)
注册时间: 2008-10-01
最后登录: 2025-12-20
只看该作者 沙发  发表于: 昨天 11:14
给国产芯片多一些时间:国产GPU崛起与未来展望
引言:国产GPU厂商的资本热潮与外部挑战

2025年12月,国产GPU行业迎来历史性时刻。12月5日,摩尔线程登陆科创板,成为“国产GPU第一股”,上市首日涨幅达425.46%;12月17日,沐曦股份紧随其后上市,首日收盘价829.90元,较发行价上涨725.24%,市值突破3300亿元。这两家企业的密集上市,不仅标志着资本市场对国产GPU的高度认可,更是对美国“技术围堵”策略的有力回应。

就在两家公司上市前后,美国政策突变:12月8日,特朗普宣布允许英伟达向中国出口H200人工智能芯片,但需将销售收入的25%上缴美国政府。这一举措被解读为美国“温水煮青蛙”策略的延续——通过出口性能“能用但不先进”的H200芯片,试图延缓中国国产替代进程。然而,中国并未“上钩”,反而加速了国产GPU产业的资本化进程和技术突破。
一、没有H200的日子:国产GPU的“至暗时刻”与突围策略

2022年至2025年,美国对华半导体出口管制层层加码。2025年4月,英伟达特供版H20芯片被迫停售,英伟达因此损失约45亿美元库存及80亿美元潜在收入。这三年被业界称为中国AI芯片产业的“至暗时刻”,但也正是这段封锁期,催生了国产GPU的加速崛起。面对外部压力,国产厂商形成了“三管齐下”的突围策略:
性能追赶:堆面积、堆晶体管、堆芯片
在单卡性能暂时落后的情况下,国产厂商通过架构创新和多芯片设计弥补差距:
华为昇腾910C:采用双Die设计,FP16算力达800 TFLOPS,接近英伟达H100的80%。
寒武纪思元590:综合性能达到英伟达A100的70-80%。
海光深算二号:FP16算力1024 TFLOPS,接近A100的90%。
工程补能:液冷堆叠与功耗管理
由于能效比不足,国产GPU普遍采用“电力+工程能力”硬顶:
摩尔线程“平湖”架构:支持单芯片最高1000W TDP动态功耗管理,通过液冷技术确保稳定运行。
尽管每瓦性能仍落后英伟达约30%,但低功耗版本已进入流片阶段,逐步改善能效问题。
生态兼容:“编译层hack”与CUDA兼容
面对英伟达CUDA生态垄断,国产厂商通过软件层兼容实现突破:
海光DCU:通过ROCm生态实现对CUDA的“软兼容”,迁移效率达85%。
华为CANN架构:采用指令翻译+动态调度技术,覆盖CUDA API的80%。
这种“翻译器”式的兼容虽存在“慢半拍”问题,但在封锁环境下是现实可行的最优解。
二、技术差距量化:TPP指标下的性能对比

根据美国商务部工业与安全局(BIS)定义的“总处理性能”(TPP)指标(TPP = 2 × MacTOPS × 操作位长),各主流AI芯片性能对比如下:

| 芯片型号       | TPP值   | 性能占H200比例 |
|----------------|---------|----------------|
| 英伟达H200     | 60,000  | 100%           |
| 英伟达H20      | 15,832  | 26%            |
| 华为昇腾910C   | 36,912  | 61.5%          |
| 寒武纪思元590  | 29,360  | 49%            |
| 海光BW1000/DCU3| 14,688  | 24.5%          |
| 摩尔线程S4000  | ~20,000 | 33%            |

从数据可见,国产顶级芯片单卡性能仍落后H200约1.6-2倍,但已超越H20,达到“可用”水平。在训练能力上差距明显,但通过集群堆叠(如华为CloudMatrix 384集群)可部分弥补;在推理能力上,国产芯片已实现与H20的持平甚至超越,并在成本和功耗上具有显著优势。
三、应用场景突破:国产GPU的“舒适区”

国产AI芯片已在多个场景找到立足之地:
智算中心:华为昇腾在智算中心领域占据主导地位。截至2025年,全国600余个智算中心项目中,超300套Atlas 900超节点已商用部署,涵盖互联网、电信、制造等行业。
专用场景定制:在智能安防、金融风控、OCR/文本语义检索等任务中,国产卡通过自研编译器和算子库对接国内框架(如MindSpore),实现针对特定算法的深度优化,在“性价比优先”场景下效率更高。
边缘计算:在低延迟、小规模边缘场景(如工控设备、机器人本地推理),国产NPU/ASIC方案比通用GPU更具效率优势。
四、未来展望:给国产芯片更多时间
技术持续突破
架构创新:华为昇腾双Die设计、摩尔线程Chiplet可扩展架构、沐曦曦云C700系列对低精度计算的支持,均展现了在先进工艺受限下的创新路径。
生态完善:华为CANN工具链已支持PyTorch一键迁移,其他厂商也在推动生态规范标准化和工具共享,产业协同效应逐渐显现。
市场机遇
美国解禁H200后,国产芯片凭借成本优势(价格低50%)和供应链安全,在推理市场仍将占据主导。
预计到2026年,中国AI芯片市场规模将超500亿美元,国产替代空间巨大。
应对美国策略
美国“温水煮青蛙”策略试图通过H200维持技术依赖,但中国已形成完整的国产解决方案。正如文章所述,“这套日益牢固的基本盘,不是一块H200就能轻易打回原形”。
结论

国产GPU产业在过去的三年封锁期中展现出了惊人的韧性。“三管齐下”的突围策略不仅填补了技术空白,更在工程实践和生态建设中积累了宝贵经验。尽管与英伟达H200仍存在差距,但在特定场景下已实现“能用、好用、可控”。随着沐曦、摩尔线程等企业的上市融资和技术迭代加速,国产GPU正从“勉强及格”向“全面竞争”迈进。

给国产芯片多一些时间。在训练卡领域,“掰手腕”的时刻即将到来;在推理市场,“吃死”的格局已然形成。这场技术竞赛中,中国不仅在追赶,更在开辟属于自己的道路。正如黄仁勋所言,“中国是全球最大的半导体市场”,而这个市场正在用本土创新书写新的篇章。

如何不发帖就快速得到金币道行
 
在线天人地

UID: 1627269

精华: 2
级别: 上清仙尊

发帖
296995
金币
35327
道行
40006
原创
109
奖券
147
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 36825(小时)
注册时间: 2012-09-03
最后登录: 2025-12-19
只看该作者 板凳  发表于: 昨天 12:14
国产GPU迎战英伟达H200:现状与策略
一、国产GPU性能现状:差距仍在,但局部追平
当前国产GPU在高端AI芯片领域与英伟达仍有差距,但部分产品已在特定场景下接近或超过英伟达的中高端芯片。例如,华为升腾910C作为国产最强量产GPU,性能大致达到英伟达H800的60%;寒武纪590性能约为H800的30%-35%,海光BW100则约为50%。在推理效率方面,升腾910B的推理效率是英伟达H20的2倍以上,成本更低(比H20低三成),已能满足多数垂类模型的推理需求。

二、国产GPU的核心策略:集群式创新与生态兼容
集群式算力输出:
针对国产芯片在单卡性能上的差距,国内厂商采用“集群式创新”路线,通过GPU一体化紧耦合设计,形成大规模计算集群,以体系化算力弥补单卡不足。例如,曙光scaleX640超节点单机柜集成640卡,算力规模较传统方案提升20倍,同时兼容主流AI软件生态,深度适配400+主流大模型,支持快速迁移与优化。

生态兼容与软件优化:
面对英伟达CUDA生态的垄断,国产GPU通过兼容CUDA或开发自有生态(如华为CANN、海光ROCm),减少用户迁移成本。例如,升腾芯片支持CUDA转译,部分场景下迁移后的性能损失控制在10%以内;同时,通过软件优化(如算法创新、系统工程能力),绕开硬件短板,例如DeepSeek通过软件优化实现了低成本训练,性能接近OpenAI-01。

三、市场应对:从“依赖进口”到“自主可控”
自给率提升与市场份额:
国产AI芯片自给率已达40%,部分领域(如推理端)的市场份额正在扩大。例如,华为升腾芯片在智算中心、自动驾驶等场景的渗透率逐步提高;寒武纪、海光等厂商的产品也在服务器、边缘计算等领域占据一定份额。

算力冗余时代的选择:
在自动驾驶等算力冗余的领域,国产GPU的吸引力逐步提升。例如,升腾910B的推理效率高于H20,成本更低,且支持集群部署,满足车企“不把鸡蛋放进一个篮子”的需求。尽管英伟达在自动驾驶域控芯片(如Orin系列)仍占统治地位,但国产芯片已成为车企的重要备选。

四、未来方向:专用芯片与政策支持
专用芯片(ASIC)的崛起:
随着推理时代的到来,ASIC因更高的处理速度和更低的能耗,成为挑战GPU霸主地位的关键。谷歌、亚马逊、微软等科技巨头均推出自研ASIC芯片,用于AI推理;国产厂商如华为、寒武纪也在布局ASIC,针对特定场景(如边缘计算、推理)优化性能。

政策与算力基础设施支持:
国家与地方政府加大对国产GPU的支持,例如山东移动累计投资超45亿元部署算力资源,建成青岛智算中心(省内规模最大)、移动云济南节点(总算力超50万核vCPU),并实现英伟达与国产GPU的混合训练(加速比达95%)。这些举措为国产GPU的发展提供了算力基础与应用场景。

总结
国产GPU迎战英伟达H200的核心逻辑是:以集群式创新弥补单卡性能差距,以生态兼容降低迁移成本,以专用芯片抢占推理端市场。尽管当前仍有差距,但随着自主可控战略的推进与技术创新,国产GPU有望在未来逐步缩小与英伟达的差距,成为全球AI芯片市场的重要力量。
如何不发帖就快速得到金币道行
 
天人地
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个