200阅读
2回复

[智能应用]上海AI实验室实现千里算力互联训练千亿模型，降低“卡脖子”风险 [复制链接]

上一主题下一主题查看指定楼层

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 154278

金币: 362466

道行: 20030

原创: 764

奖券: 263

斑龄: 0

道券: 0

获奖: 0

座驾

设备

摄影级

在线时间: 18323(小时)
注册时间: 2012-06-21
最后登录: 2025-09-08

只看楼主正序阅读使用道具楼主发表于: 07-20

— 本帖被兵马大元帅执行加亮操作(2025-07-26) —

上海人工智能实验室于7月19日发布了一项具有里程碑意义的成果，其研发的DeepLink超大规模跨域混训技术方案，成功应用于中国联通网络，将相隔1500公里的两个异构智算中心“拼成”一个“超级节点”，并完成千亿参数的AI大模型训练。此举在全球首次实现长距离跨域异构智能算力的高效整合，不仅可化解全国算力资源分布不均、利用率不高的瓶颈，更可降低AI行业对特定芯片的依赖，一旦出现供应链波动，将为AI产业提供重要的兜底算力支持，避免被“卡脖子”。

据上海AI实验室介绍，今年2月，他们联合十余家合作伙伴，在上海建成了超大规模跨域混训集群的原型，实现了千亿参数大模型20天不间断训练。在此基础上，他们融合中国联通AINET算力智联网，跨越1500公里，连接了上海和济南之间的智算中心，完成了千亿参数大模型混训。
所谓“跨域混训”，就是将位于不同地域、使用不同芯片架构（即“异构”）的多个算力集群互联起来，“拧成一股绳”用于训练；与之相对的是“单集群+单芯片”训练。对AI大模型训练而言，“跨域+异构”的组合，看起来可以带来“1+1”的算力资源，但效果上却远小于“2”，甚至可能为“0”。此前，国内外尚无利用“跨域+异构”算力集群完成生产级模型训练的先例，原因在于互联技术障碍难以跨越，导致模型混训效率低下，难以为继。此次，上海AI实验室成功实现“零的突破”。实测数据显示，其与中国联通合作开展的跨域混训，等效算力高达单集群单芯片算力的95%以上。
过去几年，顺应AI大模型的爆发，国内算力建设如火如荼，但同时也存在区域算力资源分布和使用不均衡的情况，比如在西部一些地区，因为存在综合成本优势，超前部署了不少算力集群，但因为需求波动和运营问题，算力资源的实际使用率并不高，出现了一定程度的算力闲置。同时，随着AI芯片的快速迭代，以及国产芯片的百花齐放，各个智算中心使用的硬件架构也多有不同。由此，利用创新的标准和技术，整合和盘活跨域异构算力资源，变得越来越有战略价值。

上海AI实验室青年科学家、DeepLink系统团队负责人王辉告诉记者，DeepLink方案创新性地采用“3D+PS”的高内聚低耦合架构，某种意义上可以说是“以算法换带宽”。它将超大规模训练任务分发到远隔千里的各个智算中心，通过算法创新，有效减轻了对网络的压力；用户只需使用普通专线网络，就可开展大模型训练。此外，该方案还能确保在跨域训练中，即使某地智算节点发生故障，整体训练也能继续，显著提升了稳定性。
实际上，除了中国联通，上海AI实验室还与中国电信、商汤、仪电等智算平台进行了合作。其中，基于中国电信息壤算网，在不到10G带宽的网络条件下，实现了北京、上海、贵州三地智算中心的互联和大模型混训，等效算力依然在90%以上。王辉表示，理论上，DeepLink可通过动态配置支持数千公里的跨域混训，这意味着，国内任意两地的智算中心都可借助该方案实现算力整合。
中国联通研究院下一代互联网数据中心网络团队经理徐博华告诉记者，中国联通建设高通量、高性能、高智能的算力智联网AINET，研发了长距无损协议及硬件架构；DeepLink则在算法和软件层面实现一系列首创成果。这次“双向奔赴”的合作，为全国算力资源的高效利用带来许多想象空间。比如，它可将多地“碎片化”的算力捏合在一起，化零为整，变成高价值的资源。着眼将来，一旦规模达到目前10倍乃至更大的AI模型出现，对算力提出新的革命性需求，该方案也有可能让用户不必花天价新建超大型智算中心，而是通过将上一代智算中心进行“低成本组合”，满足训练需求。
上海AI实验室表示，下一步，他们还将进一步通过DeepLink超大规模跨域混训技术方案，组建算力生态，扩大应用范围，推动DeepLink方案能被更多服务商所整合，从而让用户可以像逛超市那样，在全国自由选择高质量、高性价比的算力供给，为全国算力一体化布局注入核心动能。同时，他们也会面向多元算力在AI大模型混合推理、分布式强化学习等需求，进一步完善技术方案。

山庄提示：道行不够，道券不够？---☆点此充值☆

我有我可以

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 183984

金币: 398524

道行: 2004

原创: 2427

奖券: 2935

斑龄: 37

道券: 1071

获奖: 0

座驾

设备

摄影级

在线时间: 41147(小时)
注册时间: 2008-10-01
最后登录: 2025-09-08

只看该作者板凳发表于: 07-20

上海人工智能实验室发布的DeepLink超大规模跨域混训技术方案具有重大意义，它成功实现了全球首次长距离跨域异构智能算力的高效整合。这一技术将相隔1500公里的两个异构智算中心连接成一个超级节点，并完成了千亿参数的AI大模型训练。这项技术的突破不仅有助于解决全国算力资源分布不均和利用率不高的问题，还能降低AI行业对特定芯片的依赖，为AI产业提供重要的兜底算力支持，避免供应链波动带来的风险。

DeepLink技术方案的核心优势在于其“3D+PS”的高内聚低耦合架构，通过算法创新有效减轻了对网络的压力，使得用户可以使用普通专线网络进行大模型训练。此外，该方案还能确保在跨域训练中，即使某地智算节点发生故障，整体训练也能继续，显著提升了稳定性。

上海AI实验室已经与多家合作伙伴，如中国联通、中国电信、商汤、仪电等智算平台进行了合作，实现了北京、上海、贵州三地智算中心的互联和大模型混训，等效算力依然在90%以上。理论上，DeepLink可通过动态配置支持数千公里的跨域混训，这意味着国内任意两地的智算中心都可借助该方案实现算力整合。

下一步，上海AI实验室将进一步通过DeepLink技术方案组建算力生态，扩大应用范围，推动DeepLink方案能被更多服务商所整合，从而让用户可以在全国自由选择高质量、高性价比的算力供给。同时，他们也会面向多元算力在AI大模型混合推理、分布式强化学习等需求，进一步完善技术方案。这将为全国算力一体化布局注入核心动能。

如何不发帖就快速得到金币和道行

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 154278

金币: 362466

道行: 20030

原创: 764

奖券: 263

斑龄: 0

道券: 0

获奖: 0

座驾

设备

摄影级

在线时间: 18323(小时)
注册时间: 2012-06-21
最后登录: 2025-09-08

只看该作者沙发发表于: 07-20

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

以下是基于搜索结果的综合分析，关于上海AI实验室实现千里算力互联训练千亿模型的突破性进展及其战略意义：

1. 全球首次技术突破
上海AI实验室研发的 DeepLink超大规模跨域混训技术方案，成功将相距1500公里的上海与济南两个异构智算中心互联，整合成"超级节点"，并完成千亿参数AI大模型训练。

核心成果：
全球首次实现长距离跨域异构智能算力的高效整合，等效算力高达单集群训练的95%以上。
攻克了跨域异构互联的技术瓶颈，此前国内外尚无同类生产级模型训练成功案例。
️ 2. 技术创新：以算法换带宽
DeepLink采用 "3D+PS"高内聚低耦合架构，通过算法创新减轻网络压力：

功能亮点：
仅需普通专线网络（如低于10G带宽），即可分发超大规模训练任务。
支持动态故障恢复：某节点故障时，整体训练仍可持续。
实测效能：
中国电信场景下，北京-上海-贵州三地互联混训，等效算力维持90%以上。
🌐 3. 化解算力资源困境
技术直接针对当前算力资源两大痛点：

区域不均衡：西部算力闲置率较高，而东部需求密集。
硬件碎片化：国产AI芯片百花齐放，但异构架构导致算力难以协同。
解决方案：将分散的异构算力"化零为整"，提升资源利用率。
🛡️ 4. 降低"卡脖子"风险
减少芯片依赖：
支持多元芯片架构混训，降低对单一供应链（如特定进口芯片）的依赖。
兜底算力保障：
遭遇供应链波动时，可快速整合现有算力资源支持AI产业。
🔮 5. 未来应用前景
规模化扩展：
理论支持数千公里跨域互联，国内任意两地智算中心可整合。
成本革新：
未来训练10倍规模AI模型时，可通过"低成本组合"旧算力中心替代新建超大型集群。
生态构建：
推动算力"超市化"供给，用户自由选择高性价比算力资源。
💎 总结意义
DeepLink技术不仅突破算力互联的技术壁垒，更为全国算力一体化布局提供核心动能：

"以算法创新盘活闲置资源，用分布式协同抵御供应链风险" —— 推动AI产业从"硬件依赖"向"系统自主"跃迁

如何不发帖就快速得到金币和道行

我有我可以

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]上海AI实验室实现千里算力互联训练千亿模型，降低“卡脖子”风险 [复制链接]