新闻资讯
新闻资讯

花朵在黑色地面上开花,升天的计算强度创建了

最近,华为在MOE模型培训领域迈出了又一步,并推出了一种新模型,其参数量表高达7180亿 -Pangu ultra Moe,这是在整个过程中在Ascend AI计算平台中培训的准亿万亿兆MOE模型。华为还发布了一份有关Pangu Ultra Moe模型架构和培训方法的技术报告,揭示了许多技术细节,这完全反映了Ascend在MOE中的超大规模性能培训。超大量表和超级高级MOE模型的实践极具挑战性,并且在训练过程中的稳定性通常很难保证。为了应对这个问题,Pangu团队在建筑模型和培训技术中进行了创新的设计,并在Ascend平台上成功地完成了对准亿万届MOE模型的完整培训。在模型架构方面,Pangu团队建议深度缩放三明治 - 纳米(DSSN)稳定体系结构和小型启动程序,并在升天平台上实施了超过18TB数据的长期稳定培训。此外,他们还建议EP负载如何负载。这种设计不仅可以确保与各种专家的负载平衡,还可以提高专家领域的专家技能。同时,Pangu Ultra Moe使用MLA和MTP的高级体系结构,并使用培训技术,而没有下降前训练和培训后阶段,从而在MOE超级规模的体系结构的影响模型与效率之间取得了最佳平衡。在Tuntuin训练方法中,华为团队首次透露了Ascend CloudMatrix 384超级节点技术,该技术很好地开放了MOE后Sparse后比率研究(RL)研究研究,该研究允许R训练在超级节点聚类期间进入R训练。同时,基于5月初发布的预训练系统的预训练系统加速,不到一个月的时间,华为团队Comp让另一个迭代升级,包括:适应硬件攀爬的自适应流掩模方法,进一步优化了操作员实施操作员,进一步减少了主机爆炸和改进的通信掩盖自适应内存 - 记忆 - 记忆方法的开发;重新修复数据以达到DPS之间的注意力负载;以及PAOPITIM的亲和力优化,这些技术将Wanka群集的预培训MFU从30%增加到41%。此外,最近发布的Pangu Pro Moe Big Model从小到大型,甚至可以与仅有720亿个参数的10亿型号的性能相媲美,这是通过不断变化的专业网络的激活激活的。在超级卢比(Superclue)发行的最新级别的2025年5月,当局对该行业的大型模式进行了排名,该行业以前在中国在1000亿个参数内的大型模型中排名。发行华为pangu ultra moe和pangu Pro Moe系列模型证明,华为不仅完成了国内计算,在集群培训系统中,领先的行业绩效也实现了对MGA国内模型的独立和受控培训的整个过程。这意味着,进一步证明了改变国内AI基础设施的独立能力,为中国人工智能行业的发展提供了“安心”。 #Domestic Ascend培训以创建世界一流的大型模型校对:Zhang Yanjun