DeepSeek 的普及,让大模型的落地迎来了真正的拐点。
过去,企业在拥有强大模型后,总是苦于寻找合适的应用场景;而现在,情况发生了变化——客户不再只是观望,而是主动提出需求:“你来帮我想想,我的业务怎么和大模型结合?” 这不仅意味着行业对大模型的态度从试探走向实际应用,也预示着更广泛的部署即将到来。
成本在这里扮演了一个重要的角色。
以前,大模型的训练和推理动辄需要上万张高端 GPU,算力成本让许多企业望而却步。现在,随着 DeepSeek 降低了单个模型的算力门槛,推理、微调、二次训练等任务可以在百卡/千卡级别的算力资源上完成,企业不再需要承担高昂的计算投入,就能开始探索大模型的行业应用。这一变化,使得大模型不再只是头部科技公司的专属,而是逐步进入更广泛的产业场景。
但算力成本下降,并不意味着技术挑战减少。
在大模型推理中,“小马拉大车”形象地描述了一种算力资源与模型规模不匹配的困境。小马拉大车的困境 本质上是算力架构与模型规模的不匹配,导致推理效率受限。随着大模型参数激增,传统架构难以支撑高吞吐推理,单卡计算负担过重,时延飙升。同时,专家负载不均使部分计算节点过载,而其他资源被闲置,降低整体利用率。此外,跨卡通信占比过高,导致数据同步成本甚至超过计算本身,进一步拖慢推理速度。要突破这一瓶颈,需要更高效的专家调度、跨节点并行计算,以及智能化的负载均衡方案。
昇腾提出的大规模专家并行(EP)方案,通过跨节点计算、自动专家负载均衡以及智能通信优化,从根本上解决了小马拉大车的难题。它不仅提升了单卡的并行计算能力,还降低了通信开销,让大模型推理在高吞吐、低时延的环境下高效运行,真正释放 MoE 结构的潜力。
大规模专家并行(EP)核心思路是将专家(Expert)分布到更多的计算卡上,以减少单卡的权重加载延迟和显存占用,同时提升 batch size 并行能力。更高的并行度不仅提高矩阵计算效率,提升推理吞吐,还能降低推理时延。然而,大规模专家并行也带来新的挑战,主要体现在专家负载均衡和卡间通信这两个方面:
• 专家负载不均:如果部分专家过载,而其他专家空闲,计算资源将无法充分利用,影响整体推理效率。
• ALL2ALL 通信开销:当专家之间通信需求过高,计算反而会被通信延迟拖累,降低实际吞吐。
昇腾的解决方案是在大规模专家并行机制中引入 自动寻优、负载预测、动态专家调度 及 智能降级:
• 自动寻优:根据计算任务的需求,智能匹配最优的专家,避免资源浪费。
• 自动预测:提前评估专家负载情况,动态调整分配策略,减少计算瓶颈。
• 热点专家冗余配比:对计算压力大的专家进行冗余配置,保证高效分配。
• 智能降级:当某个专家负载过高时,自动进行降级处理,以保证整体推理流畅度。
通过这些优化,昇腾的大规模专家并行方案不仅在性能上优于传统架构,同时具备更强的 可扩展性、高可用性和极致均衡。专家的动态迁移、热度感知以及跨实例负载均衡,让计算资源利用率最大化,进一步释放推理能力。
这个思路和英伟达在GTC上提出的 Dynamo 优化推理的思路不谋而合。黄仁勋提到:“为了处理这个庞大的模型,比如万亿参数级别的模型,最好的办法是将这些模型的计算任务分布到整个GPU系统中。你可以选择tensor并行(一个模型层分布到多个GPU)、流水线并行(pipeline parallelism)、或者专家并行(expert parallelism)。”
在大模型部署初期,企业往往面临是选择一体机,还是搭建更大规模的大规模专家并行计算架构的抉择。两者的核心区别在于扩展能力与适用场景。
• 一体机(All-in-One):适用于小规模模型推理场景,比如高校实验室或中小型医疗机构。这类客户初期对大模型理解有限,更适合低门槛、易部署的一体机方案,一体机能够快速与业务结合,降低探索成本。
• 大规模专家并行计算架构(Expert Parallel):适用于高并发、高吞吐的互联网企业或大规模模型训练推理任务。当用户数量激增或业务需求复杂度提高时,单实例的计算能力会遇到瓶颈,此时需要基于资源池的大规模专家并行方案进行扩展,形成跨节点推理集群。
在业界的实践中,企业往往先从一体机入手,待业务需求增长后逐步扩展到大规模专家并行方案。在这一过程中,企业往往经历几个关键阶段:一开始,业务需求尚未明确,通用的大模型已能满足基础应用,因此一体机的部署成本更低、运维更简单,适合快速试水。随着用户数量增长,企业积累了更多行业数据,同时对通用模型的适用性也产生了新的要求,进而开始考虑微调和二次训练,以打造更贴合自身业务的行业模型。这时,算力需求上升,企业可以通过增加设备扩展计算能力,支撑更复杂的模型优化任务。
然而,一体机的计算能力终究有限,当用户规模突破数千级,或推理并发需求大幅上升,单实例架构难以支撑业务扩展,企业需要进一步升级为基于资源池的大规模专家并行方案,实现跨节点推理集群的构建。
面对大模型推理的挑战,昇腾具有明显优势:
1. 方案最全
• 从预训练、微调、强化学习,到推理集群和一体机,昇腾提供全流程覆盖的端到端方案。
• 作为业界首个复现 DeepSeek R1 强化学习流程的架构,昇腾方案兼容主流大模型训练推理需求。
2. 性能最优
• 昇腾方案深度结合华为自研硬件与软件栈,针对 MoE(Mixture of Experts)架构 进行了全链路优化,提升吞吐与时延表现。
• 依托华为 MTP、MLA、大规模专家并行技术,最大限度释放底层算力,实现更高效的推理性能。
3. 生态兼容性最佳
• 昇腾软件全面开源,并深度整合华为自研 MindSpore 生态。
• 在推理端支持 MindIE 以及 vLLM,让用户能够高效完成自主训练与创新开发。
推理模型思考的过程很长,输出很长,需要的Token数特别多。在推出大规模专家并行方案降低时延,提升性能之后,昇腾也在密切和 DeepSeek 团队,共同探索降低时延的新路径。
还没有评论,来说两句吧...