在2024年7月举办的全球数字经济大会上,北京超级云计算中心(以下简称"北京超算")展示了其在人工智能算力服务领域的最新成果与创新实践。作为北京市首批算力伙伴,北京超算凭借十三年的丰富经验和专业实力,正在为我国人工智能技术发展和数字经济繁荣提供强有力的算力支撑。

  人工智能已成为国家战略,是推动科技创新、促进经济增长、引领产业升级的重要力量。然而,随着AI模型规模的急剧扩大,适用于超大规模训练的算力资源供给不足已成为制约行业发展的瓶颈。北京超算运营实体北京北龙超级云计算有限责任公司CTO甄亚楠在接受采访时表示:"目前做基座大模型的企业,对算力资源的总量要求非常高,动辄需要5000卡规模。能够提供如此大规模空闲算力资源的中心在国内还是非常少的。"


北龙超云CTO甄亚楠论坛现场报告

  面对这一挑战,北京超算提出了"超智融合全景算力服务"的创新理念,致力于为客户提供高质量、高性价比的超算架构大模型算力解决方案。其核心优势主要体现在以下几个方面:

  一、丰富的算力资源池

  北京超算拥有数万张主流GPU卡,包括H800、A800、V100等,可支持多机多卡并行计算,满足大模型训练、推理等多种场景需求。其在宁夏中卫算力基地和规划中的内蒙古和林格尔新基地可以为大模型研发机构提供充足的智算算力保障。

  二、基于超算架构的高性能基础设施

  北京超算采用典型的超算架构打造大模型基础设施,包括高性能的GPU训练服务器、推理服务器以及大容量分布式存储系统。其计算网络采用3.2Tbps IB无收敛架构,存储网络带宽达到400Gbps,可有效支撑大规模并行计算的需求。

  三、智能化的资源调度与性能优化

  北京超算开发的智能算力调度系统,可实现多集群算力的跨域智能分配。更重要的是,他们建立了基于应用运行特征分析的能力服务体系,通过对大规模并行应用进行实时"CT扫描",秒级监控CPU、GPU、内存、网络等多维度指标,智能分析性能瓶颈,为用户提供高性价比的算力选型及程序优化咨询服务。

  甄亚楠介绍了一个典型案例:"某14B参数的模型优化前GPU利用率只有75%,经过我们的计算负载优化后,GPU利用率提升到97%,整体性能提升了30%。"这种基于数据驱动的优化方法,可以帮助用户更高效地提升算力资源利用率,从而降低成本。

  四、全方位的技术支持服务

  北京超算组建了专业的技术支持团队,提供7*24小时在线服务,5分钟响应。从环境搭建、程序优化到故障诊断,为用户提供全流程的技术保障。正如甄亚楠所说:"我们希望AI工程师能够将更多精力投入到科研本身,而不是被繁琐的算力环境问题所困扰。"

  五、灵活的使用模式与高性价比


北京超算 “高质量、高性价比算力服务体系”正式发布

  北京超算采用"按需付费"的模式,用户可以根据实际需求灵活选用算力资源,避免了自建集群的高额投入。在北京超算最新发布的容器云上,GPU卡时价格低至1.6元,用户可以在云平台上自建容器,极大降低了使用成本。甄亚楠表示:"我们希望通过高性价比的服务,让更多中小企业也能够参与到大模型的研发中来。“

  正是凭借这些优势,北京超算已经成功为多家知名AI企业和科研机构提供了大模型算力支持。例如,他们为某公司的千亿级超大规模预训练模型项目提供了基于A800 GPU的高性能算力资源,支持其进行长时间稳定的千卡规模训练。在另一个案例中,北京超算帮助某语言智能科技公司将128卡训练的性能提升了4倍,达到了线性加速的效果。

  此外,北京超算还积极支持高校的大模型研究。他们为某双一流高校提供了256块A100 GPU的共享算力资源,并协助课题组完成环境搭建和模型迁移,有效解决了高校算力不足的问题。

  在谈到未来发展时,甄亚楠表示,北京超算将继续加大在算力基础设施方面的投入,同时也会加强在国产化方面的布局。"我们有专门的团队在帮助用户将模型迁移到国产芯片上。虽然目前在性能上还有差距,但我们相信通过产学研各方的共同努力,国产AI芯片的生态一定会不断完善。"

  值得一提的是,在本次数字经济大会上,北京超算与北京中科闻歌科技股份有限公司合作的"雅意·智学大模型赋能教育领域应用实践"获评"2024人工智能大模型场景应用典型案例",展示了其在教育领域的创新应用实践。


2024人工智能大模型场景应用典型案例证书

  随着大模型技术的快速发展,高质量、可负担的算力服务将成为推动AI产业繁荣的关键因素。北京超级云计算中心以其深厚的技术积累和创新能力,正在为国产大模型的蓬勃发展贡献重要力量。正如2024全球数字经济大会所彰显的那样,数字经济的浪潮方兴未艾,在算力这一基础设施领域,我们有理由对未来充满期待。