2024开放计算中国峰会:开放加速AI发展,开放算力模组规范启动

发布时间:2024-12-22 22:58:23 来源: sp20241222

   中新网 北京8月12日电 (袁佳薇 夏宾)2024开放计算中国峰会近日在京举行,开放计算如何加速人工智能发展成为大会焦点话题。会上,“开放算力模组(OCM)”规范正式启动,首批成员包括中国电子标准院、百度、小红书、浪潮信息、联想、超聚变、英特尔、AMD等机构和企业。这是国内首个服务器计算模组设计规范,产业上下游希望共同建立标准化的算力模组单元,构建开放合作、融合创新的产业生态,激发人工智能技术创新发展。

图说:“开放算力模组(OCM)”规范正式启动。摄影:主办方供图。

  本次峰会由开放计算社区OCP及开放标准组织OCTC(中国电子工业标准化技术协会开放计算标准工作委员会)联合主办,以“开放协同:协作、智慧、创新”为主题,聚焦数据中心基础设施、人工智能创新、开放计算生态、绿色计算发展、开放系统&CXL等议题,包括百度、阿里云、中国工商银行、字节跳动、三星、浪潮信息、英伟达、伟创力、Solidigm、英特尔、世纪互联等在内的企业,以及千余名IT工程师和数据中心从业者参与大会。

  生成式人工智能的快速发展,带来了更加丰富的智能应用场景,而智能应用的繁荣必然使得推理需要更多的算力来支撑,通用算力作为一种更加普遍且更易获得的算力,一旦拥有AI计算的能力显然会大大加速智能化进程。

  浪潮信息服务器产品线总经理赵帅直言:“不仅仅是AI芯片,一切计算皆AI,通用算力也要具有AI计算的能力,但目前CPU处理器的迭代也非常快,而且不同平台的技术路线和要求都不同,十多款芯片,可能要研发上百台服务器。”

  但目前x86、ARM、RISC-V等不同架构的CPU协议标准不统一,导致硬件开发、固件适配、部件测试等耗时巨大,同时为了更好适应AI推理高并行的计算特点,CPU总线互联带宽、内存带宽及容量也需要特别优化,使得系统功耗、总线速率、电流密度不断提升……多种因素叠加之下,算力系统的设计与开发周期漫长且成本高昂。

  在CPU多元化发展的趋势下,如何快速完成CPU到计算系统的创新,使其能够适用于AI推理负载,已经成为缓解当前AI算力稀缺、推动人工智能发展的关键环节。

  为此,会上开放算力模组(OCM)规范正式启动立项,旨在以CPU、内存为核心构建最小算力单元,兼容x86、ARM等多架构芯片的多代处理器,方便用户根据应用场景灵活、快速组合。

  OCM规范的启动,旨在建立基于处理器的标准化算力模组单元,通过统一不同处理器算力单元对外高速互连、管理协议、供电接口等,实现不同架构处理器芯片兼容,构建CPU的统一的算力底座,以解决CPU生态挑战问题,方便客户根据人工智能、云计算、大数据等多样化应用场景,灵活、快速匹配最适合的算力平台,推动算力产业高质量快速发展。OCM开放标准的制定,能够为用户提供更多通用性强、绿色高效、安全可靠的算力选择。

  此外,生成式人工智能正在重构数据中心基础设施,对计算效能、存储容量及性能、网络方案、资源调度管理、能效控制与管理各个方面均提出更高要求,全向Scale(性能增强和规模扩展)能力成为构建先进AI基础设施的核心。在本届峰会上,包括CXL技术、面向AI的网络架构、首款16通道PCIe5.0 TLC固态硬盘等一大批创新技术与产品方案,将进一步提升数据中心的Scale能力。

  赵帅认为,开放计算对于智算时代有非常重要的意义和价值,要用开放应对多元算力的挑战,同样也要用开放促进现在算力的Scale。算力Scale是Scale up(单系统性能提升)与Scale out(集群规模扩展)并存迭代、快速发展的过程。现阶段,开放加速模组和开放网络实现了算力的Scale,开放固件解决方案实现了管理的Scale,开放标准和开放生态实现了基础设施的Scale,未来要以开放创新加速算力系统全向Scale,应对大模型Scaling Law。

  大会还发布了开放计算十大创新成果,包括超大规模数据中心部署指南、液冷式人工智能加速卡设计技术要求等,进一步体现出开放计算在数据中心领域所具备的创新活力。

  智能时代,大模型正在重构AI基础设施,数据中心迎来算力、网络、存储、管理、能效的全向Scale创新挑战,需构建全球化的开放协作平台,合力解决上述重大问题,通过对人工智能基础设施的全面优化,为AI发展赋予无限可能。(完)

【编辑:刘湃】