人工智能-深度学习

中国科学院自动化研究所-GPU集群项目

2020-03-21 17:37:40 siton 13

中国科学院自动化研究所-GPU集群项目

项目背景:

      中国科学院自动化研究所成立于1956年10月,是我国最早成立的国立自动化研究机构。1968年,为加速我国空间技术的发展,自动化所整建制划入空间技术研究院,更名为空间控制技术研究所,番号中国人民解放军第五○二研究所。1970年,根据自动化学科技术发展的需要,中国科学院重建自动化研究所。图片关键词

      近年来,研究所把握信息与控制技术向智能化方向发展的趋势,聚焦类脑智能,部署了以脑科学与智能交叉融合为前沿,以类脑智能机器人与类脑智能信息处理为应用载体,进行类脑智能技术和产业的布局,并通过体制和机制创新加速研究团队的大协作和成果的转移转化,实现能契合时代发展要求的研究所科研模式转型。 

核心需求:

      中国科学院自动化研究所以智能信息处理、复杂系统与智能控制为主要研究方向,通常在做复杂系统的模型训练时,传统的CPU服务器训练时间在数周不等,训练时间非常缓慢,影响研究效率。

解决方案:

      思腾合力针对用户以上存在的问题及需求,提出了10卡GPU服务器作为核心计算节点,搭配管理节点,存储以及IB网络,再配置思腾合力自主研发的集群管理软件(思腾合力SCM人工智能训练平台V2.0)的方案,由于复杂模型的训练大都是需要大量的并行运算,采用多台GPU服务器可以大量缩短训练的时间。

IW4200-10G:

出众的性能 图片关键词

最多高达10个 NVIDIA GPU处理器和3TB系统内存,可搭载全球最快的Nvidia Pascal™ 架构NVIDIA® Tesla® GPU加速器,让用户体验集群级的性能。 

灵活的配置 

为更加切实的满足各种应用需求, 客户可根据需求选择支持24个2.5寸 SATA/SAS硬盘, 网络选择多样化,可选择支持双千兆、四千兆、双千兆+双万兆搭配,所有网络支持管理复用,满足各种不同的网络应用场景。 

优化的散热 

整机结构布局充分考虑优化散热和节约功耗,关键部件根据发热量采用最先进的特殊设计,在保持性能的同时可以降低风扇转速,从而尽可能的减低功耗和噪音。 

合理的扩展 

在支持最多10块GPU卡的同时还可有一个PCI-E插槽可用,具有更好的灵活性和兼容性。 

便捷的管理 

具备IPMI 远程管理功能,实现非现场即可监控管理服务器要求,具有监控系统各部件的运行状况、远程安装操作系统、故障报警等功能。极大的缩减了维护开销。