GPU集群+存储整体解决方案

GPU集群+存储整体解决方案

为什么需要集群?

  • 科技的发展,单台服务器已无法满足巨大的计算需求,集群应运而生。集群是将多台服务器通过软件与硬件结合起来,形成一个统一的系统对外提供服务

  • 另一方面服务器集群主要是为了负载均衡(有两台以上的服务器或者站点提供服务)服务器服务将来自客户端的请求,基于某种算法,尽量平分请求到集群的机器中,从而避免一台服务器因为负载太高而出现故障,而即使其中某个机器出现故障,负载均衡会自动规避选择,使得用户也能正常访问服务。

图片关键词

思腾合力SCM人工智能训练平台

产品定位:

SCM面向大规模异构计算基础设施管理,能够实现深度图片关键词学习计算资源管理、调度、应用的自动化,可广泛应用于教育、科研、遥感、医疗、能源、 政府等行业领域,能够大幅提升计算基础设施资源利用效率,降低数据中心总体拥有成本, 提升人工智能研发创新效率。



主要功能模块:

  • 资源统一管理,提高资源利用率;多角色模式下,资源利用率实时监控 单机多卡任务、多机多卡任务,性能线性增长图片关键词

  • 通过自研服务和 docker 容器技术相结合,帮助用户托管深度学习训练作业

  • 前期数据标注模块;后期模型部署模块

  • 多租户管理;用户组管理;计费系统

  • 兼容Intel、AMD平台;支持NVIDIA、FPGA运算卡



思腾合力AI-STOR存储解决方案

图片关键词

1.分布式存储集群

自主研发分布式存储管理系统图片关键词

  • 支持Gb、10Gb、25Gb、40Gb、56Gb、100Gb、200Gb以太网网络;支持56Gb、100Gb、200Gb infiniband网络;支持RDMA传输;支持OPA传输

  • 支持主流的文件访问协议,包括iSCSI/CIFS/NFS/FTP/WebDAV/POSIX

  • 单个集群支持至少扩展到256个存储节点

  • 中英文操作界面

2.高性能存储

  • 自主研发存储管理系统

  • 低、中、高,多种方案可选,针对不同应用场景选配

图片关键词