产品展示

思腾合力SCM人工智能训练平台

思腾合力 SCM 人工智能训练平台面向大规模异构计算基础设施管理,能够实现深度学习计算 资源管理、调度、应用的自动化,可广泛应用于教育、科研、遥感、医疗、能源、政府等行业领域, 能够大幅提升计算基础设施资源利用效率,降低数据中心总体拥有成本,提升人工智能研发创新效率。 

思腾合力 SCM 人工智能训练平台面向大规模异构计算基础设施管理,能够实现深度学习计算 资源管理、调度、应用的自动化,可广泛应用于教育、科研、遥感、医疗、能源、政府等行业领域, 能够大幅提升计算基础设施资源利用效率,降低数据中心总体拥有成本,提升人工智能研发创新效率。 

技术优势:

1、基于轻量级容器虚拟化技术,集成 Tensorflow、Caffe等多种计算框 架,支持多租户与自助服务,支持 深度学习软件环境按需、快速部 署,支持快速交付模型训练和开发 调试环境。 

2、支持大规模集群计算环境下 CPU/GPU异构计算资源按需、高 效、自动调度,提供 FIFO、作业 优先级、资源配额等调度策略,支 持自动选择性能最优拓扑,并提供 高可用机制应用硬件失效问题。 

3、平台内置优化的cuDNN并行计算 函数库和NCCL消息通信库,全面 支持单机多 GPU(Tensorflow、 Caffe、Torch、Pytorch、MxNet、 Keras、CNTK)和多机多 GPU (Tensorflow-MPI、Caffe-MPI、 Tensorflow)的大规模并行处理, 支持模型并行和数据并行,可大幅 提升计算效率。

4、提供基于 WEB 的系统管理界面,支 持用户配额管理、用户优先级管理, 提供 CPU/内存/主机/容器等硬件资 源动态监控图表,支持镜像仓库管理 和容器的创建、查看、删除、克隆、 打包镜像等基本管理操作。 

5、平台集成基于改进贝叶斯 Bayes 优 化算法的超参数智能调优解决工具 GPFlowOpt,支持学习率、动量、指 数衰减、梯度衰减等超参数的智能调 优,支持GD、ADM、Momentum、 RMSProp 等多种优化器,可大幅度 提升模型训练效率。 

6、提供集成的Jupyter环境,支持用户 基于 WEB 界面往服务器端上传代码 文件、数据文件,支持修改和下载等 常用操作,支持在线查看输出日志, 无需通过命令行,方便快捷。 


功能特性:

1、服务交付敏捷化

2、资源调度自动化

3、训练任务并行化 

4、系统管理简易化

5、超参调优智能化

6、文件管理集中化