数据科学-基于RAPIDS的数据科学解决方案

RAPIDS是一套支持利用 GPU 加速数据准备和机器学习的开源库。 图片关键词

在数据分析和机器学习领域,在RAPIDS出现之前,数据科学家以及机器学习专家确实饱受算力限制导致的效率低下之苦。大数据分析流程大致分为数据准备、数据合并、数据降维等。在数据准备阶段,数据科学家需要先下载数据,然后还要进行数据抽取、数据转换、数据加载等,而且一般情况下数据包都非常大,所以数据科学家大部分时间是在等待数据准备好。

RAPIDS正是可以充分利用GPU的强大算力来为数据科学家提供支持的强有力的工具,它第一次为数据科学家提供了他们需要用来在GPU上运行整个数据科学的标准流水线工具。

最初的RAPIDS基准分析利用了XGBoost机器学习算法在NVIDIA DGX-2™ 系统上进行训练,结果表明,与仅有CPU的系统相比,其速度能加快50倍。这可帮助数据科学家将典型训练时间从数天减少到数小时,或者从数小时减少到数分钟,具体取决于其数据集的规模。

为了支持这样一个大数据分析流程,需要用到DASK、PYTHON、PANDAS、SKLEARN、NUMPY、Apache Arrow等组件。RAPIDS 构建于 Apache Arrow、pandas 和 scikit-learn 等流行的开源项目之上,包含CUDF、CUML、CUGRAPH、CUDNN等多款组件。而这些组件分别用于对数据科学计算的不同阶段进行加速。

图片关键词