当前位置：首页 > 新闻资讯 > 机器人开发 > 如何搭建一个GPU加速的分布式机器学习系统，遇到的问题和解决方法

如何搭建一个GPU加速的分布式机器学习系统，遇到的问题和解决方法

来源：阿里机器智能编辑：九游集团品牌时间：2020/6/18 主题：其他 [加盟]

小叽导读：在解决实际问题的时候，很多人认为只要有机器学习算法就可以了，实际上要把一个算法落地还需要解决很多工程上的难题。本文将和大家分享如何从零开始搭建一个GPU加速的分布式机器学习系统，介绍在搭建过程中遇到的问题和解决方法。

一背景

在云计算环境下，虚拟机的负载均衡、自动伸缩、绿色节能以及宿主机升级等需求使得我们需要利用虚拟机(VM)迁移技术，尤其是虚拟机热迁移技术，对于down time（停机时间）要求比较高，停机时间越短，客户业务中断时间就越短，影响就越小。如果能够根据VM的历史工作负载预测其未来的工作负载趋势，就能够寻找到最合适的时间窗口完成虚拟机热迁移的操作。

于是我们开始探索如何用机器学习算法预测ECS虚拟机的负载以及热迁移的停机时间，但是机器学习算法要在生产环境发挥作用，还需要很多配套系统去支持。为了能快速将现有算法在实际生产环境落地，并能利用GPU加速实现大规模计算，我们自己搭建了一个GPU加速的大规模分布式机器学习系统，取名小诸葛，作为ECS数据中台的异构机器学习算法加速引擎。搭载以上算法的小诸葛已经在生产环境上线，支撑阿里云全网规模的虚拟机的大规模热迁移预测。

二方案

那么一套完整大规模分布式系统机器学习系统需要哪些组成部分呢？

1 总体架构

阿里云全网如此大规模的虚拟机数量，要实现24小时之内完成预测，需要在端到端整个流程的每一个环节做优化。所以这必然是一个复杂的工程实现，为了高效的搭建这个平台，大量使用了现有阿里云上的产品服务来搭建。

整个平台包含：Web服务、MQ消息队列、Redis数据库、SLS/MaxComputer/HybridDB数据获取、OSS模型仓库的上传下载、GPU云服务器、DASK分布式框架、RAPIDS加速库。

1）架构

下图是小诸葛的总体架构图。

如何搭建一个GPU加速的分布式机器学习系统，遇到的问题和解决方法

ICRA2020论文分享：基于视触融合感知的可形变物体抓取状态评估

一种基于层次强化学习的机械手鲁棒操作

移动机器人Wang利用深度强化学习算法和视觉感知相结合的方法完成非结构环境下的移动

移动操作机器人Centauro通过融合自身携带的多传感器信息可实现自主移动和抓取操作

机器人手腕的系列分享之一

机器人手腕的系列分享之二

机器人手腕的系列分享之二自由度手腕

机器人手腕的系列分享之三自由度手腕

串行腕关节与并行腕关节优缺点对比分析

假肢腕关节和机器人腕关节优缺点对比分析

柔软的灵巧手的设计、制备及驱动

服务机器人核心模块分析

服务机器人(迎宾、讲解、导诊...)