Go to file
2022-05-18 20:40:26 +08:00
docs add doc 2022-05-10 11:52:23 +08:00
images add gpu docker 2022-04-26 13:19:09 +08:00
install update deploy 2022-05-18 20:40:26 +08:00
job-template add ray-sklearn 2022-05-17 14:57:21 +08:00
myapp add check 2022-05-17 15:15:21 +08:00
.gitignore deploy 2021-08-17 17:00:34 +08:00
LICENSE Update LICENSE 2021-11-15 16:48:59 +08:00
README.md update readme 2022-05-13 13:08:12 +08:00

Cube Studio

cube是tme开源的一站式云原生机器学习平台目前主要包含

  • 1、特征平台支持在/离线特征;数据源管理,支持结构数据和媒体标注数据管理;
  • 2、在线的vscode/jupyter代码开发在线镜像调试支持免dockerfile增量构建
  • 3、任务流编排在线拖拉拽开放的模板市场支持tf/pytorch/mxnet/spark/ray/horovod/kaldi/volcano等分布式计算/训练任务task的单节点debug分布式任务的批量优先级调度聚合日志任务运行资源监控报警定时调度支持补录忽略重试依赖并发限制定时任务算力的智能修正
  • 4、nnikatibray的超参搜索
  • 5、tf/pytorch/onnx模型的推理服务serverless流量管控triton gpu推理加速依据gpu利用率/qps等指标的hpa能力虚拟化gpu虚拟显存等服务化能力。
  • 6、多集群多项目组资源统筹联邦调度

开源共建

有意向进行开源共建的同学请微信添加767065521并备注"Cube Studio开源共建"进入微信群.

功能简述

整体架构

完整的平台包含

  • 1、机器的标准化
  • 2、分布式存储(单机可忽略)、k8s集群、监控体系(prometheus/efk/zipkin)
  • 3、基础能力(tf/pytorch/mxnet/valcano/ray等分布式nni/katib超参搜索)
  • 4、平台web部分(oa/权限/项目组、在线构建镜像、在线开发、pipeline拖拉拽、超参搜索、推理服务管理等)

image

点击查看更多细节内容

多集群管控

cube支持多集群调度可同时管控多个训练或推理集群。在单个集群内不仅做到一个项目组内在线开发、训练、推理的隔离还可以做到一个k8s集群下多个项目组算力的隔离。另外在不同项目组下的算力间具有动态均衡的能力能够在多项目间共享公共算力池和私有化算力池做到成本最低化。

image

分布式存储

cube会自动为用户挂载用户个人目录同一个用户在平台任何地方启动的容器目录下/mnt/$username均为用户个人子目录。可以将pvc/hostpath/memory/configmap等挂载成容器目录。同时可以在项目组中配置项目组的默认挂载进而实现一个项目组共享同一个目录等功能。

image

在线开发

cube支持在线jupyterlab/theia(vscode)等功能多用户多实例支持cpu/gpu版本。另外支持在线构建docker镜像免除算法同学docker学习成本

image

拖拉拽pipeline编排

支持单任务调试、分布式任务日志聚合查看pipeline调试跟踪任务运行资源监控以及定时调度功能(包含补录,忽略,重试,依赖,并发限制,过期淘汰等功能)

image

功能模板化

为了避免重复开发对pipeline中的task功能进行模板化开发。平台开发者或用户可自行开发模板镜像将镜像注册到平台这样其他用户就可以复用这些功能。平台自带模板在job-template目录下

image

nni超参搜索

除了包含katib超参搜索也加入了nni的超参搜索支持更多的算法

image

分布式框架

以k8s为核心支持tf分布式训练、pytorch分布式训练、spark分布式数据处理、ray分布式超参搜索、mpi分布式训练、horovod分布式训练、nni分布式超参搜索、mxnet分布式训练、volcano分布式数据处理、kaldi分布式语音训练等 以及在此衍生出来的分布式的数据下载hdfs拉取cos上传下载视频采帧音频抽取分布式的训练例如推荐场景的din算法ComiRec算法MMoE算法DeepFM算法youtube dnn算法ple模型ESMM模型双塔模型音视频的wenetcontainAI等算法的分布式训练。

image

推理服务

0代码发布推理服务从底层到上层包含服务网格serverlesspipelinehttp框架模型计算。

  • 服务网格阶段:主要工作是代理流量的中转和管控,例如分流,镜像,限流,黑白名单之类的。

  • serverless阶段主要为服务的智能化运维例如服务的激活伸缩容版本管理蓝绿发布。

  • pipeline阶段主要为请求在各数据处理/推理之间的流动。推理的前后置处理逻辑等。

  • http/grpc框架主要为处理客户端的请求准备推理样本推理后作出响应。

  • 模型计算模型在cpu/gpu上对输入样本做前向计算。

image

实时训练

tmeps支持tf框架实时训练秒级上线能应对embedding稀疏大模型推荐场景

image

平台部署

参考install/README.md

平台完成部署之后如下:

167874734-5b1629e0-c3bb-41b0-871d-ffa43d914066