mirror of
https://github.com/tencentmusic/cube-studio.git
synced 2024-11-21 01:16:33 +08:00
Update CONTRIBUTING.md
This commit is contained in:
parent
98c321cea5
commit
0669a7cd5b
219
CONTRIBUTING.md
219
CONTRIBUTING.md
@ -2,90 +2,181 @@
|
||||
|
||||
![image](https://user-images.githubusercontent.com/20157705/174476217-125e7fb8-0b4d-4921-91ed-38935b8013c7.png)
|
||||
|
||||
|
||||
# 第一阶段发展目标:
|
||||
|
||||
1、mlops平台开发:数据管理的集成(数据标注/特征平台),automl平台部分,平台公有化/私有化saas版,数据闭环(离线/实时训练闭环)
|
||||
|
||||
2、aihub算法应用市场:传统机器学习、视觉、文本、语音、搜广推、金融 开源 算法的集成,能更方便的体验使用开源算法。包括算法任务模板(job-template),算法全自动建模流程(pipeline),算法推理服务(service)。
|
||||
|
||||
3、推广、答疑、运营,在相关知识平台发布文章/视频、交流群的答疑、专业社区的分享,git仓库的文案管理,wiki文档等
|
||||
|
||||
# 第二阶段发展目标
|
||||
|
||||
1、平台本身,算法模板,pipeline等,商业化。通过边缘计算,区块链技术 将算法/数据 价值商业化。
|
||||
|
||||
# 思维导图:
|
||||
|
||||
[思维导图地址](https://gitmind.cn/app/docs/ma28m6np)
|
||||
|
||||
![cube-studio共建领域](https://user-images.githubusercontent.com/20157705/201583343-ecde1998-8827-41ac-a4fd-b0ef5cb72491.jpg)
|
||||
# mlops一站式平台
|
||||
|
||||
登录授权:
|
||||
|
||||
# aihub算法贡献:
|
||||
- 多种登录方式的示例,~~账号密码,github,~~ 微信登录,AUTH_OID(支持),AUTH_LDAP(支持),AUTH_REMOTE_USER(支持)缺少示例
|
||||
|
||||
深度学习算法参与:[https://github.com/tencentmusic/cube-studio/tree/master/aihub/deep-learning](https://github.com/tencentmusic/cube-studio/tree/master/aihub/deep-learning)
|
||||
- ~~多租户,rbac权限管理,项目管理~~
|
||||
|
||||
# 平台开发贡献:
|
||||
数据平台:
|
||||
|
||||
技能要求:[了解平台架构,了解平台代码](https://github.com/tencentmusic/cube-studio/wiki)
|
||||
- 数据接入模块:支持http/cos/..等离线接口,支持kafka/pulsar..等实时接口,支持源或者目的hive,ck,druid等(模块缺少)
|
||||
- 离线元数据:
|
||||
- ~~支持仅管理离线元数据~~
|
||||
- 定时脚本将远程数据库元数据同步到离线元数据内(比如离线同步hive元数据到元数据模块),支持离线元数据模块操作ddl远程数据库(比如增减hive列)
|
||||
- 实时查询远程元数据,并支持实时ddl远程数据库。
|
||||
- 离线/实时管理,支持hive/clickhouse/mysql/pg/druid等数据库类型
|
||||
- 血缘关系:
|
||||
- 支持表+任务+看板+字段+指标+特征,之间的血缘链路关联,支持离线导入血缘链路管理,前端进行可视化展示
|
||||
- ~~指标管理~~
|
||||
- ~~维表管理: 支持mysql/postgresql作为维表数据库~~
|
||||
- sql查询引擎:
|
||||
- 支持ck hive,impala,presto,druid等统一查询引擎
|
||||
- ~~支持多任务,查询记录,统一sql解析拦截,异步查询,提供标准sql查询基础类~~
|
||||
- 数据ETL:
|
||||
- ~~提供标准 任务编排,任务管理模块,任务实例,任务成功率~~
|
||||
- 支持airflow,ds,az调度器
|
||||
- 推送:
|
||||
- 封装推送功能模块:支持邮件,企业微信,钉钉等推送方式
|
||||
- 支持文本,图片,html等推送模式
|
||||
|
||||
主要涉及前后端的开发,平台架构,新功能设计。比如数据管理的集成(数据标注),平台公有化/私有化saas版,数据闭环(离线/实时训练闭环)
|
||||
AI平台:
|
||||
|
||||
- notebook:
|
||||
- ~~支持基础vscode/jupyter开发环境,支持ssh等功能~~
|
||||
- ~~大数据版本,数据挖掘版本,深度学习版本,~~
|
||||
- 添加使用示例,比如sparksql/impala/presto/clickhouse/mysql/postgresql等分析建模示例
|
||||
- 添加flink实时分析示例
|
||||
- 添加百G大数据单机数据分析能力Arrow、vaex、duckdb等数据分析能力
|
||||
- 镜像仓库管理:
|
||||
- ~~仓库管理~~
|
||||
- ~~镜像管理~~
|
||||
- ~~镜像调试~~
|
||||
- 任务模板:
|
||||
- 添加数据处理模板(导入导出,sqoop,spark等任务类型)
|
||||
- 添加特征处理模板(归一化,转换,...)
|
||||
- 添加模型处理模板(模型压缩,模型转换..)
|
||||
- ~~添加分布式训练模板~~
|
||||
- ~~任务流编排~~
|
||||
- 任务流调试
|
||||
- 去除对kubernetes dashboard的依赖,提供服务支持pod,搜索,日志的查看,删除,执行命令界面
|
||||
- kubeflow-pipeline依赖去除
|
||||
- 支持任务结果可视化
|
||||
- automl
|
||||
- ~~nni超参搜索~~
|
||||
- ray超参搜索
|
||||
- 特征选择
|
||||
- 框架选择
|
||||
- 模型压缩
|
||||
- 特征平台
|
||||
- 数据集
|
||||
- 数据集存储中心
|
||||
- ~~数据集管理,版本管理等~~
|
||||
- sdk中支持数据自动导入
|
||||
- 支持数据集上传
|
||||
- 标注平台,集成label studio,与其他模块数据打通
|
||||
- ~~模型管理~~
|
||||
- 服务管理
|
||||
- ~~内部服务~~
|
||||
- ~~推理服务~~
|
||||
- 添加triton标准镜像
|
||||
- 视频推流sidecar
|
||||
|
||||
# 运营贡献:
|
||||
基础架构能力:
|
||||
|
||||
技能要求:[了解平台架构,了解平台使用,熟悉wiki文档](https://github.com/tencentmusic/cube-studio/wiki)
|
||||
- 分布式存储方案:
|
||||
- 完善juicefs分布式存储方案
|
||||
- 体质sidecar分布式存储挂载,而不是单机挂载
|
||||
- 支持alluxio分布式加速
|
||||
- 添加边缘集群部署脚本
|
||||
- 添加super edge部署cube studio方案
|
||||
- 添加kube edge部署cube studio方案
|
||||
- 私有仓库部署方案:
|
||||
- docker-compose部署harbor方案
|
||||
- k8s部署harbor方案
|
||||
|
||||
web框架:
|
||||
- 支持通用pipeline编排,合并frontend/vison/visonPlus代码
|
||||
- 通用血缘,支持任务流调试界面,去除kfp依赖
|
||||
- 中英文支持
|
||||
- 通用可视化模板
|
||||
|
||||
比如:推广、答疑、运营,在相关知识平台发布文章/视频、交流群的答疑、专业社区的分享,git仓库的文案管理,wiki文档等
|
||||
# AIHub应用市场
|
||||
|
||||
# 汇总社区需求
|
||||
sdk
|
||||
|
||||
aihub:
|
||||
- 前后端
|
||||
- 适配pc端/手机端)
|
||||
- 登录,
|
||||
- 微信打开限制,
|
||||
- 广告sdk,
|
||||
- 功能弹窗,
|
||||
- 大视频文件在线播放,
|
||||
- 支持视频流,
|
||||
- 分享到朋友圈,
|
||||
- 访问统计,
|
||||
- 热度排行,
|
||||
- 智能推荐
|
||||
|
||||
- 大数据功能(jupyter形式):
|
||||
- hadoop基础客户端能力环境,sqoop,hbase,hdfs
|
||||
- 查询能力:sparksql查询 impala查询,presto查询,clickhouse查询,mysql查询,postgresql查询,
|
||||
- 分析能力:flink实时,numpy、pandas、百G大数据单机数据分析能力Arrow、vaex、dask等
|
||||
- 可视化的能力
|
||||
- pip包
|
||||
- ~~标准化镜像构建标准~~
|
||||
- ~~支持生成web服务,微信端服务~~
|
||||
- 支持转训练,注册为job 模板
|
||||
- 支持转推理api,批处理,弹性离线推理
|
||||
- 支持数据数据集上传和自动加载,与数据集平台对接,外部数据集转内部数据集
|
||||
|
||||
- 传统机器学习(jupyter形式):
|
||||
- 基础技能:pandas,matplotlib,pyecharts,
|
||||
- 关联挖掘:关联分析(Apriori、FP-growth)
|
||||
- 分类:决策树(ID3、C4.5、CART)、K最近邻算法(KNN)、kd树、极大似然估计、EM算法、文档分类器,朴素贝叶斯分类器,费舍尔分类器、线性函数、线性回归、正则化、逻辑分类/逻辑回归/一般线性回归、支持向量机SVM、核方法、集成学习(Bagging、Boosting、RF、AdaBoost、GBDT、xgboost)、GBDT算法、XGBOOST算法、CTR/CVR中的FM、FFM算法、LightGBM算法
|
||||
- 聚类:层次聚类、BIRCH聚类、k均值聚类、k中心点聚类、DBSCAN密度聚类
|
||||
- 图论:最小生成树(MST)的Prim算法和Kruskal算法
|
||||
- 搜索引擎:
|
||||
算法模型
|
||||
|
||||
- 传统机器学习(jupyter形式):
|
||||
- ~~基础技能:pandas,matplotlib,pyecharts,~~
|
||||
- ~~关联挖掘:关联分析(Apriori、FP-growth)~~
|
||||
- ~~分类:决策树(ID3、C4.5、CART)、K最近邻算法(KNN)、kd树、极大似然估计、EM算法、文档分类器,朴素贝叶斯分类器,费舍尔分类器、线性函数、线性回归、正则化、逻辑分类/逻辑回归/一般线性回归、支持向量机SVM、核方法、集成学习(Bagging、Boosting、RF、AdaBoost、GBDT、xgboost)、GBDT算法、XGBOOST算法、CTR/CVR中的FM、FFM算法、LightGBM算法~~
|
||||
- ~~聚类:层次聚类、BIRCH聚类、k均值聚类、k中心点聚类、DBSCAN密度聚类~~
|
||||
- ~~图论:最小生成树(MST)的Prim算法和Kruskal算法~~
|
||||
- 搜索引擎:
|
||||
|
||||
- 深度学习模型:
|
||||
- 机器视觉
|
||||
- ~~deoldify~~
|
||||
- ~~humanseg~~
|
||||
- ~~stable-diffusion~~
|
||||
- ~~stable-diffusion 9国语言版本~~
|
||||
- ~~stable-diffusion 动漫版本~~
|
||||
- ~~yolov3~~
|
||||
- ~~yolov5~~
|
||||
- ~~animegan~~
|
||||
- ~~panoptic~~
|
||||
- mnist
|
||||
- ~~ddddocr~~
|
||||
- ~~gfpgan~~
|
||||
- ~~paddleocr~~
|
||||
- ~~speaker-diarization~~
|
||||
- paddledetection
|
||||
- parlai
|
||||
- pix2pix
|
||||
- vehicle
|
||||
- 其他都可以加
|
||||
- 其他都可以加
|
||||
- 其他都可以加
|
||||
|
||||
- 听觉
|
||||
- wenet
|
||||
- ~~paddlespeech-asr~~
|
||||
- ~~paddlespeech-tts~~
|
||||
- ~~paddlespeech-cls~~
|
||||
- 其他都可以加
|
||||
- 其他都可以加
|
||||
- 其他都可以加
|
||||
-
|
||||
- 自然语言
|
||||
- ner
|
||||
- opus-mt-en-zh
|
||||
- opus-mt-zh-en
|
||||
- whisper-large
|
||||
- wav2vec2-large-xlsr-53-chinese-zh-cn
|
||||
- lang-id-voxlingua107-ecapa
|
||||
|
||||
- 视觉:yolo相关模型、darknet相关模型、PaddleSeg 图像分割,orc相关模型,等训练和推理支持
|
||||
# 社区运营:
|
||||
|
||||
- 语音:wenet语音识别的训练和推理支持。
|
||||
|
||||
- 推荐:bin算法,deepfm,ple等算法的训练和推理服务支持
|
||||
|
||||
- 文本: bert框架模型的训练和推理支持
|
||||
|
||||
平台:
|
||||
|
||||
- 去除对kubernetes dashboard的依赖,提供服务支持pod,搜索,日志的查看,删除,执行命令界面。
|
||||
|
||||
- jupyter支持链接spark,支持spark任务模板
|
||||
|
||||
- 特征平台,标注系统的支持
|
||||
|
||||
- 数据ETL pipeline对接开源调度平台airflow/azkaban/argo等
|
||||
|
||||
- kubeflow-pipeline依赖去除
|
||||
|
||||
- ceph或其他分布式存储部署方式的开源支持
|
||||
|
||||
- 边缘集群k8s部署方式的支持 KubeEdge/k3s等部署边缘k8s
|
||||
|
||||
- 兼容现有的报警功能,以及三方应用的登录功能
|
||||
|
||||
- kaldi的示例,和测试代码
|
||||
|
||||
- sqllab和多磨查询引擎
|
||||
- 组织线下活动,比如社区例会,定期下线见面会
|
||||
- 撰写或更新文档,完善github wiki文档,公众号文章,跟踪大厂使用case
|
||||
- 知识社区的运营,比如知乎,csdn,B站等,发布帮助视频
|
||||
- 帮助新用户,群内答疑
|
||||
- 发展社区大使,推广社区
|
||||
|
||||
|
Loading…
Reference in New Issue
Block a user