cube-studio/CONTRIBUTING.md
2022-09-13 10:16:30 +08:00

3.9 KiB
Raw Blame History

image

第一阶段发展目标:

1、算法传统机器学习、视觉、文本、语音、搜广推、金融 开源 算法的集成,能更方便的体验使用开源算法。包括算法任务模板(job-template),算法全自动建模流程(pipeline),算法推理服务(service)。

  • 1.1、notebook集成pandas、matplotlib、pyecharts、xx

2、平台开发数据管理的集成(数据标注/特征平台),平台公有化/私有化saas版数据闭环(离线/实时训练闭环)

2、推广、答疑、运营在相关知识平台发布文章/视频、交流群的答疑、专业社区的分享git仓库的文案管理wiki文档等

第二阶段发展目标

1、平台本身算法模板pipeline等商业化。通过边缘计算区块链技术 将算法/数据 价值商业化。

算法贡献:

技能要求:了解模板开发流程,了解平台使用

视觉、文本、语音、搜广推、金融等开源算法的集成,能让使用者更方便的体验使用开源算法。包括算法任务模板(job-template),算法全自动建模流程(pipeline),算法推理服务(service)

平台开发贡献:

技能要求:了解平台架构,了解平台代码

主要涉及前后端的开发,平台架构,新功能设计。比如数据管理的集成(数据标注),平台公有化/私有化saas版数据闭环(离线/实时训练闭环)

运营贡献:

技能要求:了解平台架构了解平台使用熟悉wiki文档

比如:推广、答疑、运营,在相关知识平台发布文章/视频、交流群的答疑、专业社区的分享git仓库的文案管理wiki文档等

汇总社区需求

aihub

  • 大数据功能(jupyter形式):

    • hadoop基础客户端能力环境sqoophbasehdfs
    • 查询能力sparksql查询 impala查询presto查询clickhouse查询mysql查询postgresql查询
    • 分析能力flink实时numpy、pandas、百G大数据单机数据分析能力Arrow、vaex、dask等
    • 可视化的能力
  • 传统机器学习jupyter形式

    • 基础技能pandasmatplotlibpyecharts
    • 关联挖掘关联分析Apriori、FP-growth
    • 分类决策树ID3、C4.5、CART、K最近邻算法(KNN)、kd树、极大似然估计、EM算法、文档分类器朴素贝叶斯分类器费舍尔分类器、线性函数、线性回归、正则化、逻辑分类/逻辑回归/一般线性回归、支持向量机SVM、核方法、集成学习Bagging、Boosting、RF、AdaBoost、GBDT、xgboost、GBDT算法、XGBOOST算法、CTR/CVR中的FM、FFM算法、LightGBM算法
    • 聚类层次聚类、BIRCH聚类、k均值聚类、k中心点聚类、DBSCAN密度聚类
    • 图论最小生成树MST的Prim算法和Kruskal算法
    • 搜索引擎:
  • 视觉yolo相关模型、darknet相关模型、PaddleSeg 图像分割orc相关模型等训练和推理支持

  • 语音wenet语音识别的训练和推理支持。

  • 推荐bin算法deepfmple等算法的训练和推理服务支持

  • 文本: bert框架模型的训练和推理支持

平台:

  • 去除对kubernetes dashboard的依赖提供服务支持pod搜索日志的查看删除执行命令界面。

  • jupyter支持链接spark支持spark任务模板

  • 特征平台,标注系统的支持

  • 数据ETL pipeline对接开源调度平台airflow/azkaban/argo等

  • kubeflow-pipeline依赖去除

  • ceph或其他分布式存储部署方式的开源支持

  • 边缘集群k8s部署方式的支持 KubeEdge/k3s等部署边缘k8s