基于Volcano的大规模分布式离线计算平台的应用实践
14页1、【云驻共创】基于Volcano的大规模分布式离线计算平台的应用实践 【摘要】 在某些高性能工作负载业务场景下,需要使用大规模分布式离线计算。Volcano是在Kubernetes上运行高性能工作负载的容器批量计算引擎。锐天投资基于Volcano的大规模分布式离线计算平台的应用实践,并且深度定制Volcano。一、背景在一些企业业务场景中,需要使用离线集群提供的虚拟机保证策略人员的研究和开发,以及AI训练和非AI训练都会在集群上进行处理。而数据源一方面是线上每天产生大量的数据,另一方面是从第三方数据商获取的大量数据,这些所有的数据都通过一个稳定的ETL流程汇总到分布式存储上。然而,通常情况下数据形式和内容参差不齐,此时就需要进行大规模计算实行数据清洗和数据预处理操作。其中,分布式批处理任务也需要运行在集群上。下文以锐天投资基于Volcano的大规模分布式离线计算平台的应用实践为例,描述Volcano的相关功能及解决方案。二、技术选型(1)Kubernetes作为容器集群管理工具通过Container 隔离用户环境。不同的用户、开发环境和策略各不相同,python/java,环境直接封装在
2、Container 中,方便快捷。1. 通过Device Plugin 支持GPU 等异构设备,无论对于调度,还是对于资源管理,都是有很大的好处。2. ETCD 的中心式数据存储机制。整体管理非常好用,随心所欲地重启,如果备份整个集群,只需要对ETCD中数据进行备份。3. 活跃健全的技术生态和社区内容,新特性频繁发布4. Go 语言符合公司技术栈(2)文件系统使用Ceph提供的分布式文件存储CephFS1. Posix Filesystem 权限与接口。对于普通用户,最佳的文件获取接口就是一个文件管理系统。Posix Filesystem 权限管理让用户将自己的权限无缝迁移到Ceph上面。2. 强一致性。在A节点写入一个文件,B节点可以直接读取,好处:通过数据交互的形式达到信息交互。3. 同时支持大规模小文件存取与大带宽IO。CephFS元数据服务器,可以对多个子目录深度进行负载均衡,满足大规模小文件存取。4. 层级化硬件支持,机械硬盘,SSD,能够在提供稳定性能的同时让容量达到一定量级的唯一方案,让硬件资源得到很好的利用,节省成本。5. Kubernetes ReadWriteMan
3、y PV,所有节点读取同一个原始数据,生成模型数据,必须是ReadWriteMany形式才可以。三、选择Volcano容器管理和存储已经选择完毕,剩下的关键就是资源调度的选择。(1)Why not default-schedulerdefault-scheduler无法满足需求,最重要的是无法满足公平调度,通常多个团队同时使用集群,任务过多时,下一个任务资源应该给谁,这意味着基于队列的公平调度和基于用户的公平调度都是必不可少的。 缺少队列调度 缺少公平调度 缺少多租户支持 缺少高级调度策略,如Gang-Scheduling,浪费资源,浪费是最大的敌人(2)Why not kube-batch下图为kube-batch在Github页面介绍,图中依旧很详细的写出了kube-batch只是一个调度器,不提供调度以外的任何解决方案。我们需要做一个批处理解决方案,而不只是需要一个调度器,那么显然kube-batch是不满足的。(3)Why is VolcanoVolcano是CNCF 下首个也是唯一的基于Kubernetes的容器批量计算平台,主要用于高性能计算场景。它提供了Kubernete
4、s目前缺少的一套机制,这些机制通常是机器学习大数据应用、科学计算、特效渲染等多种高性能工作负载所需的。 支持公平调度 支持丰富的高级调度策略,如Gang-Scheduling、Binpack等 支持通过SSH plugin 方式实现Pod 互访 支持通过ENV plugin 方式向Pod 注入任务依赖,天然支持Tensorflow Worker Sharding 支持SVC plugin 方式对外提供服务基于上述各种架构平台,整个系统服务架构如下图基础设施层是Ceph和Kubernetes,基于 Ceph 提供高性能存储。基于 Kubernetes 管理多种异构硬件,通过Volcano调度整个系统。Loki 和Grafana 用于收集日志,以及同时作为用户面板与监控面板。应用层为Batch Job、Machine Learning、ETL,基于 Batch Job 形式,扩展多种业务场景。中间件可选,Redis提供存储,Kafka提供message信息处理,ClickHouse提供DB相关处理形式。同时中间件还有诸多好处:提供用户更多的接口,实现更多的形式来让用户使用,中间件与应用层混
《基于Volcano的大规模分布式离线计算平台的应用实践》由会员ji****81分享,可在线阅读,更多相关《基于Volcano的大规模分布式离线计算平台的应用实践》请在金锄头文库上搜索。
药物合成优化-绿色环保新工艺
网络安全运营中心的技术和实践
环境教育与公众参与-第2篇分析
五金行业跨境电商与全球化发展
量化交易策略的执行算法优化
食品中营养成分的检测与评价
牛黄清火丸抗过敏性鼻炎作用与信号通路机制
新能源在航空航天领域的机遇
物联网企业信息系统定制开发的智能制造与工业0
纤维素纳米晶增强纺织材料的性能研究
污染物生态风险评估与防控技术
无人船在海洋经济中的应用
智慧城市与专业服务业产业融合发展策略研究
基于光子的量子信息处理研究
奥拉西坦治疗创伤后应激障碍的研究
四元组群表示理论及应用
农业品牌建设与营销策略研究
复杂网络中的结构筛选
高血压并发症健康教育干预效果
中药材仓储国际化与全球化发展
2022-03-24 12页
2022-03-24 11页
2022-03-24 10页
2022-03-24 25页
2022-03-24 13页
2022-03-24 18页
2022-03-24 10页
2022-03-24 32页
2022-03-24 8页
2022-03-24 9页