电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

云计算深度学习平台架构与实践的必经之路_光环大数据培训

13页
  • 卖家[上传人]:gua****an
  • 文档编号:52454738
  • 上传时间:2018-08-21
  • 文档格式:DOCX
  • 文档大小:1.26MB
  • / 13 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/云计算深度学习平台架构与实践的必经之路云计算深度学习平台架构与实践的必经之路_ _光环大数据培训光环大数据培训光环大数据培训机构,定义云深度学习平台什么是云深度学习?随着机器学习 的发展,单机运行的机器学习任务存在缺少资源隔离、无法动态伸缩等问题, 因此要用到基于云计算的基础架构服务。云机器学习平台并不是一个全新的概 念,Google、微软、亚马逊等都有相应的服务,这里列举几个比较典型的例子。第一个是 Google Cloud Machine Learning Engine,它底层托管在 Google Cloud 上,上层封装了 Training、Prediction、Model Service 等机器学习应 用的抽象,再上层支持了 Google 官方的 TensorFlow 开源框架。亚马逊也推出了 Amzon machine learning 平台,它基于 AWS 的 Iaas 架构,在 Iaas 上提供两种不同的服务,分别是可以运行 MXNet 等框架的 EC2 虚拟机服务

      2、, 以及各种图象、语音、自然语言处理的 SaaS API。此外,微软提供了 Azure Machine Learning Studio 服务,底层也是基于自己 可伸缩、可拓展的 Microsoft Azure Cloud 服务,上层提供了拖拽式的更易用 的 Studio 工具,再上面支持微软官方的 CNTK 等框架,除此之外微软还有各种 感知服务、图象处理等 SaaS API,这些服务都是跑在 Scalable 的云基础平台 上面。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/相关厂商内容相关厂商内容基于卷积神经网络在手机端实现文档检测 阿里巴巴集团千亿级别店铺系统架构 平台化技术实践 携程第四代架构之软负载 SLB 实践之路 解读百度 PB 级数据 仓库 Palo 开源架构 相关赞助商与 100+国内外技术专家探索 2017 前瞻热点技术以上这些都是业界比较成熟的云深度学习平台,而在真实的企业环境中,我们 为什么还需要实现 Cloud Machine Learning 服务呢?首先国外的基础设施并不一定是国内企业可以直接使用

      3、的,而如果只是本地安 装了 TensorFlow,那也只能在裸机上进行训练,本地默认没有资源隔离,如果 同时跑两个训练任务就需要自己去解决资源冲突的问题。因为没有资源隔离, 所以也做不了资源共享,即使你有多节点的计算集群资源,也需要人工的约定光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/才能保证任务不会冲突,无法充分利用资源共享带来的便利。此外,开源的机器学习框架没有集群级别的编排功能,例如你想用分布式 TensorFlow 时,需要 手动在多台服务器上启动进程,没有自动的 Failover 和 Scaling。因此,很多 企业已经有机器学习的业务,但因为缺少 Cloud Machine Learning 平台,仍会 有部署、管理、集群调度等问题。那么如何实现 Cloud Machine Learning 平台呢?我们对云深度学习服务做了一个分层,第一层是平台层,类似于 Google cloud、Azure、AWS 这样的 IaaS 层,企业内部也可以使用一些开源的方案,如 容器编排工具 Kubernetes 或者虚拟机管理工

      4、具 OpenStack。有了这层之后,我 们还需要支持机器学习相关的功能,例如 Training、Prediction、模型上线、 模型迭代更新等,我们在 Machine Learning Layer 层对这些功能进行抽象,实 现了对应的 API 接口。最上面是模型应用层,就可以基于一些开源的机器学习 类库,如 TensorFlow、MXNet 等。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/整个 Cloud Machine learning 运行在可伸缩的云服务上,包行了模型开发、模 型训练,以及模型服务等功能,形成一个完整的机器学习工作流。但这并不是 一个闭环,我们在实践中发现,线上的机器学习模型是有时效性的,例如新闻 推荐模型就需要及时更新热点新闻的样本特征,这时就需要把闭环打通,把线 上的预测结果加入到线下的训练任务里,然后通过在线学习或者模型升级,实 现完整的机器学习闭环,这些都是单机版的机器学习平台所不能实现的。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http

      5、:/打造云深度学习平台主要包含以下几个组件:首先是客户端访问的 API Service,作为服务提供方,我们需要提供标准的 RESTful API 服务,后端可以 对接一个 Kubernetes 集群、OpenStack 集群、甚至是自研的资源管理系统。客 户端请求到 API 服务后,平台需要解析机器学习任务的参数,通过 Kubernetes 或者 OpenStack 来创建任务,调度到后端真正执行运算的集群资源中。如果是 训练任务,可以通过起一个训练任务的 Container,里面预装了 TensorFlow 或MXNet 运行环境,通过这几层抽象就可以将单机版的 TensorFlow 训练任务提交 到由 Kubernetes 管理的计算集群中运行。在模型训练结束后,系统可以导出模型对应的文件,通过请求云深度学习平台 的 API 服务,最终翻译成 Kubernetes 可以理解的资源配置请求,在集群中启动 TensorFlow Serving 等服务。除此之外,在 Google Cloud-ML 最新的 API 里多 了一个 Prediction 功能,预测时既可以启动在线 Serv

      6、ice,也可以启动离线的 Prediction 的任务,平台只需要创建对应的 Prediction 的容器来做 Inference 和保存预测结果即可 。通过这种简单的封装,就可以实现类似 Google Cloud- ML 的基础架构了。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/架构上进行了分层抽象,实现上也只需要三步。第一步是创建一个 Docker 镜像,下面的 Dockerfile 例子是从 TensorFlow 项目 中截取出来的,官方已经提供了一个可以运行的 Docker 镜像,通过加入定制的 启动脚本就可以实现开发环境、模型训练以及模型服务等功能。第二步是实现一个标准的 API 服务,下面是一个 Python 实现的实例,用户发送 一个启动训练任务的请求,服务端可以解析请求的参数和内容,并将任务提交 到 Kubernetes 等后端集群中。第三步是生成 Kubernetes 所需的文件格式,下面的 JSON 文件大家也可以在 GitHub 中找到,实现了将分布式 TensorFlow 任务提交到 Kubernet

      7、es 集群中运 行。我们通过简单的三个配置就可以完成机器学习任务从本地到云端的迁移过程, 也就是实现了 Cloud Machine Learning 服务。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/前面提到云深度学习平台需要支持资源隔离和资源共享,这是如何实现的呢,其实 Kubernetes 本身就有这个抽象,用户可以在请求时申明需要的 CPU、内存、 甚至是 GPU 资源,通过 cgroups、namespace 等容器技术来实现资源隔离,而 kube-scheduler 实现了资源调度和资源共享等功能。实现自研或者公有云的 Cloud Machine Learning 平台,开发者可以很容易提交训练任务、创建模型服 务等,但在一个真实的机器学习场景中,只解决计算资源的隔离和调度是远远 不够的,我们还需要重新思考如何集成数据处理、特征工程等问题。重新定义云深度学习平台 TensorFlow 是一个可用于深度学习的数值计算库,基 于 TensorFlow 可以实现 MLP、CNN、RNN 等机器学习模型,但有了它是不是就不

      8、 需要 Spark 呢?他们的关系是什么?光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/在生产环境中,我们发现 TensorFlow 并没有完全取代已有的大数据处理工具,我们需要用 Spark 做数据分析和特征工程,还需要数据仓库等服务去存储和查 询结构化数据。TensorFlow 是一个非常优秀的深度学习框架,但在真实场景中 用户还需要一些 PowerGraph 处理的图关系特征作为输入,这都是单独一个框架 无法解决的。对于用户的建模流程如何组织、如何做数据清洗、如何做特征抽 取、如何上线训练好的模型、如何预估模型效果,这些可以使用 Azure ML Studio 工具去完成,而且是 TensorFlow 所缺乏的。前面我们介绍了 Cloud Machine Learning,可以实现一个类似 Google 的分布 式、高可用、带集群编排的计算平台,但这远远不够,因为我们还需要使用大 数据处理的框架,包括 MapReduce、流式处理、图计算等框架。TensorFlow 只 是整个机器学习流程里面做模型训练其中一部分,我们可能还需要 Kubernetes 做 CPU、GPU 的管理和调度。如果我们要完成一个机器学习的业务,就需要同时 掌握 TensorFlow、Spark、Hadoop、Hive、Kubernetes 等框架的原理和应用, 而不只是提供一个 Google Cloud-ML 或者 AWS 服务就够了,这也是我们要重新 定义 Cloud Machine Learning 的原因。前面在客观上我们需要这么多知识,但主观上我们希望有什么呢?我们更希望 有一个从数据处理到模型训练再到模型上线的一个全闭环服务,而不仅仅是机器学习框架或者通用计算平台,我们希望不写代码就可以做特征抽取的工作, 我们希望机器学习的工作流是很容易描述的,而不需要通过编写代码的方式来 实现,我们需要一个很灵活的基础架构可以支持各种异构的计算资源,我们希 望平台是可拓展的可以实现自动 Failover 和 Scalin

      《云计算深度学习平台架构与实践的必经之路_光环大数据培训》由会员gua****an分享,可在线阅读,更多相关《云计算深度学习平台架构与实践的必经之路_光环大数据培训》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
    点击查看更多
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.