电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

Netflix开源神经网络库针对千亿级别维度稀疏数据_光环大数据培训

9页
  • 卖家[上传人]:gua****an
  • 文档编号:49769806
  • 上传时间:2018-08-02
  • 文档格式:DOCX
  • 文档大小:42.73KB
  • / 9 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/NetflixNetflix 开源神经网络库针对千亿级别维度稀疏数据开源神经网络库针对千亿级别维度稀疏数据_ _光环大数据培训光环大数据培训Netflix,中文名“网飞” ,是一家在世界多国提供网络视频点播的公司,不少人是因为热门美剧纸牌屋知道的这家公司。事实上,Netflix 在发展中十分重视技术的应用,尤其是近年来人工智能技术的应用,Netflix 甚至拥有自己的深度学习研究室。本文的作者就是来自 Netflix 深度学习研究室的研究员,将要向我们介绍 Netflix 开源的一款面向稀疏数据的轻量化神经网络库:Vectorflow。介绍过去几年来,随着深度学习库与软件创新成果的蓬勃发展,机器学习问题的研究已经成为令人兴奋的热门议题。大多数库从负责处理大量密集问题的专业计算代码演变而来,其中自然也包括将图像分类为通用框架以构建起能够为稀疏模型提供间隔支持的神经网络模型。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/在

      2、Netflix 公司,我们的机器学习科学家们需要立足广泛领域应对各类复杂问题:从根据您的喜好作出针对性影视作品推荐,到优化编码算法等等。作为实际任务中的一部分,我们需要处理极为稀疏的数据资源尽管每一次观察到的非零项数量非常有限,但待处理问题的总体维度数量却往往会轻松达到数千万级别。在这样的背景之下,我们认为有必要开发出一款专门针对单一设备、多核心环境的轻量库,并针对浅前馈神经网络的训练进行专门优化。我们希望相关成果拥有体积小、易于调整等特点,而 Vectorflow 项目正是由此而生,并成为 Netflix 内部机器学习科学家们常用的重要工具之一。设计考量敏捷性光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/我们希望数据科学家能够以全自治方式轻松运行并迭代其模型。因此,我们决定用 D 语言编写 Vectorflow这是一种现代系统语言,且提供较易接受的学习曲线。凭借着高速编译器与函数编程能力,其可为新人们提供类似于 Python 的使用体验,但同时亦可将性能水平提升几个数量级。另外,经验丰富的开发人员亦能够利用其出色的模板引擎、

      3、编译时功能以及低级功能(例如 C 接口、内联汇编器、手动内存管理以及自动向量化等等) 。Vectorflow 中并不存在任何第三方依赖关系,因此能够显著简化部署流程。其提供的基于回调的 API 能够在训练当中轻松插入定制化损失函数。稀疏感知设计稀疏数据库与浅架构库意味着运行时瓶颈往往体现在 IO 方面:举例来说,与大型密集矩阵上的卷积层不同,其运行每行时所需要的运算量极低。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Vectorflow 能够尽可能避免在正向与反向传递过程中进行任何内存复制或分配 ; 事实上,各个层都会从其父级与子级处引用所需数据。矩阵 - 向量操作拥有稀疏与密集两种实现方式,其中密集型表现为 SIMD 向量化,而 Vectorflow 的出现则为我们带来了处理稀疏输出梯度时进行稀疏反向传递的可行途径。IO 未知如果您进行 IO 绑定,那么根据定义,训练器的运行速度将直接由您 IO 层的速度决定。Vectorflow 立足于底层数据模式采取非常宽松的要求(仅提供包含一条features属性的行迭代器) ,因此

      4、大家能够根据数据源编写出高效数据适配器,从而在无需任何预处理或数据转换步骤的前提下始终使用同一编程语言。如此一来,您能够将代码移动至数据,而非将数据移动至代码。单一设备光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/分布式系统调试难度极高且会带来无法消除的固定成本(例如任务调度) 。而在新型机器学习技术方案当中实现分布式优化则更为困难。考虑到这些因素,我们决定立足单一设备建立高效解决方案,从而在降低建模迭代时间的同时继续保持中小型规模任务(1 亿行级别)的可扩展能力。我们决定使用 Hogwild 的通用异步 SGD 解算器作为免锁定方案,旨在以无通信成本方式将负载分发至各个计算核心当中。只要数据稀疏程度得当,这种方法即适用于大多数线性或者浅网络模型 ; 由于从用户角度来看,一切皆运行于非分布式场景之下,因此能够避免在算法分布层面分散过多精力。应用程序光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/在项目启动后的几个月中,我们陆续观察到多种围绕该库建立的泛用性用例 ; 亦有

      5、不少研究项目及生产系统开始利用 Vectorflow 进行因果推论、生存分析、密度估算或者推荐排名计算。事实上,我们已经在利用 Vectorflow 对 Netflix 主页的部分使用体验进行测试。此外,Vectorflow 亦被纳入到 Netflix 机器学习从业者所使用的基础实例内的默认工具箱中。举例来说,我们立足 Netflix 在营销工作当中遭遇的一项宣传问题对该库的性能水平进行调查。在此案例中,我们需要配合一条生存指数分布对最大似然估算进行加权计算。要实现这贡目标,我们向 Vectorflow 传递出以下定制化回调函数:利用此回调进行训练,我们可以轻松比较三种模型:模型 1:小型稀疏特征组上的线性模型(需要学习约 500 项参数)光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/模型 2:大型稀疏特征组上的线性模型(需要学习 100 万项参数)模型 3:稀疏特征组上的浅层神经网络(需要学习 1000 万项参数) ,训练数据量翻倍此处的数据源为存储于 S3 上的一套 Hive 表,其中的列式数据格式为 Parquet。另外

      6、,我们通过将该数据流引入一个 c4.4xlarge 实例并构建内存内训练集的方式进行直接训练。具体结果如下:这里的压缩与特征编码皆利用单一线程实现,因此这套方案仍有改进的空光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/间 ; 不过从端到端运行时表现来看,并不需要在中等规模稀疏数据集及浅架构场景下使用分布式解决方案。需要注意的是,训练时间与数据稀疏度及行数存在线性关联。线性可扩展性面临的一大阻碍在于,当存在多个异步 SGD 线程访问同一组权重时,CPU 内在结构将创建无效缓存 ; 这意味着如果模型参数访问模式的稀疏度不足(点击此处查看原论文以了解更多信息,英文原文) ,则可能破坏 Hogwild 的理论结果。下一步计划接下来,我们计划在简单的线性、多项式或者前馈架构之外,进一步开发更为专业的层(例如周期性单元)以扩大拓扑支持能力 ; 并在探索新型并行策略的同时,继续维持 Vectorflow 项目的“极简”设计理念。编者注光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/稀疏数据是指,数据框中绝大多数数值缺失或者为零的数据。在现代社会中,随着信息的爆炸式增长,数据量也呈现出爆炸式增长,数据形式也越来越多样化。在数据挖掘领域,常常要面对海量的复杂型数据。其中,稀疏数据这一特殊形式的数据正在越来越为人们所注意。稀疏数据绝对不是无用数据,只不过是信息不完全,通过适当的手段是可以挖掘出大量有用信息的。然而在一些情况下,数据的稀疏程度甚至会达到 95% 以上,这使得传统的统计方法不适于处理此类数据。为什么大家选择为什么大家选择光环大数据光环大数据!大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。【报名方式、详情咨询报名方式、详情咨询】光环大数据官方网站报名:光环大数据官方网站报名:http:/ /mobile/mobile/

      《Netflix开源神经网络库针对千亿级别维度稀疏数据_光环大数据培训》由会员gua****an分享,可在线阅读,更多相关《Netflix开源神经网络库针对千亿级别维度稀疏数据_光环大数据培训》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
    点击查看更多
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.