好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

格力大数据项目工作说明书.doc

16页
  • 卖家[上传人]:新**
  • 文档编号:508984815
  • 上传时间:2023-05-30
  • 文档格式:DOC
  • 文档大小:358.50KB
  • / 16 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 格力大数据项目工作说明书格力大数据项目工作说明书北京西塔网络科技股份有限公司二零一六年一月(SOW)格力大数据项目工作说明书 (SOW)格力大数据项目工作说明书 (SOW)格力大数据项目工作说明书 (SOW)1 项目目标在珠海格力电器股份有限公司的范围内,分期实现格力工业大数据平台项目的数据集成、连接、处理、分析、挖掘等相关功能本期项目包括设计、搭建大数据平台,接入商技一部、商技二部、计算机中心的销售订单等相关数据,实现设备故障诊断、故障预测、产品统计、实时查询、营销支持、智能搜索等功能故障诊断的业务目标:大数据平台处理、分析商用空调运行时采集回传的工况数据,及时、准确定位运行故障并给出大致原因,为维护部门维修空调设备和系统提供信息支撑,降低故障定位的时间、范围和工作量,缩短停机时长并提高客户满意度、忠诚度故障预测的业务目标:大数据平台利用数据挖掘、机器学习技术,通过学习业已存在的设备故障数据、信息,尤其是发生故障的前兆数据,归纳故障发生的特点、规律知识,并利用流计算相关技术及时发现潜在的故障及风险,及时预警,减少停机的次数及停机时长另外发现停机模式、规律可以进一步应用到产品设计、改进过程中。

      产品统计的业务目标:大数据平台利用集成的产品及销售数据进行统计分析,用于分析产品的销售情况,客户情况,销售规律、特点及变化趋势,用于指导产品的个性化设计及产品的推广销售实时查询的业务目标:大数据平台利用 New SQL存储技术存放设备数据,提供特定编号设备、一段时间内工况信息的实时查询功能,用于业务人员分析、判断特定设备在查询时间范围内的工作状态,总结、发现业务规律营销支持的业务目标:第2 页格力大数据项目工作说明书 (SOW)大数据平台利用集成的产品及销售数据进行分析,发现其中先后、重复购买及交叉购买情况和规律,提醒、推荐客户购买特定的产品和服务,提高产品和服务的销量智能搜索的业务目标:大数据平台提供通过语音输入完成产品及销售数据的查询、统计及分析的功能2 建设及服务内容以下所有内容基于 1 月 19 日版本的需求文档 详见《格力大数据需求说明 1.0 》文档,建设内容为基于 Hadoop生态系统构建大数据平台,内容包括商用空调、家用空调、销售等历史数据的入库, ETL处理,数据仓库、离线计算、内存计算、实时计算、即席查询、可视化展示等内容具体内容如下:2.1 需求调研及数据标准化包括功能商技一部、商技二部、销售、审计部门的需求调研、数据调研以及数据标准化。

      2.2 大数据基础平台搭建基于 Hadoop 搭建大数据平台,包括 HDFS 、 MapReduce 、 HBase、 Hive 、Spark ,MySql 集群使用 HDFS存储原始数据,供离线分析挖掘;使用 Spark/MapReduce 执行离线任务;使用 HBase做实时查询;使用 Hive/Spark SQL 做数据仓库;使用 MySql 集群存储分析结果书,供上层应用查询2.3 数据采集大数据采集包括非结构化数据、结构化数据的采集,非结构化数据采用 FlumeNG采集, Oracle/SQLServer/MySQL 关系数据库中的结构化数据采用 Sqoop 收集此外还有实时流数据采用分布式消息队列采集第3 页MPP数据库进行统计分析格力大数据项目工作说明书 (SOW)Flume 收集非结构化数据, Flume 是一个高可用的,高可靠的,分布式的海量数据采集、聚合和传输的系统, Flume 支持定制各类数据发送方, 用于收集数据; 同时, Flume 提供对数据进行简单处理,并写入到 HDFS中Sqoop 收集结构化数据, Sqoop(发音: skup) ,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql 、postgresql...) 间进行数据的传递, 可以将一个关系型数据库 (例如 : MySQL,Oracle ,Postgres 等)中的数据导进到 Hadoop的 HDFS中,也可以将HDFS的数据导进到关系型数据库中。

      Sqoop,类似于其他 ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到 Hadoop时确保类型安全的数据处理 Sqoop 专为大数据批量传输设计,能够分割数据集并创建 Hadoop任务来处理每个区块实时数据处理,通过采集层数据通过消息队列组件 Kafka 接入到 SparkStreaming 里, Spark Streaming 实时处理后把结果存到 Hbase 或 Mysql 等关系数据库中供用户查询2.4 分层存储设计通过将给定文件、数据集或应用程序的必需数据特征对数据进行分层存储设计,满足不同的应用场景提供数据利用率与使用效率将常用数据存储在高速设备上,而不太常用的数据存储在低速设备上在宏观上,数据可以在不同的设备之间进行数据复制迁移,分层保存2.5 数据加工处理对数据进行分析和加工包括对各种原始数据的分析、整理、计算、编辑等的加工和处理经过加工清洗后的数据根据不同的数据类型,选择不同数据存储方式,可以存入 HDFS供离线挖掘,或者存储到实时性高的2.6 数据分析挖掘大数据分析系统以机器学习、 数据挖掘等作为核心技术, 构建于大数据管理系统和云计算平台之上其中,大数据管理系统提供数据的存储与查询功能,云计算平台提供分布式并行计算服务。

      通过分布式计算与统计分析服务器访问大数据系统,实现 KPI 与报表统计分析服务采用 Spark MLlib 做为数据挖掘和机器学习框架, MLlib 是 Spark 的标准机器学习框架 ,MLlib 相对于其他机器学习库包具有更加优异的性能或者更容易入门第4 页格力大数据项目工作说明书 (SOW)MLlib 机器学习库具有完整的机器学习框架和各类别机器学习算法, 满足各种场合的需求 Mllib 随着 Spark 版本一起发布和应用本系统采用 MLlib 构建在 Hadoop之上对大数据进行挖掘处理,实现故障诊断、故障预测、配件库存优化等深度挖掘2.7 内存数据库内存数据库是将全部数据驻留内存的分析型数据库系统, 采用内存计算技术, 从根本上解决了数据仓库由于磁盘 I/O 导致的性能瓶颈问题,具有性能高、成本低、灵活、可扩展等众多优良特性,尤其适合做为大数据的计算引擎、分析引擎使用把热点数据加载到内存数据库中,提供交互式探查分析、智能查询分析等功能2.8 交互式探查分析基于内存数据库快速查询,使用明细数据,免去清洗、聚合过程,更快速地分析和揭露数据中蕴含的问题 , 直接由业务人员使用, 免去提需求、澄清、确认沟通环节,快速实现分析意图,提高了发现和解决问题的效率使用时可由全部数据快速过滤出关注的部分数据进行分析;关注数据的特征可进一步由明细数据刻画、佐证;可按需保存分析场景、导出明细数据付诸解决。

      优异的用户体验, 以客户体验为中心设计, 侧重易理解(业务视角, 选择、过滤、分析)、易用(平铺、图形操作)、去除干扰(功能隐藏)、快速响应(内存计算)、增加趣味性(改分档数)2.9 数据可视化应用提供通过实时查询、产品统计功能,不做个性化推送2.10 语音智能分析大数据平台提供语言智能分析,通过录入语言,将语言转换为文本,并对文本进行分词和语义分析,提交到大数据平台完成产品产品及销售数据的查询、统计及分析的功能2.11 文本、视频、图片存储大数据平台增加文本、音视频、图片等非结构化数据的存储2.12 大数据平台运维监控第5 页格力大数据项目工作说明书 (SOW)提供格力大数据平台管理、运维工具及说明,包括服务器和运维系统都正常运行,运维系统可以对集群所有物理机进行性能监控,包括但不限于以下指标:CPU使用率、内存使用率、硬盘利用率、网络流量、 IO 负载、系统负载均值、ETL监控、数据质量监控、等服务器性能指标进行监控运维要考虑大数据平台的可扩展性,支持:1、 添加节点2、 服务扩展3、 组件的升级4、 异常处理: 挂了的节点如何恢复,记录日志方便追踪2.13 大数据平台任务调度任务调度系统能够对各类任务进行配置、启动、跟踪。

      同时,应并具备任务联动能力,即可以将多个任务通过流程组装成一个联合任务,各任务之间存在相互制约关系,任务调度管理能够根据各任务的执行状态、结果来自动的启动后续任务,任务间允许并发及串行两种模式要求各任务的配置应当为可视化的配置对于任务启动至少包括定时启动和条件启动两种模式同时允许管理员进行任务的手动执行任务执行可设定优先级, 比如按销售 > 技术 > 质量 > 售后 (销售量大的 > 销售量小的 > 生产 >检验来设定2.14 ETL过程可视化ETL尽量满足可配置性及可视化操作,如果甲方购买了第三方 ETL可视化工具如 kettle 、Dataflow 、 Syncsoft 等工具,乙方应支持甲方做集成工作2.15 培训工作从格力大数据平台未来的使用及运行来看,北京西塔提供的培训将达到如下的目标:? 完成知识的转移承建单位开发完成一个软件系统后,将通过培训工作实现知识的转移,不仅包括软件系统的使用方法,同样还包括业务理念、系统运行维护方法、技术开发方法等满足系统未来业务拓展需要的各项技能与方法第6 页格力大数据项目工作说明书 (SOW)? 实现全员的应用应用系统的建设目标即要建设一个全员参与使用的系统,因此培训的目标之一,也是要使业务人员均可以熟练使用该系统,增强业务人员的知识储备,提高整个使用应用系统的业务人员素质。

      保障系统的安全运行对格力大数据平台的技术管理人员进行技术培训,使其能掌握有关软件产品及系统的使用、维护、管理,达到能独立进行管理、故障处理、日常测试维护、个性化应用开发等工作目的,以保障北京西塔所提供的应用系统能够正常、安全地运行通过以上。

      点击阅读更多内容
      相关文档
      Unit 5 语法点:have got has got 在第三人称 It上的应用与否定形式 hasn't got.docx (三年级英语上册)Unit 7 配套听力材料(根据对话判断衣服、颜色和价格)原文与答案解析.docx 英语小作文“My Day”写作模板与高分范文(从早到晚时间线清晰).docx Unit 6 常见易错题分析:at night vs in the morning afternoon evening 介词搭配辨析.docx (三年级英语上册)Unit 8 “班级能力调查”活动表格与任务(用Can you...采访同学并做报告).docx Unit 6 “My day” 主题知识思维导图(整合时间、活动、句型).docx 《拒绝校园欺凌 珍惜同学情谊》主题班会教案.docx 语文四年级上册教案《爬山虎的脚》教案及反思.docx 语文七年级下册教案教案及反思.docx 语文一年级教案教案及反思.docx 苏教版三年级上册语文教案教案及反思.docx 语文二年级下册的教案教案及反思.docx 语文五年级上册教案教案及反思.docx 语文三年级教案教案及反思.docx (爆款潜力)如何写一篇“My Family”的英语小作文?范文与模板.docx 不同国家小学生的“一天”作息对比(中西文化差异).docx (三年级英语上册)英语小作文“My Favourite Clothes”“A Shopping Trip”写作模板与范文.docx Unit 5 配套听力材料(描述宠物特征)原文与答案解析.docx Unit 5 “Our pets” 主题知识思维导图(一图囊括所有单词、句型、语法).docx (三年级英语上册)Unit 8 课堂教学PPT框架与“你说我做”(Simon says)课堂游戏指令集.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.