
电视用户大数据分析报告.docx
6页电视用户大数据分析报告 电视用户数据分析文档修改记录目录1 总体描述 (4)1.1 建设目标 (4)1.2 整体架构 (4)2 功能实现 (6)2.1 数据采集模块 (6)2.1.1 数据收集 (6)2.1.2 数据处理 (6)2.2 数据分析 (7)2.3 数据可视化 (8)2.4 系统管理 (9)3 初步方案 (10)3.1 C平台接口日志分析 (10)3.2 流水文件分析 (11)4 技术实现 (11)1总体描述1.1建设目标互联网电视是建立在通信网络上的互动性视频服务,可以非常灵活地实现电子菜单、节目预约、实时快进、快退等操作通过对OTT用户的实时数据收集,统计分析,建设实时数据分析系统,对OTT的EPG界面设计、容运营有着重要意义系统在通过对OTT业务运营平台数据收集的基础上,实时(定期)获取用户行为数据,结合业务运营平台数据日志、用户端APK上报日志等数据,通过大数据处理平台(如Hadoop),对OTT的各纬度指标进行统计分析,并提供用户自定义分析功能,进行数据展示,为EPG的界面设计和运营建设提供决策依据1.2整体架构负责整个互联网电视运营中心平台或者分平台系统的原始基础数据的获取,包括2部分容:(1)平台日志:结合运营平台的日志管理模块,实现获取并接收用户的行为数据;(2)APK日志上报。
提供数据接口,且支持FTP等传输导入数据抓取用于接入存储数据,目前分为三部分:(1)C平台各业务系统通过AOP方式将各接口调用情况输出标准日志,由FLUME进行抓取;再通过KAFKA将数据输送到STORM 中;STORM 将元数据直接存放到HDFS中2)各业务系统的错误日志转换为json后直接存放到ES中,方便查找3)将流水文件(需转换为csv格式)和流水日志(导出txt格式)通过文档上传系统上传到HDFS中,文件所在的文件夹以当天日期命名(减少需处理的文件数量,提高效率)●数据分析基于hadoop大数据处理技术,将数据收集获取到的基础数据,进行数据预处理、数据统计计算,包括数据排重、数据清洗、结果展示指标计算等,并将原始数据、结果表数据进行存储和备份根据多维度的数据展示需求,设计结果表数据,并对其进行实时统计计算,并将结果数据,推送给前端展示平台另外还提供用户自定分析功能,用于对原始数据和结果表数据的自定义查询和分析功能,便于非数据分析人员对系统进行二次分析数据分析用于对指定数据进行切割分解为各个维度,给展示系统提供数据支撑:(1)由STORM 对C平台接口日志进行处理,将处理后的数据存放到ELK中进行展示。
2)由SPARK离线处理HDFS上的流水文件,将处理后的数据保存到mongodb中设定时任务每天零点自动开始SPARK任务,对以前一天日期命名的文件夹下的数据进行处理)●可视化系统(BI)BI系统负责可视化数据分析模块建设,将数据分析的数据,在显示终端进行可视化图形展示BI系统是对分析后结果进行展示,用于图形化展示最终的分析结果:初期是使用ECharts 等图表插件绘制展示图形;后期由项目根据传来的数据和模型自动绘制图形数据挖掘对离线数据进行分析,形成相关模型,并用模型对数据进行计算分析:使用SPARK Mllib (机器学习)训练模型,来完成精准推荐和视频打分等功能●元数据管理与数据质量管理系统元数据管理对接入的数据进行管理,数据质量管理是对云平台上存储数据进行质量控制,保证数据真实可靠2功能实现2.1数据采集模块2.1.1数据收集互联网电视运营大数据分析数据来源于各业务运营平台,数据分为APK上报数据、业务平台后台日志数据1)终端首次开机上电后,主动向运营平台上报认证信息,终端经过认证后才能激活,认证信息包含了终端的基本信息;(2)获取到终端开机、心跳、浏览访问、直播、点播、回看、订购、遥控器按键、停留时间等行为数据;(3)获取到OT终端SN/MAC、软件版本号;(4)获取各终端活跃度信息:首次活跃时间,最后活跃时间,活跃总时长等活跃详情。
5)获取用户搜索影视容关键词信息,包含影视名称、演员名称等6)获取用户点播详情:开始结束时间、点播容、点播时长等7)获取用户订购信息:订购时间、订购金额、退购时间、订购次数、退购次数等2.1.2数据处理(1)将运营平台上报提交的数据进行收集和预处理;(2)用户行为原始数据,经由数据标准化处理,支持对日志合并、数据清洗数据 -全文完-。












