
大数据开发项目实战-基于TipDM大数据挖掘建模平台实现广电大数据用户画像.pptx
71页单击此处编辑母版标题样式,单击此处编辑母版文本样,基于,TipDM,大数据挖掘建模平台实现广电大数据用户画像,1,广电大数据用户画像开发,目录,平台简介,2,TipDM,数据挖掘建模平台是由广东泰迪智能科技股份有限公司自主研发、基于,Python,引擎、用于数据分析的开源平台平台提供数量丰富的数据分析组件,用户可在没有编程基础的情况下,通过拖曳的方式进行操作,将数据输入输出、数据预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接,帮助用户快速建立数据分析工程,提升数据处理的效能TipDM,数据挖掘建模平台,平台的界面,平台的界面如下图所示组件:,将建模过程涉及的输入,/,输出、数据探索及预处理、建模、模型评估等算法分别进行封装,每一个封装好的算法模块称为组件工程:,为实现某一数据分析目标,将各组件通过流程化的方式进行连接,整个数据分析流程称为一个工程模板:,分享建好的数据分析工程,其他用户可以直接创建并运行,这样的工程称之为模板概念,平台算法基于,Python,引擎,用于数据分析Python,是目前最为流行的用于数据分析的语言之一,高度契合行业需求平台已对所有用户实现开源,用户可在本地部署平台,或对平台进行二次开发,满足个人使用需求。
用户可在没有,Python,编程基础的情况下,使用直观的拖曳式图形界面构建数据分析流程,无须编程特点,提供公开可用的数据分析示例工程,一键创建,快速运行支持挖掘流程每个节点的结果预览提供十大类数十种算法组件,包括数据预处理、统计分析、分类、聚类、关联、推荐等常用数据分析算法,支持查看算法组件源代码(需本地化部署)同时提供,Python,脚本与,SQL,脚本,快速粘贴代码即可运行提供算法组件自定义功能(需本地化部署),用户可将个人本地编写的代码配置到平台中,成为算法组件特点,下面将对平台,【,模板,】【,数据,空间,】,【我的项目】【系统组件】和【个人组件】,5,个模块进行介绍,并对平台的本地化部署方式进行介绍平台简介,登录平台后,用户即可看到,【,模板,】,模块系统提供的示例工程(模板)模板,【,模板,】,模块主要用于常用数据分析与建模案例的快速创建和展示通过,【,模板,】,模块,用户可以创建一个无须导入数据及配置参数就能够快速运行的工程同时,用户可以将自己搭建的数据分析工程生成为模板,显示在,【,首页,】,模块,供其他用户一键创建首页,【,数据空间,】,模块主要用于数据分析工程的数据导入与管理,根据情况用户可选择,【CSV,文件,】,或者,【SQL,数据库,】,。
CSV,文件,】,支持从本地导入,CSV,类型的数据数据空间,【SQL,数据库,】,支持从,DB2,、,SQL Server,、,MySQL,、,Oracle,、,PostgreSQL,等关系型数据库导入数据数据空间,数据上传成功后,用户可以使用数据分享功能,,将搭建工程涉及到的数据分享给其他用户,数据源,其他用户可在,【,共享数据源,】,选项卡内查看到分享给自己的数据,并使用该数据进行数据分析数据空间,【,我的项目,】,模块主要用于数据分析流程化的创建与管理,通过,【,我的项目,】,模块,用户可以创建空白工程,进行数据分析工程的配置,将数据输入输出、数据预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接,达到数据分析的目的我的项目,【,系统组件,】,模块主要用于数据分析常用算法组件的管理,,提供,Python,、,R,、,Spark,算法包,系统组件,Python,算法包提供,11,类算法,具体如下统计分析】类包括因子分析、全表统计、正态性检验、相关性分析、卡方检验、主成分分析、纯随机性检验和平稳性检验等,数据预处理】类包括数据标准化、缺失值处理、表堆叠、数据筛选、类型转换、修改列名、特征构造、数据集划分、主键合并、数据离散化、排序、频数统计、记录去重和分组聚合等,。
脚本】类包括,Python,脚本和,SQL,脚本等,分类】类包括朴素贝叶斯、支持向量机、,CART,分类树、逻辑回归、多层感知神经网络和最近邻分类等,系统组件,【,聚类,】,类包括层次聚类、,DBSCAN,密度聚类和,K,均值聚类等回归,】,类包括,CART,回归树、线性回归、支持向量回归和最近邻回归等时间序列,】,类包括,ARIMA,模型等关联规则,】,类包括,Apriori,关联规则和,FP-Growth,关联规则等文本挖掘,】,类包括去除字符、分词与词性标注、,TF-IDF,(词向量化)、,Hash Trick,、,word2vec,(词向量化)、,doc2vec,(词向量化)、,TF-IDF,(关键词提取)、,word2vec,(关键词提取)、,doc2vec,(关键词提取)和主成分分析等系统组件,【,深度学习,】,类包括,LeNet-5,、,AlexNet,、,VGG-16,、,LSTM,和,GRU,等画图,】,类包括柱状图、折线图、散点图、饼图和词云图等系统组件,Spark,算法包提供,7,类算法,,具体如下数据预处理,】,类包括记录去重、记录选择、数据映射、数据反映射、数据划分、,SQL,脚本、缺失值处理、数据标准化、特征构造、表连接、表堆叠、独热编码和数据离散化等。
统计分析,】,类包括行列数目统计、频数统计、全表统计、相关性分析、卡方检验和主成分分析等分类,】,类包括逻辑回归、决策树分类、梯度提升树分类、朴素贝叶斯分类、随机森林分类、线性支持向量机和多层感知神经网络等系统组件,【,深度学习,】,类包括,LeNet-5,、,AlexNet,、,VGG-16,、,LSTM,和,GRU,等画图,】,类包括柱状图、折线图、散点图、饼图和词云图等系统组件,R,语言算法包提供,8,类算法,,具体如下统计分析,】,类包括卡方检验、因子分析、主成分分析、相关分析、正态性检验、全表统计、平稳性检验和纯随机性检验等数据预处理,】,类包括缺失值处理、异常值处理、表堆叠、主键合并、数据标准化、记录去重、数据离散化、排序、数据集划分、频数统计、新增序列、字符串拆分、字符串拼接、分组、修改类型、修改列名、特征构造、,SQL,脚本和,R,脚本等分类,】,类包括朴素贝叶斯、,CART,分类树、,C4.5,分类树、反向传播(,Back Propagation,,,BP,),BP,神经网络、最近邻分类、支持向量机和逻辑回归等系统组件,【,聚类,】,类包括,K,均值聚类、,DBSCAN,密度聚类和系统聚类等。
回归,】,类包括,CART,回归树、,C4.5,回归树、线性回归、岭回归和最近邻回归等时间序列,】,类包括,ARIMA,模型、,GM(1,1),灰度预测和指数平滑等关联规则,】,类包括,Apriori,关联规则等文本挖掘,】,类包括,Jieba,分词、去除停用词、余弦相似度、情感词定位、情感方向修正和,LDA,主题模型等系统组件,【,个人组件,】,模块主要为了满足用户的个性化需求而设置用户在使用过程中,可根据自己的需求定制算法,以便使用目前,,【,个人组件,】,支持通过,Python,和,R,语言进行定制,如下图个人组件,搜索公众号“泰迪学社”或“,Tip Data Mining,”关注公众号关注公众号后,回复“建模平台”,获取,TipDM,大数据挖掘建模平台的访问方式访问,TipDM,大数据挖掘建模平台的方式,1,广电大数据用户画像开发,目录,平台简介,2,在,TipDM,大数据挖掘建模平台上配置广电大数据用户画像项目,主要包括以下,4,个步骤将广电公司的数据导入,TipDM,大数据挖掘建模平台考虑到广电数据的数据量占用的计算资源较多且计算时间长,因此平台所使用的数据是实验数据,即从广电公司提供的,5,份业务数据表中分别抽取出部分数据。
对数据进行探索性分析对数据进行数据去重和数据筛选等操作利用,SVM,算法建立分类模型,预测用户是否值得挽留,并实现用户挽留标签计算广电大数据用户画像开发,数据探索总流程如下图广电大数据用户画像开发,数据处理总流程如,下,图广电大数据用户画像开发,用户画像总流程如,下,图广电大数据用户画像开发,以账单信息表,mmconsume_billevents.csv,为例,使用,TipDM,大数据挖掘建模平台演示导入,CSV,文件,具体步骤如下单击【数据空间】模块,在【我的数据集】选项卡中,单击【,新增数据集】按钮,如,下图数据源配置,设置新增数据集,的参数,如,下图等待合并成功后,单击【确定】按钮,即可上传文件数据源配置,数据上传完成后,新建一个名称为,【,广电大数据用户数据探索,】,的空白工程,配置,【,输入源,】,组件,具体步骤如下在,【,工程,】,中,【,组件,】,栏中找到,【,系统组件,】【,内置组件,】【,输入,/,输出,】,类拖曳,【,输入,/,输出,】【,输入源,】,组件到工程画布中单击画布中的【输入源】组件,在工程画布右侧【参数配置】栏的【数据集】文本框中输入“,mmconsume_billevents,”,在弹出的下拉列表中选择【,mmconsume_billevents,】选项,如,下图。
数据源配置,右键单击【输入源】组件,选择【重命名】选项,输入“账单信息表”,,如,下图数据源配置,单击画布中的,【,账单信息表,】,组件,在工程画布右侧的,【,参数配置,】,栏中,单击,【,文件列表,】,选项组中的 眼睛图标,查看数据集明细,,如,下图数据源配置,对账单信息表进行基本的探索分析,查看数据中的记录数、字段数、缺失值个数以及重复值个数,具体步骤如下,拖曳【大数据组件】【行列统计】组件到工程画布中,并与【账单信息表】组件相连接数据探索,1,数据总体探索,单击画布中的,【,行列统计,】,组件,在画布右侧的,【,字段设置,】,栏中,单击,【,特征,】,选项组中的循环图标,选中全部字段,如下图,数据探索,右键单击【行列统计】组件,选择【运行该节点】选项运行完成后,右键单击【行列统计】组件,选择【查看数据】选项,查看【行列统计】组件数据,,如下图,数据探索,由于广电用户主要来自家庭用户,需要探索账单信息表中是否存在政企用户及其存在的数量,具体步骤如下,拖曳,【,大数据组件,】【,预处理,】【,分组聚合,】,组件到工程画布中,并与,【,账单信息表,】,组件相连接单击,【,特征,】,选项组中的 图标,选中全部字段。
单击,【,分组主键,】,选项组中的循环图标,选中“,owner_name,”字段数据探索,2,异常数据探索,右键单击【分组聚合】组件,选择【重命名】选项,输入“政企用户数据探索”单击画布中的【政企用户数据探索】组件,在工程画布右侧的【字段设置】栏中,在【聚合函数】下拉列表框中选择【,count,】选项,,如下图,数据探索,右键单击【政企用户数据探索】组件,选择【运行该节点】选项运行完成后,右键单击【政企用户数据探索】组件,选择【查看数据】选项,查看【政企用户数据探索】组件数据,,如下图,数据探索,通过数据总体探索发现,账单信息表中存在重复记录数,需要对数据进行去重操作,,具体步骤如下,拖曳,【,大数据组件,】【,预处理,】【,数据去重,】,组件到工程画布中,并与,【,账单信息表,】,组件相连接数据处理,1,数据去重,在画布右侧的,【,字段设置,】,栏中,单击,【,特征,】,选项组中的 图标,选中全部字段;单击,【,去重主键,】,选项组中的 图标,选中全部字段,如下图右键单击【数据去重】组件,选择【运行该节点】选项,以运行该组件,数据处理,通过异常数据探索发现,数据中存在异常数据,需要删除,owner_name,。
