
大数据分析报告与可视化.doc
28页数据分析与可视化1. 什么是数据分析?数据分析是基于商业目的,有目的的进行收集、整顿、加工和分析数据,提炼有价信息的一种过程其过程概括起来重要涉及:明确分析目的与框架、数据收集、数据解决、数据分析、数据呈现和撰写报告等6个阶段1、 明确分析目的与框架一种分析项目,你的数据对象是谁?商业目的是什么?要解决什么业务问题?数据分析师对这些都要了然于心基于商业的理解,整顿分析框架和分析思路例如,减少新客户的流失、优化活动效果、提高客户响应率等等不同的项目对数据的规定,使用的分析手段也是不同样的2、数据收集数据收集是按照拟定的数据分析和框架内容,有目的的收集、整合有关数据的一种过程,它是数据分析的一种基本3、 数据解决数据解决是指对收集到的数据进行加工、整顿,以便开展数据分析,它是数据分析前必不可少的阶段这个过程是数据分析整个过程中最占据时间的,也在一定限度上取决于数据仓库的搭建和数据质量的保证数据解决重要涉及数据清洗、数据转化等解决措施4、数据分析数据分析是指通过度析手段、措施和技巧对准备好的数据进行摸索、分析,从中发现因果关系、内部联系和业务规律,为商业目提供决策参照到了这个阶段,要能驾驭数据、开展数据分析,就要波及到工具和措施的使用。
其一要熟悉常规数据分析措施,最基本的要理解例如方差、回归、因子、聚类、分类、时间序列等多元和数据分析措施的原理、使用范畴、优缺陷和成果的解释;其二是熟悉1+1种数据分析工具,Excel是最常用,一般的数据分析我们可以通过Excel完毕,后而要熟悉一种专业的分析软件,如数据分析工具SPSS/SAS/R/Matlab等,便于进行某些专业的记录分析、数据建模等5、数据呈现一般状况下,数据分析的成果都是通过图、表的方式来呈现,俗话说:字不如表,表不如图借助数据呈现手段,能更直观的让数据分析师表述想要呈现的信息、观点和建议常用的图表涉及饼图、折线图、柱形图/条形图、散点图、雷达图等、金字塔图、矩阵图、漏斗图、帕雷托图等 6、撰写报告 最后阶段,就是撰写数据分析报告,这是对整个数据分析成果的一种呈现通过度析报告,把数据分析的目的、过程、成果及方案完整呈现出来,以供商业目的提供参照一份好的数据分析报告,一方面需要有一种好的分析框架,并且图文并茂,层次明晰,可以让阅读者一目了然构造清晰、主次分明可以使阅读者对的理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清晰问题和结论,从而产生思考。
此外,数据分析报告需要有明确的结论、建议和解决方案,不仅仅是找出问题,后者是更重要的,否则称不上好的分析,同步也失去了报告的意义,数据的初衷就是为解决一种商业目的才进行的分析,不能舍本求末2. 数据分析常用的措施有哪些?她们多用来分析哪些类型的数据?通过度析可以得到如何的成果和结论?如何得到保证其信度和效度? 常用数据分析措施:聚类分析、因子分析、有关分析、相应分析、回归分析、方差分析; 数据分析常用的图表措施:柏拉图(排列图)、直方图(Histogram)、散点图(scatter diagram)、鱼骨图(Ishikawa)、FMEA、点图、柱状图、雷达图、趋势图 数据分析记录工具:SPSS、minitab、JMP常用数据分析措施:1、聚类分析(Cluster Analysis) 聚类分析指将物理或抽象对象的集合分构成为由类似的对象构成的多种类的分析过程聚类是将数据分类到不同的类或者簇这样的一种过程,因此同一种簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性聚类分析是一种摸索性的分析,在分类的过程中,人们不必事先给出一种分类的原则,聚类分析可以从样本数据出发,自动进行分类。
聚类分析所使用措施的不同,常常会得到不同的结论不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致2、因子分析(Factor Analysis) 因子分析是指研究从变量群中提取共性因子的记录技术因子分析就是从大量的数据中寻找内在的联系,减少决策的困难 因子分析的措施约有10多种,如重心法、影像分析法,最大似然解、最小平措施、阿尔发抽因法、拉奥典型抽因法等等这些措施本质上大都属近似措施,是以有关系数矩阵为基本的,所不同的是有关系数矩阵对角线上的值,采用不同的共同性□2估值在社会学研究中,因子分析常采用以主成分分析为基本的反覆法3、有关分析(Correlation Analysis) 有关分析(correlation analysis),有关分析是研究现象之间与否存在某种依存关系,并对具体有依存关系的现象探讨其有关方向以及有关限度有关关系是一种非拟定性的关系,例如,以X和Y分别记一种人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一种去精确地决定另一种的限度,这就是有关关系4、相应分析(Correspondence Analysis) 相应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,通过度析由定性变量构成的交互汇总表来揭示变量间的联系。
可以揭示同一变量的各个类别之间的差别,以及不同变量各个类别之间的相应关系相应分析的基本思想是将一种联列表的行和列中各元素的比例构造以点的形式在较低维的空间中表达出来5、回归分析 研究一种随机变量Y对另一种(X)或一组(X1,X2,…,Xk)变量的相依关系的记录分析措施回归分析(regression analysis)是拟定两种或两种以上变数间互相依赖的定量关系的一种记录分析措施运用十分广泛,回归分析按照波及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析6、方差分析(ANOVA/Analysis of Variance) 又称“变异数分析”或“F检查”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的明显性检查由于多种因素的影响,研究所得的数据呈现波动状导致波动的因素可提成两类,一是不可控的随机因素,另一是研究中施加的对成果形成影响的可控因素方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有明显影响的变量 数据分析常用的图表措施有:柏拉图(排列图) 排列图是分析和寻找影响质量主因素素的一种工具,其形式用双直角坐标图,左边纵坐标表达频数(如件数金额等),右边纵坐标表达频率(如比例表达)。
分折线表达累积频率,横坐标表达影响质量的各项因素,按影响限度的大小(即浮现频数多少)从左向右排列通过对排列图的观测分析可抓住影响质量的主因素素直方图 将一种变量的不同级别的相对频数用矩形块标绘的图表(每一矩形的面积相应于频数) 直方图(Histogram)又称柱状图、质量分布图是一种记录报告图,由一系列高度不等的纵向条纹或线段表达数据分布的状况 一般用横轴表达数据类型,纵轴表达分布状况散点图(scatter diagram) 散点图表达因变量随自变量而变化的大体趋势,据此可以选择合适的函数对数据点进行拟合用两组数据构成多种坐标点,考察坐标点的分布,判断两变量之间与否存在某种关联或总结坐标点的分布模式鱼骨图(Ishikawa) 鱼骨图是一种发现问题“主线因素”的措施,它也可以称之为“因果图”其特点是简捷实用,进一步直观它看上去有些象鱼骨,问题或缺陷(即后果)标在"鱼头"外FMEA FMEA是一种可靠性设计的重要措施它事实上是FMA(故障模式分析)和FEA(故障影响分析)的组合它对多种也许的风险进行评价、分析,以便在既有技术的基本上消除这些风险或将这些风险减小到可接受的水平数据分析记录工具: SPSS:SPSS是世界上最早采用图形菜单驱动界面的记录软件,它最突出的特点就是操作界面极为和谐,输出成果美观美丽。
它将几乎所有的功能都以统一、规范的界面呈现出来,使用Windows的窗口方式展示多种管理和分析数据措施的功能,对话框展示出多种功能选择项顾客只要掌握一定的Windows操作技能,粗通记录分析原理,就可以使用该软件为特定的科研工作服务 minitab:MINITAB功能菜单涉及:假设检查(参数检查和非参数检查),回归分析(一元回归和多元回归、线性回归和非线性回归),方差分析(单因子、多因子、一般线性模型等),时间序列分析,图表(散点图、点图、矩阵图、直方图、茎叶图、箱线图、概率图、概率分布图、边际图、矩阵图、单值图、饼图、区间图、Pareto、Fishbone、运营图等)、蒙特卡罗模拟和仿真、SPC(Statistical Process Control -记录过程控制)、可靠性分析(分布拟合、检查筹划、加速寿命测试等)、MSA(交叉、嵌套、量具运营图、类型I量具研究等)等 JMP:JMP的算法源于SAS,特别强调以记录措施的实际应用为导向,交互性、可视化能力强,使用以便,特别适合非记录专业背景的数据分析人员使用,在同类软件中有较大的优势JMP的应用领域涉及业务可视化、摸索性数据分析、六西格玛及持续改善(可视化六西格玛、质量管理、流程优化)、实验设计、生存及可靠性、记录分析与建模、交互式数据挖掘、分析程序开发等。
JMP是六西格玛软件的鼻祖,当年摩托罗拉开始推六西格玛的时候,用的就是JMP软件,目前有非常多的全球顶尖公司采用JMP作为六西格玛软件,涉及陶氏化学、惠而浦、铁姆肯、招商银行、美国银行、中国石化等等1.描述性记录分析 涉及样本基本资料的描述,作各变量的次数分派及比例分析,以理解样本的分布状况此外,以平均数和原则差来描述市场导向、竞争优势、组织绩效等各个构面,以理解样本公司的管理人员对这些有关变量的感知,并运用t检查及有关分析对背景变量所导致的影响做检查2.Cronbach’a信度系数分析 信度是指测验成果的一致性、稳定性及可靠性,一般多以内部一致性(consistency)来加以表达该测验信度的高下信度系数愈高即表达该测验的成果愈一致、稳定与可靠针对各研究变量的衡量题项进行Cronbach’a信度分析,以理解衡量构面的内部一致性一般来说,Cronbach’a仅不小于0.7为高信度,低于0.35为低信度(Cuieford,1965),0.5为最低可以接受的信度水准(Nunnally,1978)3.摸索性因素分析(exploratory factor analysis)和验讧性因素分析(confirmatory factor analysis) 用以测试各构面衡量题项的聚合效度(convergent validity)与区别效度(discriminant validity)。
由于仅有信度是不够的,可信度高的测量,也许是完全无效或是某些限度上无效因此我们必须对效度进行检查效度是指工具与否能测出在设计时想测出的成果收敛效度的检查根据各个项目和所衡量的概念的因素的负荷量来决定;而区别效度的检查是根据检查性因素分析计算理论上有关概念的有关系数,检定有关系数的95%信赖区间与否涉及1.0,若不涉及1.0,则可确觉得具有区别效度(Anderson,1987)4.构造方程模型分析(structural equations modeling) 由于构造方程模型结合了因素分析(factor analysis)和途径分析(path analysis),并纳入计量经济学的联立方程式,可同步解决多种因变量,容许自变量和因变量含测量误差,可同步估计因子构造和因子关系容许更大弹性的测量模型,可估计整个模型的拟合限度(Bollen和Long,1993),因。
