好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

统计分析方法讲座(第一讲).ppt

38页
  • 卖家[上传人]:宝路
  • 文档编号:47688573
  • 上传时间:2018-07-04
  • 文档格式:PPT
  • 文档大小:921.96KB
  • / 38 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 内蒙古财经学院工商管理学院典型统计分析方法及应用郭毅2007年10月2目录n前言n聚类分析n判别分析n遗传算法内蒙古财经学院工商管理学院前言 4ü我国学者、教学科研人员大多重视思辨性思维,空泛的议论多,而逻辑推理的思维方式淡化,更不追求严密的公理化体系ü定量分析方法能使人们对质的规律性的认识更加深入全面一、为什么我们需要了解统计分析方法? n东西方文化差异5技术因素(供方)n定量分析的推动因素市场因素(需方)ü 数据库技术ü 通讯技术ü 网络技术ü 分析技术ü 数据仓库ü 市场全球化ü 组织变迁ü 客户关系管理ü 一、为什么我们需要了解统计分析方法?数据和信 息以几何 级数增长6现代统计分析方法结构简化方法预测据测方法1.回归分析 4.定性资料分 析 2.判别分析 5.聚类分析 3.遗传算法分类分析方法1.聚类分析 2.判别分析 3.定性资料分析 4.遗传算法相关分析方法1.定性资料分析5.主成 分析 2.回归分析 6.因子 分析 3.典型相关分析7.对应 分析 4.神经网络1. 回归分析 4.因子 分析 2. 聚类分析 5.对应分 析 3. 主成分分析二、统计分析方法的分类7n统计分析不能替代 ….. ü好的简报 ü好的研究方案设计ü好的运作执行和质量控制ü你和你的研究小组清晰的思路ü你更好的理解正常人(非市场研究人员)如何思考和认识你所 研究的市场ü但是统计分析是一种非常重要的研究方法,你将回在工作中接 触和使用它三、统计分析方法的作用域内蒙古财经学院工商管理学院聚类分析 9目录n聚类和聚类分析的概念n聚类分析的目的和原理n距离和相似系数n均值聚类和分层聚类n聚类分析方法使用注意事项n聚类分析方法的局限性n聚类方法在管理领域的应用10ü岗位评估就是确定某岗位对企业或组织战略实现和未来发展相对价 值。

      只有明确了各个岗位对企业或组织发展的重要程度,才能有针 对性的设计薪酬结构和薪酬水平聚类分析可以确定岗位级别ü企业文化被喻为“企业生命常青藤”,既具有其独特性,也具有很 强的通用性,处于不同行业,从事不同业务的企业间往往具有相似 的企业文化要素特征运用聚类分析方法,根据企业文化的要素特 征帮助人们从定量的角度识别企业文化的类别,这有助于具有相似 企业文化特征的企业间相互借鉴ü商业竞争中存在帕累托法则 ,即企业20%的客户贡献了80%的利润 通过聚类分析可以将价值客户群分为有价值易流失的客户群、有 价值稳定的客户群、低价值不稳定的客户群和低价值稳定的客户群 ,从而针对不同的客户群,采取不同的服务、推销和价格策略来稳 定有价值的客户,转化低价值的客户,消除没有价值的客户一、聚类和聚类分析的概念 n引例11把研究目标分割成为具有相同属性的小的群体Variable BVariable ACorresponden ce matrix..... ............. ........ .......... . ......... .. ...一、聚类和聚类分析的概念n聚类12n聚类分析对于一个数据,人们既可以对变量(指标)进行分类(相当于对数 据中的列分类),也可以对观测值(事件,样品)来分类(相当于 对数据中的行分类)。

      比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合 考虑各科成绩)分类,当然,并不一定事先假定有多少类,完全可以按照数据本身的规 律来分类聚类分析(cluster analysis)分为R型聚类和Q型聚类对变量 的聚类称为R型聚类,而对观测值聚类称为Q型聚类这两种聚类 在数学上是对称的,没有什么不同 聚类分析13n聚类分析的目的根据已知数据,计算各观察个体或变量之间 亲疏关系的统计量(距离或相关系数)根据某 种准则(最短距离法、最长距离法、中间距离法 、重心法),使同一类内的差别较小,而类与类 之间的差别较大,最终将观察个体或变量分为若 干类二、聚类分析目的和原理14我们所研究的样品或指标(变量)之间存在程度不同 的相似性(亲疏关系)于是根据一批样品的多个观 测指标,具体找出一些能够度量样品或指标之间相似 程度的统计量,以这些统计量为划分类型的依据把 一些相似程度较大的样品(或指标)聚合为一类,把 另外一些彼此之间相似程度较大的样品(或指标)又 聚合为另一类,关系密切的聚合到一个小的分类单位 ,关系疏远的聚合到一个大的分类单位,直到把所有 的样品(或指标)聚合完毕,这就是分类的基本思想 。

      二、聚类分析的目的和原理n聚类分析的原理15n如何度量远近?如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩 ,则只好按照数学成绩来分类;这些成绩在直线上形成100个点 这样就可以把接近的点放到一类如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平 面上的100个点,也可以按照距离远近来分类三维或者更高维的情况也是类似;只不过三维以上的图形无法直 观地画出来而已在饮料数据中,每种饮料都有四个变量值这 就是四维空间点的问题了 三、距离和相似系数16n两个距离概念 按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离, 一个是类和类之间的距离 点间距离有很多定义方式最简单的是歐氏距离,还有其他的距离 当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点 越相似度越大,就相当于距离越短 由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么 点间的距离就是类间距离但是如果某一类包含不止一个点,那么就 要确定类间距离, 类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可 以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这 两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距 离。

      在计算时,各种点间距离和类间距离的选择是通过统计软件的选 项实现的不同的选择的结果会不同,但一般不会差太多 三、距离和相似系数17n向量x=(x1,…, xp)与y=(y1,…, yp)之间的距离欧氏距离: Euclidean平方欧氏距离: Squared EuclideanChebychev: Maxi|xi-yi|Block(绝对距离): Si|xi-yi|Minkowski:兰氏距离: Lance三、距离和相似系数18n向量x=(x1,…, xp)与y=(y1,…, yp)之间相似系数夹角余弦(相似系数1) : cosinePearson correlation(相似系数2):三、距离和相似系数19最短距离法:最长距离法:重心法:离差平方和: (Wald)类平均法:n类Gp与类Gq之间的距离Dpq三、距离和相似系数20n事先要确定分多少类:k-均值聚类 前面说过,聚类可以走着瞧,不一定事先确定有多少类;但是这里 的k-均值聚类(k-means cluster,也叫快速聚类,quick cluster )却要求你先说好要分多少类看起来有些主观,是吧! 假定你说分3类,这个方法还进一步要求你事先确定3个点为“聚类 种子”(SPSS软件自动为你选种子);也就是说,把这3个点作为三 类中每一类的基石。

      然后,根据和这三个点的距离远近,把所有点分成三类再把这三 类的中心(均值)作为新的基石或种子(原来的“种子”就没用了 ),重新按照距离分类 如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不 大了,或者叠代次数太多了)显然,前面的聚类种子的选择并不 必太认真,它们很可能最后还会分到同一类中呢下面用饮料例的 数据来做k-均值聚类 四、聚类分析方法分类21饮料 数据四、聚类分析方法分类22n假定要把这16种饮料分成3类四、聚类分析方法分类23分类结果是: 第一类为饮料1、10; 第二类为饮料2、4、8、11、12、13、14; 第三类为剩下的饮料3、5、6、7、9、15、 16四、聚类分析方法的分类24n事先不用确定分多少类:分层聚类 另一种聚类称为分层聚类或系统聚类(hierarchical cluster)开始时,有多少点就是多少类它第一步先把最近的两类(点)合并成一类,然后再 把剩下的最近的两类合并成一类;这样下去,每次都少一类,直到最后只有一大类为止 显然,越是后来合并的类,距离就越远再对饮料 例子来实施分层聚类 四、聚类分析方法的分类25聚类分析26n聚类结果主要受所选择的变量影响。

      如果去掉一些变 量,或者增加一些变量,结果会很不同n相比之下,聚类方法的选择则不那么重要了因此, 聚类之前一定要目标明确 n另外就分成多少类来说,也要有道理虽然从分层聚 类的计算机结果可以得到任何可能数量的类但是,聚 类的目的是要使各类之间的距离尽可能地远,而类中点 的距离尽可能的近,而且分类结果还要有令人信服的解 释这一点就不是数学可以解决的了五、聚类分析方法使用时应注意的问题27首先,聚类结果要明确就需分离度很好(well-separated)的数据 几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的 聚类但是,如果类是扩散且互相渗透,那么每种算法的的结果将有 点不同每种聚类算法得到各自的最适结果,每个数据部分将产生单 一的信息为解释因不同算法使同样数据产生不同结果,必须注意判 断不同的方式正确解释来自任一算法的聚类内容的实际结果是困难 的(特别是边界)最终,将需要经验可信度通过序列比较来指导聚 类解释其次,由线性相关产生的局限性上述的所有聚类方法分析的仅是简 单的一对一的关系因为只是成对的线性比较,大大减少发现表达类 型关系的计算量,但忽视了生物系统多因素和非线性的特点。

      六、聚类分析的局限性28生产运作管理财务管理产业结构与产业集群营销、人力资源管理供应链管理创新管理、企业文化其他%七、聚类分析在管理领域的应用举例n聚类分析方法应用分布示意图29七、聚类分析在管理领域的应用举例序号论文题目1对中国制造业运作策略的聚类分析及实证研究2供应商库存管理中的聚类分析3基于模糊聚类分析的城市物流中心选址研究4聚类分析方法在行包运输规划中的应用5对我国区域金融发展的聚类分析6金融企业上市公司绩效的模糊聚类分析n聚类分析应用之论文题目清单30七、聚类分析在管理领域的应用举例序号论文题目7聚类分析在投资决策中的应用8福建省产业结 构地区差异聚类分析9基于区位嫡的中国制造业集散聚类分析10基于神经网络的人力资本聚类分析11聚类分析法在供应链联 盟合作伙伴初选中的应用12基于模糊聚类分析的企业文化类型的定量识别n聚类分析应用之论文题目取样清单31七、聚类分析在管理领域的应用举例n实例分析:聚类法在基于产品属性重要度的 市场细分中的应用32七、聚类分析在管理领域的应用举例n实例分析33七、聚类分析在管理领域的应用举例n实例分析34七、聚类分析在管理领域的应用举例n实例分析35七、聚类分析在管理领域的应用举例n实例分析36七、聚类分析在管理领域的应用举例n实例分析37七、聚类分析在管理领域的应用举例n实例分析在上图中,纵坐标是阀值λ,横坐标是客户 编号,可以清楚地看出在不同的阀值λ下,不 同用户的聚类情况。

      例如,在阀值λ =0.24时 ,13单独为一类,其他客户为一类在又 =0.16时,1,5为一类,13为一类,其他客户 为一类38结束,谢谢!敬请指教。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.