
1多元统计分析方法1.pdf
14页1 多元统计分析方法1 1, 多元统计分析方法1胜国中人民大财学学院,金副授,墨教尔本学精算中大,博士后心 Eaml: idiawsucr.eudcn.Tel :10-0250058400 01究领研域:顾客满测评意、风险管理精算与长:专数分据与建模析1元统多计析方法原理与分应用M lutviarait enAlyais s中国人大学财金学民戴院胜稳 2们的研究我作工是什?么我 们的究研作工什是么 ? 为什么要需量化研究研究及注意的几点事时 项么什多元是统计析分M (AV)?什 么多元是统分析计MVA)? (什么为们需我它要为什 ?么们需我要 ?它 常通的析技术分 MV详 A 细绍及案介例 : MAV 详介细及绍例案: 相分关(析 oCrrsepodnenc aealnyis) 相 s 关分( Cor 析 espornencd enaaysls)i 归/ 回元多回分归析(Rergssien o /ultiMle p归/ 回 多回元分归析Reg(essroinregr sseion 成主份因子 / 析(分 actForan lyass) 主成 i/ 份 因子析( F 分 ctaora alysns)i 聚 分析( Clus 类 ter anlyasiss/gemenatiton) 聚分类(析 Cluster 研究工是什作 ?么数据分是析?状描述现?制作表图 ?制 作表 ?图 写报撰告 ?撰 写报告 ?或 们我所送的传意识. .们我的作工是提供解决方 是解决案委托的问人题是为们我的客户更挣的 T 多 heB nefets moieyn性的一面 .单. 简有性单一面 . 的.例析:如基的本分析定(的描述性、变关联表)量外也有另杂复的性面 . 一.大量附 . 的分析运用许加多分的析术技而们我要需看到复“杂性问背题的后简然而单我需们要到“看表述” 述表”复使杂题问简单到这达目一的,你不不得究复研杂题然后问提去出使人炼容明易白信息阐般一知不认一定确实。
实的资真料才能提供确正的息信美國黑 vs 人 . 美國白人之比例白人 認 2 為 3.8% s.v 499.% a(veare)g人 調口局查 (C neus suBreua):11. %8 vs.7 4%校教师入极收高,成个税监为督重点对象 的公员务色灰收很高入,工资基本不用6闻那些是人印令深象刻的件,事多数些特是例可,能导致误导研究料才能提供正资确结的论缆线电白与病血闻传听:说缆电产线生电磁场会的发白血病诱研究五百万:元美经历年五研的究明表:暴露电在缆线产生的电场磁白血跟根病本没关有 系 E.W. Ca mipno ,Ed “itorila :pwerol nis,eacncreand fe a,” Newr Enlgad noJuranl of Mediinc,e 373,N .o 1 19(9).7:手闻磁机诱场脑部病变是真发吗?的7计统:让数据说话泰坦尼克号 600 1410 020211 40 100001200 100 800 600 40004 0 00020 S D20 0 男性 0 性女 200 0810 16000 00807 00 20 1000孩 0 一等 二等 等 三船员一等?舱二舱 等等三 C 舱舱 存活死亡总 存数活 2 比 30 12 232 652. 115 86712 8 41.5 1784 52 780625. 212 9673 98 22.6的情如何?形男性女性数总存活 374 死亡 3164 总数 138 7存活 2 比 1. 大人 小孩 5 总 数 7 751 8434 78 1存活 66 1 25 4190126 149 死 0 1 亡 43 4780 208 总数 2 029 10992 02873. 2 2.53 存比活 31 5. 2.5332 5.乎真的是孺妇先优!存树生状图多(分类树元)统 1 计的用:作理变处异描变述异据不可数一能成变不体差个异(比如身高、重等体)测量差误统计助帮我处理变异们(vriaatoi)n。
1论的不确结性定 (Ucenrtiatyn今)降日概率3 雨% .0. .术技分是否能帮助析股?炒信模型用的用,能应降否银低行贷坏款概率帐?风险降率低 9 的%5信区间置为7%134 % 统计给了人一们种讨以论把并握不确性的语定量研究化流程业务理 数据解采与准备建集模用评应估据仓识知发现 数据 掘挖你果能不量某化事情些那,你么就不能理解;它果你不能如理它解那么,你就能控制不;如果你不能它制它控那,你就么能不改进它 1经营分的几大析标及对目应段手把概况握探索数性分据、析OAPL 把 握况概探索数据性分析、LOA P了解异差设检假验方差分析、类、分类聚判别、神经类络网、策树决等解了相相关、关关规联则因原探索及目控标回归、制因子结探索 SE构、HLMM 构结索探 SEM 、 握趋把时序势分析一类殊问特题aPan lDtaa一 特殊类问题aPnla营分目标一析解了概均值化、中数、众数位差极、方、差标准差、离散数系频数、频率 7营经分析目一了解概标况多角描度述 OL A P 角多度描述LOP为 A 么什要角多度当心统计陷井表?面料不一定可资信品牌意满例地率区挤程度与无拥手间洗屋房例比间的关相比两较品的满牌人意数比:例满意品牌品 A 牌 A 品 B 牌牌品 3B742 6384 不意 满 01 587 7 满意 率 不 31.3 10.% 9乎似牌品的顾B客比品 A 的牌客要满意些顾实情际如何况呢?牌品 A 品 A 牌 满 天津意海 上京南广 州北京合计 4792 2 2121 05 3814 3124 7 满意 不 2 621 20 01230 5510品牌 B 品牌满 B 6 意 9 44804383 3 2 021 6043 不 8 意满 117 41 65512 961 787 2 5 303.0.2 0.25 015. .1 0005. 0天津海 南京上州广北 0 京.44 1.111 0.07090 05. 20.415 0086. 02.7每乎个市城里品牌B,不满的意率都于高品 A 牌!区挤拥与无手间洗子房例比的相间关研究国哈尔英 (Hul)l各地区市房屋状,研况究英哈国尔 (Hul)l市各地房区状屋况,现发据显示各数区拥挤地度(x 程) 与没洗发现有据显示数各区拥地程度(挤 间手的房子例比 (y) 的相关间数系很低手间的子房例比( 0.8)0,但常按觉理得应比该较高。
00.8 ,但) 常理觉按得该比应较高按区地内寓公例比高低的地将分区两群后,发现在各成群的相内关数系高( 分别为极后,发现在各内的相群系数极关高 0.(85及.09)1 0. 5及 8091. ) r 究.00 8 =r0 .5析目标二分了:差异假解设检验:一素两因平或水因素方两分差析:一因多水平素或多素因交叉至分析目标三营:类与聚分类比客户区隔如、场市细分 ogLits回归、别、聚判类 oLigst归回、别判、类聚类经神网、决策络树分析目标营四:把相握相关系关数:定与类定量数据相的关量测关联规:实则质一些条件概率关相数系可靠?吗通某公信推出司某业项务后试图发,通现时话长和人数之的间关系 ime :T用月通话时户长 Coutn :时长该的人系关数 - :.230 没 系?关 Co reratlion (Spreadshese1)tMar ke cdorrlateinso rae singifcanit t p a真:相是 iTe 和 Cmunto2次是关系关系相数只度量线性能关系T morCrlaeiotsn S(peadsrhee1t1 0*89cv结论) 是项业该对务通话长时极端客户吸力引很大,对普客通户不感冒分目标析五:因素目标回归与预测与制控因子分析有关未必有因果:联一致研性究果时因序列间剂与量映反:最好实验是计经营设分目析六标结构:探结索构方程型模ESM顾:满客度意数指模型结构方程模型EM :顾 S满客意度数模指型 层多性线模型HLM多 线性模型层HM营析分标七:目握趋势类特殊一问题P:naalDat a什是多么元计分析?统单一题分问 ( 析 nivaruaiet naayliss 例如) 频 单一问题分析 ( 率 布通分常作为数据的第步的描述分析一关表(b 联 vairiat aenlayis)s总 作是为主的关联要 ( 分表析段手而被场市研究反复者使用把 一问题或个量与另变个关一交叉作表联 ( 例如对受者访景背量:变性别、年等龄 )例如对访者背景受量变:别性、年等龄 ) 论哪个行业无包,金融括业果同时析的分量变过超个二被称为就多元统计分通们常用的使多分元技术析. .关性相分析多元归 主回分成析分子因分析类分析聚市场/ 细 分聚类分析判别分析 e/ct .te. cetc多元 3 计统析技分术个一研者究可不能了解有的所析技分术细节但他们是该应能够正地选确适当的择方 法用多使元技,你必知不详细的道数学式公- 是你应但用多元技术使,你不必知详道的数细公学式明白当它原的理元多分析不并魔术棒,是不需我要开们动脑筋就解能决问 - 它不会轻题告诉易答你数果据源很差多,分元就析难很发作用 5元多统方法计直的观解释多元统计方的法几基本用途:个分、类判、数据压别和缩综合价评类对分应聚类于析判分别判分别析别判判别分数据析压缩主成分数据缩压主成分综合评价综合种方多,但法是主成综合评分价综合多方法种但是主,分成用得比多较预知备:识元多计统数的据矩阵学符数号表的和我们使用示软的上的数据件表是一致 11 xx12 x? x 12 22 =?X? ? x? ? x1n 2n 1xp? x2 p ? ? ? np ?x?:备多统计数元的据何几直把观据数看作维空间中的n 个 p 点把 据看作数 p 空间中维 n 的可运用空以中间投影、距的离概预备念协方差阵co:airance mvatrxi组一变量可以计,两两算间之协方的差列排成一个矩阵,就成构这组随机变了的量协方矩差阵也以可这把随组机量变理解为个随机一向量备预:关相数系阵一组变,量以可算两两之间计的关相数系 oefcfcieni otf ocrerltian o排成一列个阵矩就构,了这组随成变量机的相关数系阵也可矩把以这组机变量理随解一为个随向机量 0备:预方和差据数携带信的息量回方差忆分析回 F-忆验 检忆回数 F 据内有部异,变所以能携够带息信这是种判断一,很难给出合理量化的差是方个不一的结果错差个每量变观测的数据可以都计一个方算差整数个集据一个总方有数据压差之缩后可以得到变之换后的据数那么所,得的数据的到总方差原和始据数的方总差有大多差呢异? 4归分回析 R ergssieno析是分什么 ?线性回(归 Liean Rregessron) 线性回 i 归 L(neair eRrgssione)画因出量 (d 变 eepndnet avribale和) 自变 画出因变量量 (va rable)和自变 i 量(i ndpenedet navrabli)之 e 的关间系 vriaalbe)之间关的系因变 = B* 量自 变量 + 数项 + 残差 常变自量 + ?线回性归程方:式 Y C =+ x +be Y= 产出 d(epndene tavriabel /esrpnos eariavbe) 产 l 出 X = ( 输入变 (i量 ndepndeetnva raibel/ ergrseosr )输入量变 (regresor) s c=常 量( 当x=时 0 )=0 时 xb 斜率= e=误 差残差( /eror r/ esridal) 误差 u/ 差残( rerr oreisuald元回与一元归性回线归样,只一不有过多更的反应量 Y变 =0 1+X +1 2 2 X + pX p + + Y = X 假 1 回归、模型对数参言是而线性的 2 ;、各自变量X 的在重值抽样中复是固定的;各、变自量X 、对 3 定给的 X随,干机项ui 的扰均值为;零、给定对 X 随机的干扰项。












