《金融数据挖掘》PPT课件.ppt
29页金融市场的数据挖掘金融市场的数据挖掘 教材:教材: 数据采掘入门与应用数据采掘入门与应用 张尧庭编张尧庭编 中国统计出版社中国统计出版社 参考教材:参考教材: 1、数据挖掘、数据挖掘——概念与技术概念与技术 jiawei Han著,范明译著,范明译 机械工业出版社机械工业出版社 2、多元统计数据分析、多元统计数据分析——理论、方法、实例理论、方法、实例 任若恩著任若恩著 国防工业出版社国防工业出版社 配套应用软件:配套应用软件: 1、、Intelligent miner for data 2、SAS 第一章:概论第一章:概论 一、何为数据挖掘(一、何为数据挖掘(data mining)) 现代信息社会的特征:信息(数据)泛滥、知识缺乏,现代信息社会的特征:信息(数据)泛滥、知识缺乏,如何从海量数据(广义的概念)中挖掘出决策有用信息?如何从海量数据(广义的概念)中挖掘出决策有用信息? 数据挖掘是数据挖掘是结合现代数学、统计学,机器学习、人工智结合现代数学、统计学,机器学习、人工智能、数据库管理、计算机图形学、软件工程等各领域的技术能、数据库管理、计算机图形学、软件工程等各领域的技术和知识,和知识,19901990年代在西方国家出现的一种高新技术年代在西方国家出现的一种高新技术————从海从海量数据中挖掘出决策有用信息的技术。
量数据中挖掘出决策有用信息的技术 19901990年代末,在对年代末,在对100100名美国著名科学家的问卷调查中,名美国著名科学家的问卷调查中,数据挖掘被列为数据挖掘被列为2121世纪对人类发展影响最大、最有前途的世纪对人类发展影响最大、最有前途的1010大技术的第三位大技术的第三位 我国对数据挖掘技术的重视(开发与应用)我国对数据挖掘技术的重视(开发与应用) 1、、863、963项目;项目; 2、国家及省重点科学领域;、国家及省重点科学领域; 3、国家统计局在全国组织数据挖掘培训(、国家统计局在全国组织数据挖掘培训(2000);); 4、企业特别是银行对数据挖掘技术的重视;、企业特别是银行对数据挖掘技术的重视; 5、人民大学数据挖掘研究与应用中心人民大学数据挖掘研究与应用中心 海量数据海量数据——沙漠,隐含的知识沙漠,隐含的知识——金子,金子, 数据挖掘数据挖掘——从沙漠中挖掘金子的技术从沙漠中挖掘金子的技术 二、不同学科对数据挖掘技术的研究与开发二、不同学科对数据挖掘技术的研究与开发 1、理论研究、理论研究——各种数据挖掘技术的理论基础、各种数据挖掘技术的理论基础、理论依据研究,从数学、统计学、人工智能、计算机理论依据研究,从数学、统计学、人工智能、计算机图形学等不同领域;图形学等不同领域; 2、挖掘技术研究,从统计学、人工智能、机器、挖掘技术研究,从统计学、人工智能、机器学习、计算机图形学、软件工程等领域;学习、计算机图形学、软件工程等领域; 3、数据管理策略研究,从数据库管理技术等领域;、数据管理策略研究,从数据库管理技术等领域; 4、数据挖掘技术的应用研究,其中数据挖掘技、数据挖掘技术的应用研究,其中数据挖掘技术在金融领域的应用是一个重要方面。
术在金融领域的应用是一个重要方面三、几种相对比较成熟的数据挖掘技术三、几种相对比较成熟的数据挖掘技术 数据挖掘是一门新兴的、正在不断发展中的技数据挖掘是一门新兴的、正在不断发展中的技术,近年来,几类十分重要、且相对比较成熟的数术,近年来,几类十分重要、且相对比较成熟的数据挖掘技术是:据挖掘技术是: 1、分类与预测、分类与预测 2、特征化、比较与关联规则挖掘、特征化、比较与关联规则挖掘 3、聚类分析、聚类分析 4、序列发现、序列发现 本课程主要内容:几类数据挖掘技术的基本原本课程主要内容:几类数据挖掘技术的基本原理、数据挖掘方法、及这些挖掘技术在金融领域的理、数据挖掘方法、及这些挖掘技术在金融领域的应用 第二章:分类与预测第二章:分类与预测 一、分类与预测的概念一、分类与预测的概念 1、分类、分类 已知离散的、有限的几个类,判断或预测样本属于那个类已知离散的、有限的几个类,判断或预测样本属于那个类。
* 某人否具有某种疾病某人否具有某种疾病 * 上市公司是否会陷入财务困境、是否会被外资并购上市公司是否会陷入财务困境、是否会被外资并购 * 借款人是否会违约借款人是否会违约 * 这个客户是否为银行的潜在优质客户、是否会转向其这个客户是否为银行的潜在优质客户、是否会转向其他银行他银行 用用y表示类变量,表示类变量,y取离散的几个值,分类就是判断或预测取离散的几个值,分类就是判断或预测样本的样本的y究竟取什么值究竟取什么值 2、预测预测 预测是指对连续性变量的取值进行预测,如:预测是指对连续性变量的取值进行预测,如: * 某个借款人的违约概率是多少某个借款人的违约概率是多少 * 银行资产组合明天在银行资产组合明天在99%99%置信度下的最大损失(置信度下的最大损失(VaRVaR))有有 多大多大 * 如果某开放式基金因面临巨额赎回申请而不得不大量如果某开放式基金因面临巨额赎回申请而不得不大量抛售某种证券,这种证券的价格会下跌多少抛售某种证券,这种证券的价格会下跌多少 分类分类————对离散型变量进行预测对离散型变量进行预测 预测预测————对连续型变量进行预测对连续型变量进行预测 二、分类案例教学二、分类案例教学—— 上市公司财务困境预测模型构建上市公司财务困境预测模型构建 1、、要求:要求: 将因财务状况异常而被特别处理的将因财务状况异常而被特别处理的STST公司界定为财务困公司界定为财务困境公司、非境公司、非STST公司界定为财务正常公司,利用上市公司的财公司界定为财务正常公司,利用上市公司的财务报表数据,建立上市公司财务困境预测模型(提前一年预务报表数据,建立上市公司财务困境预测模型(提前一年预测,即用第测,即用第t-2t-2年的数据预测企业在第年的数据预测企业在第t t年是否会陷入财务困年是否会陷入财务困境)。
境) 分类变量分类变量y y的取值的取值 y=0 y=0 如果公司为财务困境公司如果公司为财务困境公司 y=1 y=1 如果公司为财务正常公司如果公司为财务正常公司 2、类似案例、类似案例:: * 外资并购目标公司预测外资并购目标公司预测 * 防防信用卡诈骗预警系统信用卡诈骗预警系统 * 银行客户关系管理银行客户关系管理 * 税务稽核税务稽核 3 3、数据来源:、数据来源:CSMARCSMAR数据库数据库 1990-2004 1990-2004 资产负债表、损益表,资产负债表、损益表, 1990-1997 1990-1997 财务状况变动表财务状况变动表 1998-2004 1998-2004 现金流量表现金流量表 4 4、报表变动情况:、报表变动情况: 1994 1994年合并会计报表年合并会计报表 1998 1998年资产减值准备年资产减值准备 5、研究所需数据、研究所需数据 ①①、、预测变量选取预测变量选取————实践经验、其他文献使用的预测实践经验、其他文献使用的预测变量、采用技术手段(统计技术、数据挖掘技术)选取预测变量、采用技术手段(统计技术、数据挖掘技术)选取预测变量、在一定理论指导下构造新的预测变量;变量、在一定理论指导下构造新的预测变量; ② ②、、样本数据的结构形式样本数据的结构形式 ③③、、采集样本数据时应注意的问题采集样本数据时应注意的问题 * 尽量采用跨年度数据尽量采用跨年度数据 * 需要删除的数据需要删除的数据 * 尽量不采用配对抽样尽量不采用配对抽样 ④ ④、、随机构造的训练样本组与检验样本组(过度拟合现随机构造的训练样本组与检验样本组(过度拟合现象)象) ⑤⑤、本案例的数据说明(、本案例的数据说明(sj0sj0)):: * 19951995年底前上市的公司;年底前上市的公司; * 删除其他原因被特别处理的公司;删除其他原因被特别处理的公司; * 数据跨期数据跨期1996-20011996-2001,分别预测,分别预测1998-20031998-2003;; * 删除在预测年度已陷入财务困境的公司;删除在预测年度已陷入财务困境的公司; * 共有非共有非STST公司数据公司数据10081008个,个,STST公司数据公司数据111111个;个; * 采用的采用的6 6个预测变量为(第一种方法):个预测变量为(第一种方法): 总总负负债债/ /总总资资产产、、主主营营业业务务收收入入/ /总总资资产产、、总总利利润润/ /总总资资产产、、((货货币币资资金金+ +短短期期投投资资净净额额))/ /流流动动资资产产、、留留存存盈盈余余/ /总总资资产产、、总资产的自然对数。
总资产的自然对数 ⑥⑥、、随机抽样构造训练样本组、检验样本组的随机抽样构造训练样本组、检验样本组的SAS方法:方法: * 将将EXCELEXCEL数据库转为数据库转为SASSAS数据库;数据库; * SAS随机数函数随机数函数——uniform(seed),随机种子数随机种子数seed取奇数,产生取奇数,产生[0,1]区间上的一个随机数区间上的一个随机数 * 随机建立训练样本组、检验样本组的随机建立训练样本组、检验样本组的SASSAS程序程序 # # data adata a;; set set sasusersasuser.sj0; .sj0; k=uniform(15); k=uniform(15); run; run; # # 对已进行对已进行k k排序的数据库排序的数据库a a data b; data b; set a; set a; m= m=intint(_n_/2);(_n_/2); run; run; ((sj1sj1,,sj2sj2)) 二、构造分类预测模型的方法二、构造分类预测模型的方法 1 1、、判别分析法判别分析法 ①①、、判别分析方法的统计学原理判别分析方法的统计学原理 假设有两个总体假设有两个总体——财务困境公司与财务正常公司,每个财务困境公司与财务正常公司,每个总体都可以用一个六维随机变量总体都可以用一个六维随机变量 表示,不同的表示,不同的总体分布不同。
预测上市公司是否会陷入财务困境,就是判总体分布不同预测上市公司是否会陷入财务困境,就是判断这个公司所对应的样本属于哪个总体断这个公司所对应的样本属于哪个总体 判别分析是利用距离(相似程度的体现)来判断样本的归判别分析是利用距离(相似程度的体现)来判断样本的归属较常用的距离度量是马氏距离:属较常用的距离度量是马氏距离: ,判别,判别分析实际上是利用距离差:分析实际上是利用距离差: 为判断指标来判断样本为判断指标来判断样本的归属 由于马氏距离为一个二次型,因此当由于马氏距离为一个二次型,因此当 时,距离差时,距离差也会一个二次型,这样在计算时较复杂,如果也会一个二次型,这样在计算时较复杂,如果 ,且两,且两个总体均服从正态分布,则距离差为一个线性函数(线性判个总体均服从正态分布,则距离差为一个线性函数(线性判别函数),可利用这个线性函数别函数),可利用这个线性函数建立预测规则建立预测规则 ② ②、、判别分析的判别分析的SASSAS程序:程序: proc proc discrim discrim data=data=sasusersasuser.sj1;.sj1; class y; class y; run; run; ③ ③、、SASSAS结果结果 对两个距离的说明。
现在可以得到线行判别函数为:对两个距离的说明现在可以得到线行判别函数为: ④ ④、、如何建立预测规则如何建立预测规则 * * 指标的判断:正指标还是负指标(正指标)指标的判断:正指标还是负指标(正指标) * * 根据两种误判的损失估计确定合适的临界值根据两种误判的损失估计确定合适的临界值 现在根据使两种误判尽可能接近的方法,得到:现在根据使两种误判尽可能接近的方法,得到: 临界值:临界值:d = 1.2d = 1.2 ⑤ ⑤、、预测规则:预测规则: 对每个上市公司计算对应的对每个上市公司计算对应的d d,,若若d d>>1.21.2,,则则判断其一年判断其一年后不会陷入财务困境;若后不会陷入财务困境;若d d<<1.21.2,,则判断其一年后会陷入财则判断其一年后会陷入财务困境 ⑥ ⑥、、预测准确率检验:预测准确率检验: 训练样本组训练样本组 检验样本组检验样本组 STST公司:公司:49/56=87.5% 47/55 = 85.4% 49/56=87.5% 47/55 = 85.4% 非非STST公司公司: 442/504=87.7% 432/504 = 85.7%: 442/504=87.7% 432/504 = 85.7% ⑦ ⑦、讨论、讨论 * * 判别分析只能运用于离散型因变量预测,而不能运用判别分析只能运用于离散型因变量预测,而不能运用于连续型因变量预测;于连续型因变量预测; * * 建立线性判别准则,需要较强的限制条件建立线性判别准则,需要较强的限制条件————正态正态分布与等协方差矩阵;分布与等协方差矩阵; * * 临界值的确定需考虑不同误判的损失函数,考虑使临界值的确定需考虑不同误判的损失函数,考虑使用者的风险偏好;用者的风险偏好; * * 使用判别分析方法,需要事先确定预测变量。
使用判别分析方法,需要事先确定预测变量 * * 也可以建立另外形式的预测规则也可以建立另外形式的预测规则 练习:交换练习:交换sj1与与sj2的地位,建立预测规则,并进行预的地位,建立预测规则,并进行预测准确率检验或建立其他问题的判别分析预测模型测准确率检验或建立其他问题的判别分析预测模型 2、Logistic回归预测回归预测 ①①、、统计学原理统计学原理 计量经济学中,回归模型具有预测功能,但现在的数据计量经济学中,回归模型具有预测功能,但现在的数据结构为:结构为: ,因变量为离,因变量为离散变量(虚拟变量),一般的线性回归模型不适用散变量(虚拟变量),一般的线性回归模型不适用 Logistic回归模型实际上是概率预测模型,其原理如下:回归模型实际上是概率预测模型,其原理如下: 建立如下形式的线性模型建立如下形式的线性模型:: 则得到概率预测模型则得到概率预测模型 Logistic回归模型为非线性模型,模型的参数估计不能回归模型为非线性模型,模型的参数估计不能用最小二乘法,而采用极大似然估计法。
用最小二乘法,而采用极大似然估计法 ② ②、、LogisticLogistic回归的回归的SASSAS程序程序 proc logistic descending data=proc logistic descending data=sasusersasuser.Sj1.Sj1;; model y = x1-x6; model y = x1-x6; run; run; ③③、、SASSAS结果结果 ④ ④、、临界值确定与预测规则临界值确定与预测规则 临界值临界值:0.09,:0.09,预测规则预测规则: : P P>>0.09,0.09,一年后一年后上市公司将陷入财务困境上市公司将陷入财务困境; ;P P<<0.09,0.09,一年一年后后上市公司不会陷入财务困境上市公司不会陷入财务困境. . ⑤ ⑤、、预测准确率检验预测准确率检验 训练样本组训练样本组 检验样本组检验样本组STST公司公司 46/56=82.1% 44/55=80% 46/56=82.1% 44/55=80% 非非STST公司公司 433/504=85.9% 425/504=84.3% 433/504=85.9% 425/504=84.3% ⑥ ⑥、、讨论讨论 * * 模型可用于分类预测,也可用于概率预测(如违约率模型可用于分类预测,也可用于概率预测(如违约率预测);预测); * * 构建模型时应该避免非随机抽样,否则模型参数估计构建模型时应该避免非随机抽样,否则模型参数估计会产生偏差,特别是在构建概率预测模型时;会产生偏差,特别是在构建概率预测模型时; * * 如果需要采用分层抽样方法,则对参数估计方法应进如果需要采用分层抽样方法,则对参数估计方法应进行调整;行调整; * * 事先确定预测变量,否则的话,可以采用逐步回归法。
事先确定预测变量,否则的话,可以采用逐步回归法 ⑦ ⑦、、逐步回归方法与预测变量选取逐步回归方法与预测变量选取 预测变量选取是建立分类预测模型的关键步骤经常的预测变量选取是建立分类预测模型的关键步骤经常的情况是,知道预测变量的大致范围,但不知哪些变量具有较情况是,知道预测变量的大致范围,但不知哪些变量具有较大的信息含量大的信息含量 利用逐步回归方法,可以在这个范围内挑选出较佳的构利用逐步回归方法,可以在这个范围内挑选出较佳的构建建LogisticLogistic回归模型的预测变量组回归模型的预测变量组 现在,另外选取了现在,另外选取了1515个可能有用的预测指标个可能有用的预测指标y1-y15y1-y15,,对对11191119家上市公司利用逐步回归法建立预测模型家上市公司利用逐步回归法建立预测模型 ⑧ ⑧、逐步回归的逐步回归的SAS程序程序 proc logistic descending data=sasuser.sj00; model y=y1-y15 / selection=stepwise; run; ⑨ ⑨、、SASSAS结果结果 构建构建LogisticLogistic回归模型的变量为:回归模型的变量为: y3y3、、y4y4、、y5y5、、y6y6、、y10y10、、y11y11、、y12y12、、y13y13、、y14y14;; ⑩ ⑩、、预测规则与预测准确率预测规则与预测准确率 预测规则:预测规则: P P>>0.09,0.09,一年后上市公司将陷入财务困境一年后上市公司将陷入财务困境; ;P P<<0.09,0.09,一一年后上市公司不会陷入财务困境。
年后上市公司不会陷入财务困境 预测准确率预测准确率 STST公司:公司: 92/111 = 82.9%; 92/111 = 82.9%; 非非STST公司:公司: 864/1008 = 85.71%. 864/1008 = 85.71%. 3、Probir回归预测回归预测 数据结构为:数据结构为: ,因,因变量为离散变量(虚拟变量),一般的线性回归模型不适用变量为离散变量(虚拟变量),一般的线性回归模型不适用 Probit建立如下形式的回归模型:建立如下形式的回归模型: Probit回归同样通过最大似然估计来估计模型参数回归同样通过最大似然估计来估计模型参数 Probit回归的回归的SAS程序程序 proc probit data=sasuser.sj1; class y;(注意注意Logistic程序中没有这一项程序中没有这一项) model y=x1-x6; run; 经计算得到经计算得到: 预测规则预测规则: P>0.1一年后上市公司将陷入财务困境,或者就不会陷入一年后上市公司将陷入财务困境,或者就不会陷入财务困境。
财务困境 预测准确率:预测准确率: 训练样本组训练样本组 检验样本组检验样本组 St公司:公司: 46/56=82.1 46/55=83.6 非非St公司公司: 428/504=84.9 419/504=83.1 4、决策树方法、决策树方法 与前面讨论的几种分类预测方法相比,决策树方法是一与前面讨论的几种分类预测方法相比,决策树方法是一种近年来才出现的分类预测方法,其基本原理如下种近年来才出现的分类预测方法,其基本原理如下 ① ①、、熵与信息增量的概念熵与信息增量的概念 熵为一个统计学概念,设熵为一个统计学概念,设y y为一个状态随机变量,其熵的为一个状态随机变量,其熵的定义为:定义为: 在统计学中,熵是不确定性的度量,一个分类随机变量在统计学中,熵是不确定性的度量,一个分类随机变量的熵越小,其不确定性就越小,对其的预测就越准确。
从信的熵越小,其不确定性就越小,对其的预测就越准确从信息学的角度看,如果利用一个变量后,可以减少分类变量的息学的角度看,如果利用一个变量后,可以减少分类变量的熵,则该变量对分类预测就具有信息价值,熵的减少量越大,熵,则该变量对分类预测就具有信息价值,熵的减少量越大,该指标用于预测的信息价值也就越大该指标用于预测的信息价值也就越大 ②②、、信息增量的概念信息增量的概念 设设x x为某个指标,选取一个为某个指标,选取一个 ,按照条件,按照条件 是否满足,是否满足,可以将样本分为两组,分别计算各组中可以将样本分为两组,分别计算各组中y y的熵的熵 ,指标,指标x的信息增量定义为:的信息增量定义为: 其中,其中, 分别表示两组样本所占的比重显然,这样计分别表示两组样本所占的比重显然,这样计算的信息增量与算的信息增量与 的取法有关,对每个指标,通过计算机的取法有关,对每个指标,通过计算机搜索,可以找到一个最佳的搜索,可以找到一个最佳的 ,使其对应的信息增量达到,使其对应的信息增量达到最大。
最大 对每个指标,我们都可以计算其信息增量,这样我们就知对每个指标,我们都可以计算其信息增量,这样我们就知道哪个指标对分类预测的信息含量最大道哪个指标对分类预测的信息含量最大 ③ ③ 、分类预测方法、分类预测方法————决策树方法决策树方法 利利用用信信息息增增量量的的概概念念,,数数据据挖挖掘掘中中创创造造了了一一种种分分类类预预测测的的决决策策树树方方法法,,其其基基本本的的思思路路是是反反复复地地利利用用信信息息增增量量方方法法进进行行样样本本分分割割,,直直到到不能再分割、或者达到事先的约定为止不能再分割、或者达到事先的约定为止 然然后后沿沿着着决决策策树树的的树树系系结结构构,,我我们们就就可可以以写出决策树方法的预测规则写出决策树方法的预测规则 决决策策树树的的预预测测规规则则由由由由一一系系列列的的预预测测结结论论组成④④、、如何利用数据挖掘软件建立决策数预测模型如何利用数据挖掘软件建立决策数预测模型 * * 建立发掘数据库建立发掘数据库 将将SASSAS数据库转化为数据库转化为ExcelExcel数据库;数据库; 对对ExcelExcel数据库的格式进行变化(格式数据库的格式进行变化(格式/ /单元格单元格/ /数值),并数值),并 将将ExcelExcel数据库文件另存为带格式文本文件;数据库文件另存为带格式文本文件; 将其拷贝入数据挖掘子目录将其拷贝入数据挖掘子目录homehome下;下; 创建发掘数据库;创建发掘数据库; * *建立决策树模型建立决策树模型 打开发掘数据库;打开发掘数据库; 建立决策树模型,对模型的预测准确性检验检验;建立决策树模型,对模型的预测准确性检验检验; 写出预测规则。
写出预测规则⑤⑤ 、值得注意的问题、值得注意的问题 * 构建决策树是不能过分拟合样本数据;同样需要建立训构建决策树是不能过分拟合样本数据;同样需要建立训练样本组与检验样本组;练样本组与检验样本组; * 为避免出现挖掘过分追求总体预测准确率的现象,可采为避免出现挖掘过分追求总体预测准确率的现象,可采用适当接近两类样本比率的方法;用适当接近两类样本比率的方法; * 可以利用决策树方法发掘各指标预测财务危机的信息含可以利用决策树方法发掘各指标预测财务危机的信息含量排序;量排序; * 结合决策树与信号噪音比方法可得到预测指标信息含量结合决策树与信号噪音比方法可得到预测指标信息含量的度量方法,构造新的预测方法的度量方法,构造新的预测方法。





