
数据挖掘技术和风险管理.doc
7页数据挖掘技术和风险管理数据挖掘技术和风险管理一、数据挖掘的定义一、数据挖掘的定义数据挖掘就是利用人工智能、统计分析以及其它建模方法,从大量不完全的、随机的数据中寻找数据之间的关系和有用的信息数据挖掘在营销、金融等行业的重要性已经被认识,所以企业一般都建立自己的数据库即客户关系系统(CRM),这为数据挖掘的发展提供了基础需要指出的是:数据挖掘并不仅仅是技术和算法的组合,它其实更像过程,这个过程的目的在于解决具体的问题或做具体的决策数据挖掘的过程一般如下:(1)问题的定义以及数据准备;(2)数据分析以及模型的建立3)模型的应用与检验第一步与第三步因问题的不同而不同,第二步具有一般性因而可以实现自动化由于实现第二步的方法以及模型可能有多个,最优化的模型可能会因定义的问题以及应用的领域不同而不同模型建立包括核心以及外部技术,自动化主要在核心之中应用数据挖掘一般是重复的过程,当数据与模型不再相合时,或数据已经过时了,数据挖掘就得重做尤其在金融部门,由于金融数据的高变动性,数据挖掘过程更加频繁这里数据挖掘的定义指按照某种商业目的,确定针对不同商业目的算法和技术,对大量的信息知识和数据进行有效的知识管理的工具。
二、数据挖掘和信用风险管理二、数据挖掘和信用风险管理数据挖掘目前在信用风险管理上应用得相当广泛,如:信用评分、数据库市场化、客户关系管理等等从目前的发展情形来看,数据挖掘技术不是信用风险管理的主流方法但是,从该技术的特点以及信用风险管理的目的和方法来看,应该是信用风险管理中重要的手段主要表现在如下几个方面首先,对贷款者进行信用计分信用计分是个贷业务中的重要方法,它是决定是否给予贷款的基准,信用计分是贷款者的信用级别高低的标志信用计分卡实际上是一种用于个人信用风险控制的数学模型它是利用数据挖掘技术对银行积累的大量客户历史数据进行分析,寻找出有关客户信用风险的特征值和规律,建立相应的数学模型,为新的贷款申请者或已有的客户评估风险例如申请计分模型专门用于对新申请客户的信用评估,它通过申请人填写的有关身份资料,即可以有效、快速地辨别和划分好/坏客户其次,数据挖掘还可以对贷款者的行为计分,例如对信用卡持卡人的消费行为和还款行为进行分析信用卡的主要利润来源即应收利息已经成为一些银行的利润点,但是利润点的增长需要从大量的个人特征和消费特征中找到特征,需要对信用卡的收入分析、持卡人消费分析、以及循环费用进行分析,对于滞留还款可能是潜在的损失,也可能带来潜在的利润,因此基于统计资料的估值方法不同于以往信用风险管理方法,后者重视的是对一些数理模型的应用,如果模型本身的假设与实际不符,则模型的结果不能取得令人满意的结果。
同时行为记分模型是通过对客户的消费行为进行监控和预测,从而达到评估客户信用风险的目的行为计分模型可用于信用额度的自动监控和调整、授权以及对坏账的预测例如,信用卡客户想增加信用卡的限额,那么这位客户的以前的消费及信用模式,就要通过使用行为记分模型进行分析以便获得认可最后,在对客户信用计分和行为计分的基础上,客户对银行的贡献度和利润才是信用风险管理的最终目标,这点和数据挖掘的目标一致,因此利润模型将是信用风险管理的重要内容,也是数据挖掘模型的最终目的,即挖掘出有价值的客户信用卡消费目前的主要利润来源是信用循环和预先借款利息,但是如何准确的找到合理的客户群就是传统的信用风险管理不能适用,需要从大量的数据对客户群总体分析,客户群风险/收益分析,客户群好坏分析等环节,对于单体客户应该对其效益、风险进行分析,从大量的统计结果找到规律,从而提高利润目前,大多数数据挖掘技术集中讨论在信用管理的第一阶段,即对申请者的接受与否进行分类和判断,对顾客的行为计分以及利润模型等相关研究比较少因此,需要开发高级模型以适应现代风险管理的需要三、数据挖掘方法和信用风险管理技术三、数据挖掘方法和信用风险管理技术1.信用计分模型信用计分模型设变量 x=(x1,x2,…,xp)描述申请者的特征,集合 G 表示好的客户全体集合,集合 B 表示坏的客户全体集合。
假设对每一个客户期望利润记为 L,而若将坏客户分成好客户造成的损失假设为 DpG表示申请者好客户的比例,pB表示申请者中坏客户的比例,p(x|G)表示好客户 G 中具有属性 x 的概率,q(G|x)表示具有属性 x 的客户是好客户的概率,p(x)表示申请者具有属性 x 的概率,因此如下关系成立 q(G|x)p(x)=P(x|G)pG, 同样,q(B|x)p(x)=P(x|B)pB因此得到.按照成本最小法则,希望预期收益不小于预期损失,因此判别准则为 Dp(x|B)pB≤Lp(x|G)pG定义集合假设概率 p(x|G)的密度函数为 f(x|G),概率 p(x|B)的密度函数为 f(x|B),因此集合 AG表示如下 AG=假定 f(x|G),f(x|B)服从正态分布,亦即可以得到记等式左边为,表示具有特征为 x 的申请者的信用计分,等式右边记为表示临界值,利用此模型可以对申请者进行判断和分类Error! Reference source not found. 2.消费者行为评估模型消费者行为评估模型为了准确了解消费者的可能带来的潜在损失,必须对消费者的行为进行评估,特别是还款行为进行分析假设一年之内有 6 个时期为免息期(每期 50 天)同时假设免息期之后 90 天内仍然不还款认为是违约,将 90 天分为 6 个期间,对应于不同的状态如正常,关注,次级,可疑和损失 5 个状态,记为{s0,s1,s2,s3,s4}。
以记号 Bij表示在第 i 期到第 j 期间内仍然没有还款的金额,Bii表示在第 i 期内未还金额总数例如 B12 表示在第一期到第二期内未还金额,Bn-1,n 表示在第 n-1期内截止到第 n 期未偿还金额因此得到一个矩阵因此定义转移概率为,得到转移概率矩阵为客户在时刻 t 的状态用 Xt表示,πt(i)=P(Xt=si)表示在时刻 t 处于状态 si的概率,pij(t,t+1)=P(Xt+1=sj|Xt=si)表示在时刻 t 从状态 si 出发在时刻 t+1 到达状态 sj的概率,表示状态之间的转移概率如果状态是平稳的,即 pij(t,t+1)=pij不依赖时间 t,那么在初始状态 s0在 t+1 转移到状态 sj 的概率 P(Xt+1=sj|X0=si)=Pt+1(i,j)状态 s5 在马尔科夫链中成为吸收状态按照马尔科夫链的理论和方法可以计算从不同的状态 sj 到状态 s5 的概率,并且可以计算处于某状态的平均时间和计算从某种状态最终进入违约状态的时间,为公司提供适当的策略以避免损失3.利润模型利润模型对于信用风险管理而言,降低风险提高利润才是最终目的因此利润模型可以从两个方面考虑即风险最小化或者利润最大化。
这里考虑在风险最小化基础上建立利润计分模型假设某申请者的信用计分为 s(x),pG和 pB分别表示总样本中好客户和坏客户的比例,q(G|s)和 q(B|s)表示信用计分为 s 的好客户和坏客户的概率,满足 q(G|s)+q(B|s)=1,p(s)表示信用计分为的客户的比例假设客户的预期盈利为随机变量 R,满足(1)如果被拒绝,那么 R=0O(2)如果被接受且是一个好客户,那么 R=L(s);(3)如果被接受但是成为坏客户,那么 R=-D(s)因此信用计分为 s 的客户的预期收益为. E[R|s]=Lq(G|s)-D(1-q(G|s))=(L+D)q(G|s)-D因此分类原则是假设 c 表示临界值,即如果 s≥c 表示申请者被接受因此信用计分高于 c 的申请者的收益为这里 F(c|G)和 F(c|B)表示在好客户和坏客户中计分低于 c 的概率在期望损失下界为 p*的限制下,求解如下问题从而可以确定最优信用计分 s*根据最优信用计分 s*,可以确定哪些客户能够在风险最小,从而达到利润最大的目的四、结论和现实意义四、结论和现实意义本文讨论了数据挖掘技术和信用风险管理的联系,提出了信用计分模型、消费者行为模型以及利润模型。
数据挖掘作为知识管理的手段和引擎,其技术不断被挖掘和探索对于信用风险管理而言,信用计分、消费者行为计分以及利润模型涉及到信用风险管理不同阶段决策,例如信用计分用于讨论是否接受申请者、信用额度上限等,消费者行为计分主要涉及消费者还款行为特征、违约状态的变化以及最终违约损失;利润模型将涉及影响到诸如营销、服务程度甚至与定价策略因此在大多数商业银行已经建立 CRM 的基础上,按照信用风险管理的框架下,结合数据挖掘手段和技术开展对 CRM 系统的利用,将有助于提高银行收益率近年来商业银行由于竞争激烈,已经逐步建立客户关系系统(CRM),因此已经累积大量的数据,而为了提高信用风险管理,可以配合客户关系管理,商业银行不但能找出黄金客户,并且能准确把握其需求,增加其贡献度,提高他们的忠诚度,从而延长客户与银行的交易生命期 O 而且商业银行更能够精准地将营销资源灌到那些有待采用适当手段提升到风险最小而效益较高价值的潜在黄金客户群中透过一系列客户关系管理和数据挖掘手段,商业银行可以以最低成本保有最有价值的客户,获取最大可能的利润数据挖掘是指从大量数据中寻找隐藏的信息,如趋势、特征及相关性的过程,也就是从数据中挖掘信息或知识。
具体到 CRM 中,商业银行可以通过数据挖掘,分别针对经营策略、目标定位、操作效能与测量评估等几个方面的相关问题,从市场与顾客所搜集积累的大量数据中高效率地挖掘出信用风险管理不同阶段最关心、最重要的答案,并且以此建立真正由客户需求出发的客户关系管理同时,完整的数据挖掘还可从数据仓库提供的大量顾客数据中,挖掘到充分的信息来指导银行的行动针对信用风险管理中不同的目的,两者可以有效地结合,提高数据挖掘的效率,达到风险管理的目的在信用风险管理第一阶段,即信用计分阶段,由于信用计分是针对所有申请者,因此根据 CRM 系统可以对每个申请者进行信用计分第二阶段,即在已经通过申请者的基础上,对各个成功申请者的消费行为和还款行为进行计分行为记分模型用客户过去的行为数据和规律来判断客户未来信用好坏的概率有了这个概率,就可以对信用好的客户调高信用额,出现延滞的也可以不催,即使催也只要提醒客户就可以了这样不但可以保持与客户之间的良好关系,还可以降低操作成本第三个阶段,属于风险利润模型,究竟哪些客户群能够给银行带来利润,将在行为计分和客户行为基础上进行利润分析,而且可以进行风险定价研究。












