
6 孟生旺:广义线性模型—发展与应用.ppt
36页第第 十十 二二 届届 中中 国国 精精 算算 年年 会会 The 12th China Actuarial Annual Conference广义线性模型:发展与应用广义线性模型:发展与应用孟生旺中国人民大学统计学院Email:mengshw@主要内容主要内容•基本的广义线性模型:理论与应用基本的广义线性模型:理论与应用–模型评价–费率约束•广义线性模型的推广与应用广义线性模型的推广与应用–分布假设的推广–GAM与GAMLSS(GAM for Location, Scale and Shape)–神经网络与回归树•应用案例应用案例2基本基本GLM:理论与应用:理论与应用•分布假设:–正态–泊松、负二项:索赔频率–伽马、逆高斯:索赔强度–Tweedie:纯保费–二项:续保率•连接函数:–恒等:加法模型–对数:乘法模型,预测值大于零–logit:预测值在(0,1)区间3•Tweedie、泊松和伽马的比较:–Tweedie:–泊松:p=1–伽马:p=24•模型评价模型评价1:偏差–近似服从自由度为n - p的卡方分布。
除泊松外,效果不是很好–对于嵌套模型,偏差之差近似服从 p - q 的卡方分布,近似效果较好–注:SAS中称fD为偏差,称D为尺度偏差5•模型评价模型评价2:残差(下页图示)–Anscobe残差:–Deviance残差:–若分布假设是合理的,标准化处理后近似服从标准正态分布–若偏差di的绝对值大于1,说明对这个观察值的拟合效果较差67l 模型评价模型评价3:Type 1 和 Type 3 分析LR Statistics For Type 3 Analysis Source DF Chi- Sq Pr > Chi-SqOwnerAge 7 52.81 <.0001Model 3 100.54 <.0001CarAge 3 122.52 <.0001LR Statistics For Type 1 Analysis 2*LogSource Likelihood DF Chi- Sq Pr > Chi-SqIntercept -1456.5376OwnerAge -1438.7844 7 17.75 0.0131Model -1370.3694 3 68.41 <.0001CarAge -1247.8460 3 122.52 <.00018• 模型评价模型评价4:标准误、置信区间和p值 Analysis Of Maximum Likelihood Parameter EstimatesParameterDFEstimateStandard ErrorWald 95% Confidence LimitsWald Chi-SquarePr > ChisqInterceptIntercept1 15.13385.13380.06370.06375.00905.00905.25865.25866499.856499.85<.0001<.0001OwnerAgeOwnerAge17-2017-201 10.22630.22630.11070.11070.00940.00940.44330.44334.184.180.04090.0409OwnerAgeOwnerAge21-2421-241 10.22870.22870.05980.05980.11150.11150.34590.345914.6314.630.00010.0001OwnerAgeOwnerAge25-2925-291 10.16420.16420.04380.04380.07830.07830.25020.250214.0414.040.00020.0002OwnerAgeOwnerAge30-3430-341 10.11430.11430.04200.04200.03210.03210.19660.19667.437.430.00640.0064OwnerAgeOwnerAge35-3935-391 1-0.0877-0.08770.04110.0411-0.1684-0.1684-0.0071-0.00714.544.540.03300.0330OwnerAgeOwnerAge40-4940-491 1-0.0129-0.01290.03580.0358-0.0831-0.08310.05740.05740.130.130.71970.7197OwnerAgeOwnerAge50-5950-591 10.00690.00690.03720.0372-0.0661-0.06610.07990.07990.030.030.85360.8536OwnerAgeOwnerAge60+60+0 00.00000.00000.00000.00000.00000.00000.00000.0000. .. .CarAgeCarAge0-30-31 10.69900.69900.05160.05160.59780.59780.80020.8002183.32183.32<.0001<.0001CarAgeCarAge4-74-71 10.61300.61300.05160.05160.51190.51190.71410.7141141.33141.33<.0001<.0001CarAgeCarAge8-98-91 10.35580.35580.05980.05980.23860.23860.47300.473035.4335.43<.0001<.0001CarAgeCarAgez10+z10+0 00.00000.00000.00000.00000.00000.00000.00000.0000. .. .ScaleScale1 10.98520.98520.12340.12340.77070.77071.25941.25949l模型评价模型评价5:把样本数据分为三组(数据充足)l训练样本(training data)l测试样本(test data)l评价样本(validation data)l模型评价模型评价6:Box-Cox检验10来源:Anderson etc.(2007), Practitioners’ guide to GLM11•模型比较模型比较:信息准则–AIC或BIC的值越小越好。
–误差平方和的比较? 12GLM的优缺点的优缺点•优点:–统计检验–处理相关性和交互作用(见下页)–现成软件•缺点:–无法处理加法和乘法的混合模型–参数模型,函数形式有限–寻找交互项:耗时 13•费率约束:–A区域的费率系数不超过1.20–B区域的费率系数保持在当前水平1.10不变•如何解决?–传统方法:–方法 2:抵消项–方法 3:一般约束条件下的广义线性模型14费率约束的处理费率约束的处理性别区域抵消项男Alog(1.2)Blog(1.1)Clog(1)Dlog(1)女Alog(1.2)Blog(1.1)Clog(1)Dlog(1)性别区域男A+B(基准水平,系数=1)CD女A+BCD 费率约束的处理:抵消项费率约束的处理:抵消项 例:区域A和B的费率系数分别限定为1.2和1.1,区域C和D不受约束, 另一个费率因子为性别假设不存在其他费率因子15•权重与抵消项的关系:泊松回归为例:–因变量:索赔次数(C)•权重:无•抵消项:log(风险单位数)–因变量:索赔频率(F)•权重:风险单位数(e)•抵消项:无16•费率约束情况下,何时不宜使用抵消项?–例:公司希望开拓高端住宅保险市场,措施之一是适当降低其费率•问题:保额与区域高度相关•应用抵消项的结果:区域因子会调整,使得高端住宅的费率仍然较高•解决途径?方法3,一般约束条件下的广义线性模型1718方法方法3 :: 一般线性约束下的费率厘定一般线性约束下的费率厘定约束条件:参数估计:GLM的推广的推广 与应用与应用•分布假设的推广分布假设的推广–过离散:•混合泊松分布:泊松-逆高斯,泊松-对数正态–零膨胀:•零膨胀模型–长尾:•对数正态,帕累托–0-1之间取值的变量:•Beta分布19–广义可加模型广义可加模型(Generalized Additive Models,GAM)–GAMLSS模型(GAM for Location, Scale and Shape)20–神经网络模型神经网络模型21•神经网络模型的优点:–广义线性模型的推广。
–非线性–无需事先指定解释变量与因变量之间的函数关系–可以以任意精度逼近任意的连续函数–预测效果通常要优于常用的广义线性模型,但有例外22•神经网络的缺陷:–缺乏进行统计推断和模型检验的统计理论–模型参数不易解释–预测过程类似于一个黑箱–有可能会引入不必要的交互项,导致过拟合23–回归树回归树•优点:–无需对因变量和解释变量之间的函数关系作出假设–可以方便地处理交互作用•缺点:–拟合值是分段常数,不大可能产生很好的拟合效果24–最小偏差法及其推广最小偏差法及其推广(下页)•优点:建立加法和乘法的混合模型•缺点:没有严格的统计检验25 26应用案例应用案例•来源: Ismail et al.(2007) 和Cheong et al.(2008)•马来西亚车险汇总数据27分类变量水平保障类型综合险非综合险汽车产地国内国外用途及性别男性个人女性个人商务车龄0至1年2至3年4至5年6年以上地区中部北部东部南部东马28系数(括号中表示基准水平)线性回归泊松回归负二项回归泊松-逆高斯回归截距β00.0712-2.4921 -2.5781-2.5960非综合险(综合险)β1-0.0110-0.5615 -0.6780-0.6809国外(国内)β2-0.0036-0.0924 -0.0829-0.0821商务(男性个人)β3-0.0415-6.0618 -6.0551-6.0582女性个人(男性个人)β4-0.0168-0.5149 -0.5483-0.5544车龄2至3年(0至1年)β5-0.0187-0.3871 -0.3302-0.3057车龄4至5年(0至1年)β6-0.0274-0.6390 -0.5657-0.5399车龄6年以上(0至1年)β7-0.0315-0.7798 -0.6337-0.6140东部(中南部)β8-0.0140-0.4428 -0.4367-0.4345东马(中南部)β9-0.0137-0.5169 -0.5144-0.5144北部(中南部)β10-0.0075-0.2155 -0.1498-0.1422AIC1001.20901.73797.43796.53广义线性模型的参数估计值广义线性模型的参数估计值29广义线性模型的拟合结果比较广义线性模型的拟合结果比较30回归树的结果回归树的结果31模型参数个数误差平方和(SSE)类线性回归1119.080.7274回归树1116.760.7606泊松-逆高斯回归1215.080.7846负二项回归1214.730.7896泊松回归1113.040.8138神经网络(1个神经元)1312.300.8242神经网络(2个神经元)255.850.9165神经网络(3个神经元)375.110.9270模型的模型的误差平方和比差平方和比较32费率率约束束约束:下述三个类别的预测值落在 [0.01, 0.03]。
风险类别保障类型汽车产地用途和性别车龄地区索赔频率观察值索赔频率拟合值1综合险国内男性个人2~3年东马0.02800.03352综合险国内商务2~3年东马0.00000.00013综合险国外女性个人6年以上东马0.01260.012333对选定的三个风险类别约束前后的索赔频率预测值对选定的三个风险类别约束前后的索赔频率预测值约束:索束:索赔频率的率的拟合合值要落在区要落在区间[0.01, 0.03]内内34对所有风险类别约束前后的索赔频率预测值对所有风险类别约束前后的索赔频率预测值约束:索赔频率的拟合值不超过约束:索赔频率的拟合值不超过0.05小结•预测精度:神经网络模型•方便性、实用性、可解释性:–泊松回归–伽马回归–Tweedie回归–Logistic回归,Beta回归35谢谢!36。
