
数学建模 医保欺诈行为的主动发现.doc
23页医保欺诈行为的主动发现摘要 对于医保诈骗行为,我们认为仅通过一个模型直接找出所有的欺诈类型既不准确,操作起来又比较困难所以我们根据题附件中的费用明细表,通过分析费用数据与诈骗行为之间的关系建立模型一;根据各个表中出现的异常值,我们将异常值视为可能是医保欺诈行为,并由此建立模型二 针对模型一,我们从三方面考虑首先,单张处方的总价过高可能为欺诈,但是考虑到总价与单价、数量之间的相互影响,对此我们先对单价、数量、总价进行相关分析,发现单价与总价呈弱相关;然后用聚类分析对医嘱子类、单价、数量、总价进行分类,案例数少的类即有欺诈嫌疑;其次,对病人ID号标记重复个案,由于重复个案所占比例较大,对重复个案进一步进行了聚类分析;最后,若下医嘱科室与病人科室不一致则可能为欺诈,对此我们绘制了简单线图,不在y=x直线上的即为欺诈记录 针对模型二,建立合理的欺诈评判标准,检测其中的异常数据,进而对医保行为作出识别首先,构建基于Logistic分析的精炼欺诈识别因子模型建立Logit回归模型并用SPSS软件进行统计分析,通过分析回归模型的拟合优度和因素显著性检验,提取出具有显著有效性的欺诈识别因子作为后续模型的学习样本标准。
构建无导师学习的自组织特征映射(SOFM)神经网络模型即以Logit统计分析提取的具有显著有效性的欺诈识别因子作为输入变量建立SOFM神经网络模型,导入所有待检测数据,通过SOFM神经网络模型仿真,将所有数据信息进行分类,输出结果为不同类型的数据,即可对医保欺诈行为进行主动识别关键词: 医保欺诈 标记重复个案 相关分析 logit模型 SOFM神经网络一、问题重述1.1问题的背景 随着我国社会医疗保险体系的不断发展,人民的医保福利水平日益提高,一些医保体系中的问题也日益显著,其中焦点问题之一就是医保诈骗行为1.2问题的复述 医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等请根据附件中的数据,找出可能的欺诈记录二、 问题分析 根据问题中对骗保人进行医保欺诈时的常用手段,以及可能属于医保欺诈行为的情况,经过分析我们可以将问题分为以下几个方面来解决。
1、判断是否为医保欺诈行为,需要从病人资料中的身份证号、医保手册号、Userupdate(用户更新次数)这三方面考虑对此利用SPSS软件使用标识重复个案、聚类分析的方法,通过分析运行结果,做出重复个案与主个案所占比例、聚类中两类所占比例的饼状图通过饼状图,可直观看出,所占比例的小的可能为欺诈记录2、首先第一步,对数据进行分析,构建基于Logistic分析的精炼欺诈识别因子模型 基于第一步处理的欺诈案评判标准数据间的关系,建立Logit回归模型并用SPSS软件进行统计分析,通过分析回归模型的拟合优度和因素显著性检验,提取出具有显著有效性的欺诈识别因子作为后续模型的学习样本标准 第三步,构建无导师学习的自组织特征映射(SOFM)神经网络模型即以Logit统计分析提取的具有显著有效性的欺诈识别因子作为输入变量建立SOFM神经网络模型,在待检测数据中抽取一部分样本数据训练SOFM神经网络,得到欺诈行为识别模型 第四步,导入所有待检测数据,通过SOFM神经网络模型仿真,将所有数据信息进行分类,输出结果为不同类型的数据,即可对医保欺诈行为进行主动识别 三、问题的假设1、假设医保欺诈只是患者单方面行为,不存在医患合谋和医疗机构“引至欺诈”情况。
2、假设数据来源真实有效 3,、假设分析过程中,数据无缺失 4、假设对每个聚类分析结果,使用同一评判标准5、假设附所有保险的有关规定没各个指标 6、假设所有的相关数据具有独立性相呼影响 四、符号说明变量 标准方差初始聚类中心 样本与聚类中心的距离 误差平方和准则函数欧式距离 新聚类中心Pearson相关系数 Pearson相关系数检验统计量2个一级指标i=1,2 5个二级指标i=1,2j=1,2,3 3个成对比矩阵i=1,2,3=矩阵按行求和矩阵的最大特征值W5个指标最终权重CT一致性检验指标 RI随机一致性指标CR一致性比率 t1欺诈程度阈值 五、模型的建立与求解5.1模型一:基于费用明细的医保欺诈行为主动发现5.1.1模型一的分析医疗保险欺诈行为,通过分析病人的费用明细表中的各项数据也可以找出可能的欺诈行为表现,主要从单张处方的总价过高、病人ID号是否重复过多、下医嘱科室与病人科室是否一致这三个方面考虑 在附件给出的表2中,通过对各个变量进行K均值聚类分析,可以将数据分为几类,案例数少的则可能是欺诈行为但是考虑到单价、数量、总价之间的相互影响,对此我们使用了SPSS中相关性分析找出三个变量的相关性,并用图标构建程序绘制了简单3-D散点图。
对于病人ID号与模型一的分析一样,使用标记重复个案的方法,找到重复的记录,即可能为医保欺诈行为而下医嘱科室与病人科室应该是一致的,若不一致即为欺诈,因此对下医嘱科室和病人科室绘制简单线图 5.1.2模型一的建立:(1)数据标准化 由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有n个样本,m个指标,则每个变量可表示为,均值 (1) 标准方差为 (2)标准化以后的式子为 (3)(2)聚类分析 系统聚类,将n个重复个案结果各自看成一类,然后规定样本之间的距离和类与类之间的距离开始,因每个结果自成一类,类与类之间的距离与个案之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的个案都成一类为止,最终完成分类。
1、 设有n个样本,令I=1,选取K个初始聚类中心:;2、 计算每一个数据样本与聚类中心之间距离: (4)如果满足;3、 计算误差平方和准则函数JC,公式如下: (5)4、 判断是否满足聚类算法结束条件:如果,则表示算法结束,否则,I=I+1,计算下一个新的聚类中心,并返回2,新的聚类中心计算公式如下: (6)距离:对重复个案结果进行聚类时,“靠近”往往由某种距离来刻画 令表示第个重复个案结果的第个指标,表示第个重复个案与第个重复个案之间的距离,最常见计算距离的方法是:欧几里德距离 (7) =éù=-êúëû上式即为欧氏距离 (3)相关性分析: 相关分析是描述两个变量间关系的密切程度,主要由相关系数值表示,当相关系数r的绝对值越接近于1,则表示两个变量间的相关性越显著。
双变量系数测量的主要指标有卡方类测量、Spearman相关系数、pearson相关系数等,在进行两者间的相关性检验时用pearson相关系数来判断,其公式为: (8)Pearson简单相关系数检验统计量为: (9)其中统计量服从个自由度的分布5.1.3模型一的求解 (1) 考虑到单价、数量、总价之间的相互影响,对这三个变量进行了双变量相关分析,图8为三个变量的相关性分析统计表, 图9单价、数量、总价的简单3-D散点图表-1单价、数量、总价相关分析统计表 图-1单价,数量,总价的简单3-D散点图(2)用k均值聚类分析对医嘱子类、单价、数量、总价进行聚类最终聚类中心结果见表-2,表-3是这四个变量的单因素方差分析表,表-4是运用k-均值聚类分析求出的重复个案数表-2 病人ID号重复个案的最终聚类中心 表-3 医嘱子类、单价、数量、总价的单因素方差分析表图-2 医嘱子类、单价、数量、总价的最终聚类中心条形图表-4 k均值聚类分析中的重复个案聚类上述所有统计结构的分析:(1)从相关分析的统计表中,可以看出单价与总价的相关性为0.456(弱相关),而数量与总价的相关性为0.116(不相关),所以认为,单价与总价有一定的相关性。
2)从图10中看出,将医嘱子类、单价、数量、总价分为10类;图12为医嘱子类、单价、数量、总价的每个聚类的案例数,发现第1、2、4类的单价过高;第3、10类退药数量大,第8类买药数量大;第1、3类单张处方退药金额大;第2、4、6类单张处方药费高以上所述的都有可能为医保欺诈记录3)图14统计出病人ID号重复个案占总数的77.6%,对此再进行聚类分析,结果见图15;由图16可知,第5、7、8、10类案例数较少,这些类的最终聚类中心大于25,此特征可能为欺诈 (4)根据图17绘制的下医嘱科室与病人科室简单线图,可以看出有个别记录不在y=x线上,即为下医嘱科室与病人科室不一致,因此为医保欺诈行为 (5)在图11的单因素方差分析中,医嘱子类、单价、数量、总价的P值均为0,说明各类在统计学上均有明显差异,将其作为分类标准是合适的5.2模型二的建立与求解5.2.1logit模型的建立 我们把事件发生的情况定义为1,事件未发生的情况定义为0这样在保险欺诈识别模型中,取值为0、1的因变量可以写作: (10)î我们通常以表示事件发生的概率(则事件未发生的概率为),并把看作自变量的函数。
在本论文中,医疗保险是医疗欺诈的概率为 对于是0-1型Bernoulli模型,有如下分布: (11)通过logistic转换,索赔事件的对数概率发生比写成logit模型: 。
