好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

关于深圳市空巢老人用户手机识别问题.doc

20页
  • 卖家[上传人]:飞***
  • 文档编号:3587239
  • 上传时间:2017-08-08
  • 文档格式:DOC
  • 文档大小:530.50KB
  • / 20 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1摘要本文选取深圳市用户作为研究对象, 运用 spss 软件对用户信息进行数据分析,以研究识别该城市空巢老人号码、空巢老人的子女号码及所在城市的问题对问题一,我们用 spss 软件先在用户数据中挑选出年龄大于 50 岁的用户,然后计算出这些用户的长途费占通话费的比例,综合考虑各种因素,采用主观赋权[1]对年龄、短信费、流量费、套餐档次、长途费占通话费的比例 5 个指标采用 Logistic 回归分析模型进行识别空巢老人号码在年龄大于 50 岁的用户中计算得出长途费占通话费比例大于平均值 0.1901,短信费小于均值2.3093,流量费小于均值 3.1184,套餐档次小于均值 107.49 的空巢老人用户有 4024 个,部分老人的号码见附表 1.对于问题二,我们分析了第一问识别出来的空巢老人号码及其号码的通话行为,参考所给的实际数据情况,通过挖掘数据设计建模宽表变量依据宽表格式要求,对空巢老人号码、通话清单资料和主叫被叫通话详单数据进行数据预处理我们将号码分为正负样本,就是说满足主叫号码归属地与被叫号码漫游地相同、主叫号码漫游地与被叫号码归属地相同、通话开始时间相同等这些规则的样本标识为正样本,即是空巢老人的子女的号码,否则为负样本。

      然后采用识别模型,识别出空巢老人本月与各个号码通话时长大于180秒的号码和通话次数所占比例相对较大的号码通过进行比较识别出空巢老人子女的号码,再根据其子女号码归属地可以识别出其子女所在城市关键词: Logistic 回归分析模型 空巢老人 年龄大于 50 数据挖掘 识别模型 正负样本2一、 问题重述现代科技的发展日新月异,我们所处的时代也在进行着一轮又一轮的“革命” 这些革命使我们的生活变得更加丰富多彩,随着移动通信、互联网业务的迅速发展,已经从生活奢侈品变成了生活日用品,是人们日常生活中不可缺少的一部分人们的生活方式也发生了很大的改变,人们可以随时随地通过和对方讲话,也可以通过发短信、上网联系对方科技的突飞猛进确实给我们带来了很多便利随着人口政策的影响和跨地域社会流动的加剧,中国“空巢老人”越来越多,进入空巢的年龄越来越年轻,空巢期也越来越长,目前我国城乡空巢家庭超过 50%,部分大中城市达到 70%;空巢老人的健康和安全已经成为社会关注的重点问题所谓“空巢老人”就是身边无子女共同居住,老人独自生活,包括单身空巢和夫妇两人的空巢,他们的子女一般在其它城市、或者在同一城市其它地区上学或者工作,平时很少相聚,主要通过互相联系。

      而不同的人群,所需要的产品和服务也大不相同,例如:空巢老人、学生、上班族等,由于经济条件和需求等各方面的因素,他们所需的产品和服务会大不相同,为了便于针对不同用户推出合适的产品和服务,我们需要精准地识别用户类型下面我们将考虑准确识别用户中空巢老人的数学模型问题,解决以下问题:(一) 、根据各个用户资料,运用合理的数学模型,准确识别出该城市的空巢老人的号码(二) 、结合问题一,并根据通话清单表,识别出这些空巢老人的子女的号码及所在城市 二、问题分析2.1 对问题一的分析 该城市本网的公众用户大致可以分为两类,分别是空巢老人和非空巢3老人空巢老人的年龄一般在 50 岁以上,子女不在身边,大多数都是通过与子女联系,通话费用较高,子女在本地的市话费所占比重较大,长途费较少,子女在外地的长途费所占比重较大,市话费较少,但老人一般不怎么上网也不怎么发短信,所以上网费用和短信费用都较少由于现在的很多套餐都是针对年轻人的,所以空巢老人们大多都使用档次较低的套餐为了尽可能的客观准确的识别出空巢老人,我们先从题目给的用户资料表中找出年龄、流量费、长途费等 5 个指标,根据深圳市 2012 年 2 月用户的各种资料,建立Logistic 模型[2]识别出该城市的空巢老人的号码。

      2.2 对问题二的分析本网给出的大量的丰富可靠的数据是通话行为的详单数据,空巢老人及其子女的通话行为能表现出与其他号码不同的特征,依据这一思想,借助数据挖掘的技术手段,通过对大量通话行为的详细的分析建模,结合分析用户资料表和通话清单表的数据的关联关系,再根据第一问识别出来的空巢老人,由这些关联关系可以帮我们识别出空巢老人的子女的号码,再根据号码的归属地可以识别出其所在城市具体而言就是通过分析主叫号码归属地与被叫号码漫游地、主叫号码漫游地与被叫号码归属地、通话类型、通话开始时间、通话结束时间等因素,进行数据挖掘建模,从而准确的识别出空巢老人子女的号码及所在城市三、模型假设1、假设性别对用户没有影响;2、假设题目给的数据中除少数部分不合理外剔除不考虑,其他数据均可以使用;3、 假设本文中提取的用户信息不随时间的变化而改变;44、假设年龄缺失的用户的年龄也服从正态分布;四、符号说明:自由度df:即 值sigp:长途费占通话费的比例z:空巢老人的预测概率值P:自然数对数e:常数B:标准误差.SE: 表示各类案例数目N五、模型的建立与求解5.1 问题一的模型的建立与求解首先,我们通过对题中所给的附件里的用户数据进行分析。

      对年龄从小到大进行排序并挑选出年龄大于 50 岁的用户5.1.1 模型的建立5用 SPSS 软件中的 Logistic 回归分析[3],对长途费用占通话费用的比例、套餐档次、流量费、短信费进行分析,输出如下结果,下面进行逐一分析:(1)选择的案例总数以及全体案例总数(表 1)用 表示各类案例数目,NPercent 表示各类案例的百分比案例处理汇总未加权的案例 a N 百分比包括在分析中 50669 97.1缺失案例 1487 2.9选定案例总计 52156 100.0未选定的案例 0 .0总计 52156 100.0a. 如果权重有效,请参见分类表以获得案例总数表 1)由表1可以看出,选定的案例为52156,包括在分析中的案例为50669,缺失案例为1487,缺失案例占选中案例的2.9%,因总体案例较大,缺失案例所占比例较小,分析过程中不予考虑2)计算出这些用户的长途费用占通话费用的比例并用spss软件算出其均值,如下表:统计量长途费占通话费比例有效 50762N缺失 1394均值 .19016统计量长途费占通话费比例N 有效 50762缺失 1394(表 2)我们根据用户的长途费用所占通话费用的比例的平均结果0.1901分为两类:大于等于0.1901 的地区用 “是” 表示,反之用 “否” 表示。

      现在,表 3 显示, “是” 用0 表示, “否” 用1 表示也就是说,在这次 SPSS 分析过程中,0 代表长途费用所占比例高于平均值的状态,1 代表长途费用所占比例低于平均值的状态记住这个分类因变量编码初始值 内部值否 0是 1(表 3)5.1.2 下面对模型进行检验(1) Omnibus Tests of Model Coefficients(模型系数的综合检验)(表 4)中给出卡方值及其相应的自由度、P值即Sig.值取显著性水平0.05,考虑到自由度数目df=1,在Excel 中的任意单元格输入公式“=CHIINV(0.05,1)”,回车,就可以查出卡方临界值3.84145914,我们计算的卡方值67223.855,大于临界值,并且相应的Sig.值小于0.05,因此在显著性水平为0.05 的情况下,这些检验都不成问题7模型系数的综合检验卡方 df Sig.步骤 67223.855 1 .000块 67223.855 1 .000步骤 2模型 67223.855 1 .000(表 4 )(2)Model Summary(模型汇总)模型摘要中给出最大似然平方的对数、Cox-Snell 拟合优度以及Nagelkerke 拟合优度值(表 5)。

      最大似然平方的对数值(-2loglikelihood=19.718)用于检验模型的整体性拟合效果,该值在理论上服从卡方分布,上面给出的卡方临界值3.84145914,因此,最大似然对数值检验通过模型汇总步骤 -2 对数似然值 Cox & Snell R 方 Nagelkerke R 方2 19.718a .735 1.000a. 因为已达到最大迭代次数,所以估计在迭代次数 20 处终止 无法找到最终解表 5)(3)Classification Table(最终预测分类表)经过迭代运算,模型参数逐渐收敛到稳定值,于是我们得到最终模型参数利用最终的logistic 模型,可以对因变量进行预测,预测结果分类列入下表(表 6)可以看出,观测值“是”有4024个(是 =1),相应的预测值全部是“是=1”预测正确为4024/4024*100%=100%;观测值“否”有46644 个(否=0),8相应的预测值有46644个“否=0”,1个“是=1”,也就是说,预测失败1 例,预算正确率为46644/46645*100%=99.965%,总的预测正确率为 总的正确率= 4640210%9.81包括在分析中的全部50669个样品有50668 个预测正确,一个预测失败,模型效果良好。

      分类表 a已预测空巢老人已观测 否 是 百分比校正否 46645 1 100.0空巢老人是 0 4024 100.0步骤 2总计百分比 100.0a. 切割值为 .500(表 6)通过以上对模型系数、整体拟合效果和正确率检验可知该模型非常显著可以用于对空巢老人的识别5.1.3 模型的求解:不在方程中的变量得分 df Sig.套餐档次 61.263 1 .000步骤 0 变量流量费 6.071 1 .0149短信费 64.262 1 .000长途费占通话费比例 790.988 1 .000总统计量 906.304 4 .000(表 7)由(表 7)中数据可知套餐档次、流量费、短信费和长途费占通话费比例的sig 值都较小,显著性都较高,所以在识别是否为空巢老人的问题中起到了重要限制作用进一步求解有方程中的变量B S.E, Wals df Sig. Exp (B)长途费占通话费比例9048.240 2201.530 16.892 1 .000 .步骤 2a常量 -1719.936418.510 16.889 1 .000 .000a. 在步骤 1 中输入的变量: 长途费占通话费比例.(表 8)由(表 8)中结果可以得到下面的模型: 179.369048.201 zpe其中 表示空巢老人的预测概率值,在模型中看到,常数项变量z系数的p10wald检验在0.05的显著性水平上是显著地。

      所以说长途费用占通话费比例越大就越有可能是空巢老人通过以上分析表明:套餐档次、流量费、短信费越低而长途费用占通话费用比例越高是空巢老人的可能性就越大根据这个些条件可以识别出空巢老人,由用户资料表可以识别出空巢老人的号码,部分结果见附表15.1.4 年龄缺失用户的分析 我们对年龄缺失的用户进行分析,用spss软件对年龄进行描述统计分析得出:年龄不为缺失值的用户服从正态分布如(图 9)所示,故可以假设年龄为缺失值的用户的年龄也服从正态分布仍然用Logistic回归分析模型,计算出长途费用占通话费用的比例的均值并将其分为高于平均值和低于平均值两种类型经过模型系数的综合检验、模型汇总得出最终预测分类表,然后对模型进行求解,计算套餐档次、流量费、短信费、长途费用占通话费用的比例的sig值,得出它们的显著性水平,进一步求解应用Logistic模型判断变量对识别是否为空巢老人的影响程度根据这些条件即可识别出年龄为缺失值的用户的是否是空巢老人,再通过用户资料表即可识别出年龄为缺失值的用户中空巢老人的号码11(图9)5、2 问题二的模型的建立与求解5.2.1 数据挖掘模型根据对问题的理解,参考所给的实际数据情况,。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.