好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据分析应用模拟题(二)(附答案).docx

6页
  • 卖家[上传人]:天****步
  • 文档编号:290338574
  • 上传时间:2022-05-09
  • 文档格式:DOCX
  • 文档大小:17.83KB
  • / 6 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 本文格式为Word版,下载可任意编辑数据分析应用模拟题(二)(附答案) 1(50.0分) 某金融机构为了研究其信用卡发放风险,收集整理了一些客户的数据,包括他们的根本信息,经济处境,以及是否拖欠还款等,概括如附表所示(已经将客户分为了训练集和测试集) Microsoft Office Excel 2022 工作表数据分析应用1训练数据.xlsx 数据分析应用1测试数据数据分析应用1测试数据.xlsx 举行数据预处理,并用不同的算法模型(规律回归、神经网络等)分析信用卡拖欠还款处境,结合测试数据比较模型的拟合优度,要求写出概括的思路过程 答案: 1、由题意,可以确定此题中年龄、教导水平、当前工作年限、当前居住年限、家庭收入、债务占收入比例、信用卡负债、其他负债等为自变量,还款拖欠处境为因变量 2、对数据举行预处理: 本案例数据均为数值型,符合模型创办要求; 本案例数据不存在缺失值,故此项不用处理; 通过datahoop平台箱形图可知,家庭年收入一项奇怪值较多,但是结合实际处境认为可能是有特殊人群存在,故此处不做处理 查看训练集数据可知,本案例样本均衡,可以举行模型创办。

      下边分别用规律回归、神经网络、SVM举行模型测试 3、(1)规律回归: 首先举行变量的相关性检查,将训练集导入平台,通过datahoop平台相关系数矩阵分析得出如下相关系数矩阵 由相关系数矩阵得知变量之间虽有相关性但相关性不高,可以直接举行规律回归分析. 开启datahoop平台预料分析,将训练数据放入训练表,测试数据放入测试表,选择相应的自变量和因变量,选择规律回归结果如下: 由模型训练结果可知Accuracy,AUC值,切实率召回率F1值都对比高,模型拟合效果较好,训练误差不大 将模型预料结果中的预料数据和测试集中的实际数据比较,得到混淆矩阵并计算出相应的切实率和召回率如下: 由混淆矩阵计算得出的切实率和召回率都对比高,模型泛化误差不大,模型整体预料效果较好 (2)神经网络: 概括描述同规律回归,模型训练结果如下: 将测试结果和测试集中的实际分类比较,得到的混淆矩阵及切实率、召回率、预料率,F1值结果如下: 由训练结果可以看到Accuracy、AUC、切实率召回率等都较大,模型拟合效果较好,训练误差不大; 由测试结果可知Accuracy、AUC、切实率召回率等都较大,模型测试效果较好,泛化误差不大。

      (3)SVM: 导入datehoop平台得到如下训练结果: 将测试结果和测试集中的实际分类比较,得到混淆矩阵如下: SVM模型训练结果可知Accuracy、AUC值均较高,切实率和召回率都较大,模型拟合效果较好,训练误差不大; 由预料结果和测试集中的实际结果比较,模型ACCURACY值不高,预料为1召回率和F1值较小,模型预料效果不好,泛化误差较大 4、通过比较以上3种分类模型的对比,规律回归整体精确度最高,SVM模型最差,在此案例中,我们更关注客户是不是会拖欠贷款这一点,即我们更关注分类结果为欠款(即为1)的召回率的大小,比较三个模型可知,神经网络这一模型1的召回率最大,因此三个模型中神经网络的预料效果最好 2(50.0分) 为了研究好评率与品牌、价格的关系,某公司收集如附表所示数据,数据收集的信息包含的评论得分和评论内容以及品牌和价格等信息 数据数据.xlsx 对数据举行预处理,选择适合的模型分析好评率与品牌、价格的关系,要求写出细致的思路和过程 答案: 1、首先对数据举行预处理: 查看数据可知不存在缺失值,故此项不用处理。

      由于品牌中存在非数值型数据,因此对品牌数据举行数值化,编码如下: 品牌 360 21KE HTC LG OPPO vivo ZUK 锤子(smartisan) 飞利浦(PHILIPS) 华为(HUAWEI) 金立(Gionee) 酷派(Coolpad) 价格属于连续型变量,因此需要离散化,离散结果如下: 价格 500-1000 1000-1500 1500-2000 2000-2500 2500-3000 3000-3500 3500-4000 5000-6000 6000以上 编号 onej twoj threej fourj fivej sixj sevenj eightj ninej 编号 1 2 3 4 5 6 7 8 9 10 11 12 由题意可知分析好评率同价格和品牌、价格等的关系,因此根据已知数据构建新的变 量好评率(好评率=好评数/总评论数*100%),计算出的好评率仍旧是连续型数据,举行离散化处理如下: 好评率 0.82-0.93 0.94-0.95 0.96-0.97 0.98-1 编号 hp1 hp2 hp3 hp4 将数据导入datehoop平台举行奇怪值处理,通过箱线图可以看到虽然有奇怪值,但是属于温柔奇怪值,此项不做处理。

      2、对应分析 好评率处理后数据 将品牌和好评率举行对应分析,交错图及因子付出率如下 从因子付出率可以看到提取两个因子的付出率就达成了80%以上,因此提取两个因子即可 根据对应分析的图表可以看四处于hp1也就是低好评度的品牌主要有品牌3、9接着较低好评度品牌有1、2、8、11较高好评度品牌包括5、10、12高好评度品牌有6、7、4 因此品牌好评率分布为: 好评率等级品牌 低级HTC飞利浦 较低360,21KE、锤子、金立 较高oppo、华为、酷派 — 6 —。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.