好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

实验数据分析.docx

20页
  • 卖家[上传人]:博****1
  • 文档编号:493103400
  • 上传时间:2023-05-14
  • 文档格式:DOCX
  • 文档大小:455.95KB
  • / 20 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 实验 8-1 数据分析实验目1. 理解数据挖掘的一般流程2. 掌握数据探索和预处理的方法3. 使用PHSTAT软件,结合Excel对给定的数据进行手工预处理4. 使用WEKA软件,对给定的数据进行预处理二、实验内容在 D 盘中以“班级-学号-姓名”命名一个文件夹,将下发的数据拷贝到该文件夹下,根据不同要求,对下发的文件进行相应的数据分析和处理0.据集介绍银行资产评估数据bank-data.xlsx,数据里有12个属性,分别是id (编号), age (年龄),sex (性别),region (地区),income (收入),married (婚否), children(子女数),ca(是否有私家车),save_ac(是否有定期存款),current_act (是否有活期账户),mortgage (是否有资产抵押),pep (目标变量,是否买个 人理财计划 Personal Equity Plan)1.数据探索之数据质量分析新建“1-数据质量分析.xlsx”文件,导入D-bank_data.xlsx”文件数据,请 你用EXCEL对其进行数据质量分析要求】(1)请找出 bank_data.xlsx 表中的含有缺失值的记录。

      2 )请你用PHSTAT软件绘制"income(收入)属性的箱线图和点比例图, 筛选出异常值3)计算Whisker上限、Whisker下限,并利用高级筛选,找出该属性的 异常值记录提示】(1)请找出 bank_data.xlsx 表中的含有缺失值的记录方法 1:条件格式法1) 选取A1 : L601区域2) 开始 --> 条件格式 --> 新建规则( N ) ... ,在"新建格式规则"对话框中,选择空值如图 8-1 所示图 8-1 “新建格式规则”对话框3 )点击“格式(F)...”按钮,设置特殊格式 ,高亮显示 如图 8-2 所示聊建窃式观则 .初Ik銘一迭饪担则拱型G):A草干各自恒诅骨阡育亘云榕的格弍卄只划目苕以下冋音的莹元择盪蛊俗我•収对排电罕苛或早宜的数倚聂蛊格弍A伐汨吕二或牴二立均宜的敕僖设橙格弍”仅对唯一值或亘复值讣云档弍A伸用決式磅卡再订旨榕式的单并格编辑规则呪由(1):只苑滦定以卜杀件的早兀梏佐畫梏云足)空值 A隨好 徽软卓越AaEbCc [格式迪…]| 确是 邨肖图8-2 设置条件格式方法2:1 )缺失值定位开始” T “编辑/查找和选择” T “定位”对话框T “定位条件”按钮。

      2 ) “定位条件”对话框9选择“空值”,如图8-3所示血31X^0^矗臺拨E..ilrSiU)JttSM) 圭钿式(Q 常至化DS{辰验证酗 注聞內彖回"ST二H玉F-1瞇口 自打内醋异单忒⑰z 'i:亠」:訂 O ;^:- 'J .,.»4.卜-.:•丄⑺ n.n 训如:刊-im 早士端為1*:乞直訂 -J.^TiIr 1-自hbiiJw •棗骨描式CD■号甫期a® 已麹睁效性蚩■ Rtffi'J) 画全郁2相S®)厩」 邱消- - 一走站** ;图8-3 "转到(G)…"下拉菜单命令和"定位条件"对话框(2 )绘制“income”属性箱线图和点比例图高级筛选出异常值加载项 / PHStat” 9 “Descriptive Statistics” -> “Boxplot...” 或” DotScale Diagram. “命令如图8-4所示注意选中“income”属性,如果数据区域包括标题行(E1单元格),则勾选下面的First cell contains label选项,否则,不用勾选 First cell contains label 选项广 Mufaple Ikoups ・ LhEtacked厂 Mutple Groups - EtadeTGrojpinc Varifible Cdl Ranct—LUtpUt OptlDHE*auc PH5LIIZ-砒 a、更■岳暂知 逛 ■貞 屈CHS* -'Oai» Prep&fjfcflif IDins^pi^eSlvds-licf□■chi 口n •材Pnab^iEty-Bc Pret DnArbuliaml*TK|j«rKy UnJnbL^cru. Hlfflogrjm ft 旳恤ow, StlMW* RiJL.上直±曲!虻*2:5£詬01二|Frst cell ocntariE labelRaw Data Cell Range:Input OpiionE'■*' Sinab Gratp VariableSlxm-ff'd'LcnF C^apla^"TnJtiTm-^htipIv TnJti ^JniLrnmn'iMd ■■TarA-*Ewnpk Tmkc i^uirYwnva*d 口jml Mift^e-E*npie T«mOrw■川¥ Tjbvi & Chirti.. Tiw-H/jii- Tibm & ChirtL.CcwalOiimP":Five-Numbe『Summary:Cancela)b)畛离 FS HA RJ*.鶯-£S挪1 阿 述 WHIRAH5MLOkj wepwiMhn ■OiMcdpdw Ewdsks •口 rdakn-M^iig hDal HB^cwn.-PrcbahAm ft.叭th DhHhudorw »■Frefluit*icp WMbv跖■Swiping b-卜如冷Bffl 0 阳ConR^«rcv ^ilirvdi tPkt.Swripk She »Swm^nal-LjMf 1^・酣・Qwe-gjfipie Twis "-□■e-Wa^ tbWh Bk CMrw.・Twff-^inph Taila |L^iumniH-iMd D

      以及Whisker下限和上限表8-1 四分位数表箱线图公式数值最小值二MIN(E2:E601)5014.21或二QUARTILE.INC(E2:E601,0)取大值二MAX(E2:E601)或=QUARTILE.INC(E2:E601,4)78843.21第分位数二QUARTILE.INC($E$2:$E$601,1)17264.5第二分位数二MEDIAN($E$2:$E$601)24925.3(中位数)或=QUARTILE.INC(E2:E601,2)第三分位数=QUARTILE.INC(E2:E601,3)36172.675Whisker 上限=QL-1.5*(Qu-QL)-11097.763Whisker 下限=Qu + 1.5*(Qu-QL)64534.9375高级筛选,筛选出大于Qu,小于QL的离群点 1)设置条件区域,如图8-5 所示income<-11097.7625 >64534.9375图 8-5 高级筛选“条件区域” 2)设置高级筛选2.数据探索之数据特征分析建立“2-数据特征分析.xlsx”文件,导入D-bank_data.xlsx”文件,请你用 EXCEL 对其进行数据特征分析。

      要求】(1)针对age属性进行分布分析填写8-2和8-3表rmm1 im卡1 s!-B-珊図 画1肆S■&11nH训8—24ff^®^®^训训 8—3(2 )诺甫斤—爺sageasytffi~^s mxnms^Hl PHSTAT®:弃站 壷WM画3)回ffi、茁肓 >as®tffi、、对庄sisssffllo【劭】(1) age①甘川tffi(础曲芦)、s age s?、合州训8—44ff^^m®^^n训H>卡1 S 面馴WF馴 汁3100gOO1O2O00O7O6O5O4组距=INT(09/010)16O11表 8-5 年龄统计公式表年龄段N13年龄区间O13分组数据P13组中值Q13频数R13累积频数S13累积百分比T13青年N14=O6+O11=(O6+P14)/2{=FREQUENCY(B2:B601,P14:P16)}= R14+S13= S14/$O$4中年N15= P14+O11=(P14+P15)/2=R15+S14= S15/$O$4老年N16=O5=(P15 + P16)/2=R16+S15= S16/$O$4(2)数据分析工具分析1)EXCEL 数据分析"数据”选项卡T "数据分析”按钮T "直方图”选项T "直方图”对话框。

      注意,输入区域为:age数据,接收区域为:分组数据,输出区域为:分析结果放置区域如图8-6(a)(b)(c)所示2-涵跑歸(価疗融相超的川孰-Vlicrosoft Exnd西 惑血 h艇1 ■* 7希昭關艇辭冷B a idol处 Ulkl| h呱芈 nyri艇躺锯虑i为匚竝ZI耶助⑹"I累粗百分车①"I图表输出©礼■.踰心 琲([I.Ittr.iLJO输出区世© 新工佯表组IF) 韻工冋©图8-6(a“数据分析”路径(b)"数据分析”对话框(c “直方图”对话框结果如表 8-6 和图 8-7 所示表 8-6 数据分析工具直方图分析结果表接收频率累积%接收频率累积%3419。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.