电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

大数据挖掘r语言总结材料资料报告材料

18页
  • 卖家[上传人]:cl****1
  • 文档编号:482764332
  • 上传时间:2022-07-14
  • 文档格式:DOC
  • 文档大小:706KB
  • / 18 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、word成绩:总 结 报 告 课程名称:数据挖掘R语言 任课教师: 姓 名: 专 业:计算机科学与技术 班 级: 学 号:计算机科学与技术学院2018 年 6 月 19 日一、 数据预处理针对不同分析目标,选择合适的字段,并将字段值处理成适于分析的形式。必要时还需对原数据集进行统计变换后形成易于分析的形式。为每条数据添加字段:所属地区。根据下图中划分的美国四区,将每条数据中表示的案件发生地在该字段上划分为东北部、中西部、南部和西部四个值。首先导入数据:gundata-read.csv(d:/gun.csv,sep = ,stringsAsFactors = FALSE,header = TRUE,quote=”)然后将需要的字段取出来,在这里取出了一下几个字段:标号字段名含义数据类型1incident_id犯罪记录idnumeric2date犯罪日期dateTime3state犯罪案件所在的州string4city_or_county犯罪案件所在的市string6n_killed死亡人数numeric7n_injured受伤人数numeric15latitude犯案位置的纬度numer

      2、ic17longitude犯案位置的经度numericgundata,c(incident_id,date,state,city_or_county,n_killed,n_injured,congressional_district,latitude,longitude,state_house_district,state_senate_district)gd - subset(gundata,select=c(incident_id,date,state,city_or_county,n_killed,n_injured,congressional_district,latitude,longitude,state_house_district,state_senate_district)然后根据州字段将所有数据划分为四个地区阿拉巴马州 Alabama阿拉斯加州 Alaska 亚利桑那州 Arizona阿肯色州 Arkansas加利福尼亚州 California科罗拉多州 Colorado哥伦比亚特区Columbia康涅狄格州 Connecticut特拉华州 Delaware佛罗里达

      3、州 Florida佐治亚州 Georgia夏威夷州 Hawaii爱达荷州 Idaho伊利诺州 Illinois印弟安纳州 Indiana爱荷华州 Iowa堪萨斯州 Kansas肯塔基州 Kentucky路易斯安那州 Louisiana缅因州 Maine马里 Maryland麻塞诸塞州 Massachusetts密歇根州 Michigan明尼达州 Minnesota密西西比州 Mississippi密里州 Missour蒙大拿州 Montana布拉斯加州 Nebraska华达州 Nevada新罕布希尔州 New Hampshire新泽西州 New Jersey新墨西哥州 New Mexico纽约州 New York北卡罗来纳州 North Carolina北达科他州 North Dakota俄亥俄州 Ohio奥克拉荷马州 Oklahoma俄勒冈州 Oregon宾西法尼亚州 Pennsyivania罗德岛州 Rhode Island南卡罗来纳州 South Carolina南达科他州 South Dakota田纳西州 Tennessee德克萨斯州 Texas犹他州 Utah佛蒙特州 Ver

      4、mont弗吉尼亚州 Virgina华盛顿州 Washington西佛吉尼亚州 West Virginia威斯康辛州 Wisconsin怀俄明州 Wyoming东北部Maine,New Hampshire,Vermont,Massachusetts,Rhode Island,Connecticut,New York,Pennsyivania,New Jersey中西部Wisconsin,Michigan,Illinois,Ohio,Indiana,Missour,North Dakota,South Dakota,Nebraska,Kansas,Minnesota,Iowa南部Delaware,Maryland,District of Columbia,Virgina,West Virginia,North Carolina,South Carolina,Georgia,Florida,Kentucky,Tennessee,Mississippi,Alabama,Oklahoma,Texas,Arkansas,Louisiana西部Iowa,Montana,Wyoming,Nevada,

      5、Utah,Colorado,New Mexico,Arizona,Alaska,Washington,Oregon,California,Hawaiifor (i in 1:length(gd,1)if (gdi,3=Maine|gdi,3=New Hampshire|gdi,3=Vermont|gdi,3=Massachusetts|gdi,3=Rhode Island|gdi,3=Connecticut|gdi,3=New York|gdi,3=Pennsylvania|gdi,3=New Jersey)gdi,9=东北部else if(gdi,3=Wisconsin|gdi,3=Michigan|gdi,3=Illinois|gdi,3=Ohio|gdi,3=Indiana|gdi,3=Missouri|gdi,3=North Dakota|gdi,3=South Dakota|gdi,3=Nebraska|gdi,3=Kansas|gdi,3=Minnesota|gdi,3=Iowa)gdi,9=中西部else if(gdi,3=Delaware|gdi,3=Maryland|

      6、gdi,3=District of Columbia|gdi,3=Virginia|gdi,3=West Virginia|gdi,3=North Carolina|gdi,3=South Carolina|gdi,3=Georgia|gdi,3=Florida|gdi,3=Kentucky|gdi,3=Tennessee|gdi,3=Mississippi|gdi,3=Alabama|gdi,3=Oklahoma|gdi,3=Texas|gdi,3=Arkansas|gdi,3=Louisiana)gdi,9=南部else if(gdi,3=Iowa|gdi,3=Montana|gdi,3=Wyoming|gdi,3=Nevada|gdi,3=Utah|gdi,3=Colorado|gdi,3=New Mexico|gdi,3=Arizona|gdi,3=Alaska|gdi,3=Washington|gdi,3=Oregon|gdi,3=California|gdi,3=Hawaii)gdi,9=西部然后用fix(gd)将第九列的字段修改为part:最后处理完的数据为以下格式:最后

      7、将数据存储下来,备用:write.csv(gd,f:/GunData.csv,row.names = FALSE) .保存的数据格式如下:共有23w多条数据,其中部分数据有字段为空值,将在后续分析中删除。二、 基本统计分析1)统计各州发生枪支案件的总数。 2)统计各地区发生枪支案件的总数。 3)分析各地区枪支案件的分布特征。 4)按年度统计各州发生枪支案件的数目。 5)分析四区的经纬度围2)推断性统计:选择合适的R函数进行如下假设检验,并得出结论。1)分析死亡人数与受伤人数间是否具有相关性。2)分析南部地区的案件数和其他地区的案件数是否具有显著差异。3)分析死亡人数与案件数是否相关;受伤人数与案件数是否相关。1、统计各州发生枪支案件的总数。建立一个table,可以显示出各州的案件数然后绘制一个直方图,显示出各个州的案件数就可以直观的看出各个州的案件数量。2、统计各地区发生枪支案件的总数:绘制一个条形图,可以直观的看出各个地区的案件总数。首先建立一个table,counts-table(gd$part),然后利用画图函数,绘制条形图barplot(counts,main=gunvolie

      8、nce,xlab=part,ylab=num,col=c(red,yellow,green,blue),ylim = c(0,120000)结果如下图:可以看出南部人数最多,10w+,其次是中西部,东北部和西部的数量差不多。3、 分析各地区枪支案件的分布特征。首先取出数据中东北部地区的数据gd1-gg,10=东北部,gd2-gg,10=南部,gd3-gg,10=中西部,gd4-gg,10=西部,然后生成四个tablecount1-table(gd1$state)count2-table(gd2$state)count3-table(gd3$state)count4-table(gd4$state)然后绘制各地区的案件分布图分析东北部地区的枪支案件分布,利用barplot函数,barplot(count1,main=东北部,)barplot(count2,main=南部)barplot(count3,main=中西部)barplot(count4,main=西部)可以看出主要集中在纽约和宾夕法尼亚州,西部全部集中在加州,南部分布的还算平均,佛罗里达多一些,中西部集中在波士顿。4、 按年度统计各州发生枪支案件的数目。根据日期中的年度,将数据划分为13,14,15,16,17,18六段数据,先将数据排序后,找到每年数据的第一条,然后分片取数据gt13-g1:276,gt14-g277:51813,gt15-g51814:105715,gt16-g105716:159

      《大数据挖掘r语言总结材料资料报告材料》由会员cl****1分享,可在线阅读,更多相关《大数据挖掘r语言总结材料资料报告材料》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.