电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

大数据技术论文

8页
  • 卖家[上传人]:吾畏
  • 文档编号:149213450
  • 上传时间:2020-10-25
  • 文档格式:DOCX
  • 文档大小:23.63KB
  • / 8 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、数据预处理技术调查研究摘要:随着互联网的快速发展,第四次工业革命浪潮的到来。大数据在二十一世纪里成为了互联网领域最为重要的一部分。因此调查大数据的数据预处理技术在医疗领域的应用情况。关键词:大数据;数据采集;数据预处理;医疗。引言:随着大数据技术的发展,大数据的应用越来越广泛,以及所衍生出的大数据产业也在逐步完善。各国政府也都开始重视大数据在本国的发展。为此,本文希望阐述大数据中数据采集和数据预处理技术的基本原理及调查数据预处理在各领域的应用情况。1、 数据采集二十一世纪是大数据时代,那么什么是大数据?业界公认的大数据应当满足4v的特性(variety、velocity、value、volume)及数据的种类多、体量大、处理速度快、价值密度低。大数据时代我们不应该只谈论它的表面,而要更深入的了解它的技术实现过程及发展前沿。大数据技术分为几个步骤:数据的采集、数据的预处理、数据的分析、数据的可视化。这几个步骤最终得以挖掘出有价值的信息以便更好地做各种决策指导。数据的采集是大数据预处理的前提,要想做大数据的后续工序必须要有数据的来源才能进行。数据的采集顾名思义就是数据的收集过程。数据的采集

      2、途径有很多种,可以从各企业的数据库系统中获取。这种方式是比较直接的数据采集,没有过多复杂的操作。直接把数据从中引入即可完成。此外,还可以通过实时的调查研究采集数据,此过程需要制定适合的调查方法以适应不用的场景进行的数据采集。实时调查得到的数据也比较真实可靠,但需要一定的时间与人力。可以通过物联网系统采集数据,物联网系统数据是数据获取的重要组成部分。它可以通过各种传感器来捕获数据,所产生的数据量是巨大的。如今是web2.0的时代互联网产生的数据同样巨大,我们也可以从互联网中进行数据的采集来获取数据。互联网中的数据有来自各种的通讯交流平台,有来自各种网页中的内容,复杂多样。有结构化的、半结构化的、非结构化的数据。网页数据的采集最重要的一种工具是网络爬虫。网络爬虫是一种按照一定的规则、自动爬取网页数据的程序或脚本。网络爬虫一般会选择用Python语言来编写,因为Python语言中的类库更加的丰富强大。网页的展示是通过浏览器向服务器发送请求与此同时当服务器收到请求时就会响应并发送相关的数据返回给浏览器并展示页面。而网络爬虫就是模拟浏览器向服务器发送请求的过程以获取所需的数据。1爬虫可以分为几个

      3、重要的模块即数据采集模块、数据处理模块和数据模块。数据采集模块就是网络爬虫爬取数据并存取数据的过程。数据处理模块把爬取到的空链接和重复的内容进行过滤处理以提高数据的质量。数据模块:经过处理的数据可以分为3类。第一类是SiteURL,即需要抓取数据的网站URL信息;第二类是SpiderURL,即已经抓取过数据的网页URL;第三类是Content,及经过抽取的网页内容。爬虫的基本工作流程:第一步:从SiteURL中抽取一个或多个目标链接写入URL队列,作为爬虫爬取信息的起点;第二步:爬虫的网页分析模块从URL队列中读取链接;第三步:从Internet中获取该链接的网页信息;第四步:从当前网页中抽取新的网页链接;第五步:将获取的网页内容值写入数据库的Content,并将此URL存入SpiderURL; 第六步:从网页内容中抽取所需属性的内容值;第七步:从数据库中读取已经爬取过内容的网页地址即Spider中的链接地址;第八步: 将抽取出的URL和已经抓取过的URL进行比较以过滤URL ;第九步:如果该网页地址没有被抓取过,则将该地址写入SiteURL;如果已经被抓取过则放弃存储此网页链接。网络

      4、爬虫是按照一定规则来抓取数据的而这些规则称之为爬虫的抓取策略。爬虫的抓取策略有三种方式分别是:深度优先遍历策略、宽度优先遍历策略、反向链接数策略。深度优先遍历策略是纵向遍历的策略,当一条纵向路径遍历完之后才进行另一条路径的遍历。宽度优先遍历策略是横向遍历的策略,当一层路径遍历完之后才进行下一层路径的遍历。反向链接数策略是按照一个链接的子链接数的多少来进行的遍历,如果一个链接的子链接的数目较多说明此链接较为重要就会优先遍历,反之推后遍历。2、 数据预处理2.1什么是数据预处理数据预处理是大数据技术的重要环节,想要更好更高效地完后续的步骤数据预处理是不可缺少的步骤。数据采集步骤所采集的数据部分是不完整,不一致的数据。这类数据称之为脏数据。脏数据很难进行挖掘,或挖掘出的结果不乐观,价值密度特别的低。脏数据没什么价值反而会干扰数据挖掘的结果,所以这些脏数据往往会在数据挖掘之前把它剔除掉,以便提高数据挖掘的质量。数据预处理的方法有:数据清洗、数据集成、数据变换、数据归约等。数据清洗即对数据进行审查和校正的过程,把重复的数据删除和纠正错误的无效的数据。数据集成即把来源不同的、格式不一致的数据有机地

      5、集中在一起以便对数据实现整体上地操作。在企业和科研院所中由于时间和空间上地差,往往数据是分散的、独立的、封闭的,很难对数据在各个系统之间进行交流和融合,因此就形成了“信息孤岛”。这往往会制约企业对数据的有效利用,所以就要用到数据集成技术把这些孤岛给连接起来,从而达到数据互通和整体操作。数据交换是指数据终端之间建立的数据通信实现临时的互联的过程。数据交换的方式可以分为:电路交换、报文交换、分组交换、混合交换。数据归约即对数据进行简化后大体上仍然不改变数据的原貌,数据归约之后对数据分析的结果不产生影响,所产生的分析结果相同或几乎相同。归约后的数据更加精简。2.2数据预处理的意义 数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。数据采集所得的数据繁杂有许多不满足数据分析的要求并且会影响到分析的结果,因此进行数据预处理是必须进行的步骤。导致不正确的数据(具有不正确的属性值)可能有多种原因:收集数据的设备可能出现故障;人或计算机的错误可能在数据输入时出现;当用户不希望提交个人信息时,可能故意向强制输入字段输入不正确的值。这成为被掩盖的缺失数据。错误也可能在数据传输中出

      6、现。也可能是由命名约定或所用的数据代码不一致,或输入字段的格式不一致而导致的。重复元组也需要数据清理。为了使后续的操作步骤更加便捷、更加快速,数据预处理是关键一环。数据预处理地意义:第一、数据预处理它不但节约了时间成本而且也节约了空间成本;第二、数据预处理把数据的格式进行标准化,把异常的数据给清除掉,保证了数据挖掘模式的质量,提高了分析结果的可靠性。数据预处理技术在大数据时代中的大数据技术起到了关键性的作用,推动了大数据技术的进一步发展。总之,数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的准确率和效率。由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测数据异常,尽早的调整数据,并归约待分析的数据,将为决策带来高回报。3、 数据预处理的应用随着信息科技的快速发展,人类社会开始步入创造和挖掘知识的信息革命时代。信息技术逐渐应用于电信、金融、教育、电子商务甚至政府决策等领域。而在国家全面建设医疗信息化的浪潮中,将大数据技术应用于与民生息息相关的医疗健康领域成为当下发展的一个热点。由于医疗数据的特点如海量、

      7、高维度、不规范等,对医疗健康信息进行数据预处理是挖掘分析前的一个不可或缺的重要步骤。通过预处理分析不仅可以提高数据挖掘的质量,还能从一定程度上提高挖掘效率。统计显示,一般的医有疗机构每年会产生1TB到20TB的数据,一些大医院甚至可以产生300TB到1PB的数据。随着技术的不断进步,人们处理数据的能力和技术也不断增强。从前, 人们只能看着这些宝贵的数据白白丢失;现在,这些数据有望被运用到智慧医疗方面,即让患者就医更方便、疾病诊断更加高效,以及医疗信息更加准确。在挖掘医疗数据方面,涉及到医院、医联体等医疗机构,现在这些机构越来越重视医疗数据,虽然这些机构可能并没有找到比较好的处理和分析这些数据的方法;收集医疗数据,虽然大量医疗数据的收集依旧在医院等医疗机构,但是其中可穿戴设备厂商俨然一股不可小觑的势力,并且收集的数据形式、数量、种类也越来越多样化,这对医疗大数据的组成也是必不可少的一部分;分析医疗数据,现在市场上已经有不少涉及医疗数据分析 业务的企业,像碳云智能,23魔方等企业;存储数据,由于大数据本身具备的规模大,机构多样、增长快速等特性决定医疗数据必然也会涉及到存储的问题,目前互联网

      8、巨头BAT,以及IBM等大型企业也均在构建自己的医疗大数据库;医疗大数据的实用,目前市面上的移动医疗 公司均打着大数据个性化定制等口号,像春雨医生智能问诊、掌上糖医、IBM沃森精准医疗,23墨方基因预测等,但是做到医疗大数据的实用,首先需找到一个有效的分析手段以及具备有大数据级别的医疗数据来源。医疗大数据的服务对象主要有:居民、医生、科研、管理机构、公众健康。其中根据收集到的信息主要介绍以下三家企业:碳云智能:将基于全球专业度最高、指数增长的全息全程健康医疗大数据,通过顶尖的数据挖掘和机器分析技术,提供私人专享的健康指数分析和预测。面对的客户群体包括:研究机构,药厂,体检中心,医院,诊断公司,保险公司,健康管理公司等。雅森科技:作为国内最早一家从核医学领域切入的CAD公司,目前也是医学影像人工智能分析大军中的一员,专注于采用各类数学算法进行医疗图像处理、机器训练、大数据库比对、标准生物物理影像模型的开发与应用,将海量数据可以转化为高效的诊断能力。太美医疗致力于信息技术在医疗领域的应用,为医疗行业提供SaaS解决方案。产品和服务涵盖临床研究和药物警戒等领域。4、 总结及展望数据预处理技术是大数据技术的重要组成部分,其在医疗领域已经开始布局并实现医疗的赋能。大数据的应用远远不止于此,在金融、交通、电子商务、政务、军事等领域也发挥着重大的作用。其具有重大的战略意义,政府部们应当为大数据技术的发展提供政策的支持以全面提高我国在该领域的竞争力。大数据赋能各领域是一个发展趋势,大数据的未来一定会更加地精彩。参考文献-1孟宪伟,许桂秋,万世明,等. 大数据导论 人民邮电出版社,2019:5255.

      《大数据技术论文》由会员吾畏分享,可在线阅读,更多相关《大数据技术论文》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.