
2021年非结构化数据来袭.docx
8页精品word 可编辑资料 - - - - - - - - - - - - -非结构化数据来袭有人说,人类仅仅开发使用了自己大脑容量的 10%, 要能够利用其他的 90%,人类的洞悉力和成就将会无比惊人; 这种说法的精确性可能有待讨论确定,但与之类似,的确属实的情形为企业始终在分析应用的为只占数据总量 20%的那 些跑在 ERP等系统里的结构化数据;假如再能结合利用其余80%的非结构化数据,那成效就可想而知了;基础技术在不断进展,而电子商务.移动应用.社交网络等日益活跃,这导致大量的像影像资料.办公文档.扫描文件. Web 页面.电子邮件.微博.即时通信以及音视频等非结构化数据迎面而来,企业目不暇接;结构化 vs 非结构化相对于储备在关系型数据库里,用二维规律表来表现的 结构化数据而言,那些不便利用数据库二维规律表来表现的 数据就为所谓的非结构化数据,包括报表.账单.影像.办 公文档. 扫描文件. Web 页面. 电子邮件以及多媒体音频和视频信息等;据统计,企业中 20%的数据为结构化的, 80%就为非结第 1 页,共 7 页 - - - - - - - - - -精品word 可编辑资料 - - - - - - - - - - - - -构化或半结构化的; 当今世界结构化数据增长率大致为 32%,而非结构化数据增长就为 63%,至 2021 年,非结构化数据占有比例将达到互联网整个数据量的 75%以上;而非结构化数据中 50%~75%的数据都来源于人与人的互动, 都为以人为中心产生的;我们都很熟识结构化数据,典型的就为事务数据.定量 的数据; 企业收集. 储备.查询.利用它们来制定商业战略.预判趋势.运行报表.进行分析.优化运营;企业在结构化 数据的利用方面已经做得很好,通过它能供应重要的业务洞 察力,更有效率和有效益地服务于客户,遵循监管法规,为 决策制定者供应所需的即时的.连续的关键信息以优化业务;但今日,很多企业已经意识到,结构化数据仅仅为企业所拥有数据的一小部分;与业务信息系统中大量用于交易记录.流程掌握和统计分析的结构化数据相比,非结构化数据具有某种特定和连续的价值,这种价值在共享.检索.分析等使用过程中得以产生和放大,并最终对企业业务和战略产生影响;比如在医疗行业,逐步普及的电子病历的建设中,既存在结构化的电子病历数据,也存在非结构化的电子病历数据,而非结构化的电子病历数据的重要性并不比结构化数据低; 由于描述病人病情的自然语言要比患者基本信息等结构化数据更丰富形象,而临床产生的大量影像文件对医生的诊断第 2 页,共 7 页 - - - - - - - - - -精品word 可编辑资料 - - - - - - - - - - - - -也具有很强的帮助作用;对此感受颇深的为中国人民解放军总医院( 301 医院)的信息中心主任史鸿飞;史鸿飞在接受记者采访时表示,由于医院自身的特点, 像心电图. 波形图. CT 片等诊断依据信息都让医院自开展数字化以来不得不面对大量非结构化数据的治理;不止医院,保险公司也不例外;华泰人寿 CIO 杨李在接受记者采访时就介绍,华泰人寿的非结构化数据来源于以下几个方面:第一为由于全部业务的原始凭证都被要求存档,所以像保险申请书.审查过程资料和保单等纸质原始资料都会被扫描存成电子文档, 比如保单就都为以 PDF格式储存的;其次为保险公司呼叫中心的服务录音依据保监会的要求需要永久储存,由此产生了大量的音频文件;第三为一些会议等的视频资料;她说,随着业务进展,保险公司对风险管控要求越来越高,传统的纸质介质不足以应对这种要求;保险公司需要借助电子化手段,实现更快的查询调阅,这导致越来越多种类型和数量的非结构化数据显现;价值几何没有人会看轻非结构化数据的价值;史鸿飞告知记者,非结构化数据治理对于医院来说意义第 3 页,共 7 页 - - - - - - - - - -精品word 可编辑资料 - - - - - - - - - - - - -重大:第一,它可以促进数据的交换,无论为在医院内部仍为在不同医院之间;试想,假如大量的病例.拍的片子都可 以被有效储备成非结构化数据,以电子方式储备.传递.交 换,那这对于医院流程治理. 便利患者就医等为多么有价值;其次,非结构化数据在临床诊断方面,可以做更全面的呈现,更高效地帮助医生诊断;医生在临床就诊时,不仅可以调出患者基本信息和以往诊断书,仍可以直接调病人所拍的像胸透.肠镜等检查的影像资料,再加上现场望闻问切病人的病情,医生把握了更加全面.直观的病情资料,就可以提高诊断成效和效率;另外, 在医院科研方面, 非结构化数据治理也颇具价值;试想,假如某位医生要想钻研肺癌的讨论治疗,那么过去他 只有抱着厚厚的书和笔记本学习,而要讨论个案时,需要去 病案室在一堆封存已久的片子中查找想找的那张,其难度和 效率可想而知;现在有了电子版的影像资料,医生就可以根 据病人的索引找到其电子病历来讨论;更遥远的设想为,如 果将来能对同一患者的不同片子或者为同一病种不同患者的片子都可以通过数字技术做比对分析,那就更有价值了;而治理好非结构化数据对保险公司同样也意义重大;杨李以理赔为例向记者进行了介绍,她说,一个理赔案子会涉及理赔对象.理赔数据等,像个人基本资料等理赔人属性和赔付金额.日期等理赔数据都可以做成关系型数据存入数据第 4 页,共 7 页 - - - - - - - - - -精品word 可编辑资料 - - - - - - - - - - - - -库,但仍会有些资料,比如理赔对象住院时医院的单据.其他说明资料等非结构化数据就会以文件形式储备起来;当理赔员做赔案的时候,他会把理赔对象的信息等关系型数据和原始单据.资料等都调出来,综合考察,衡量定夺;这实际上就为结合结构化和非结构化数据把客户.案子资料全面呈现给理赔员,支撑其业务操作,提高业务效率的实例;由于之前没有这些电子版的非结构化数据,对理赔的判定,理赔员只能从客户申请数据得到一些信息,需要凭体会判定,否就假如要求看其他原始资料,那就需要走十天半月甚至更长的纸质流程,业务办理时间会很长,效率很低;如何治理杨李介绍,华泰人寿目前对于非结构化数据的治理仍比较简洁,就为以文件的形式储备起来,按索引查询;但由于权限治理的要求,比如某个岗位的人只能看部分文档甚至为部分文档的一部分,公司治理要求越来越细,让华泰人寿开头考虑为不为需要上一套专业的内容治理系统;另外,非结构化数据的量.种类越来越多,要做到快速的查询调阅需要占用系统大量的 I/O 资源,这也从另一个方面增强了对内容治理系统的需求;史鸿飞也介绍,现在 301 医院对于非结构化数据采纳的第 5 页,共 7 页 - - - - - - - - - -精品word 可编辑资料 - - - - - - - - - - - - -也为文档服务的治理模式,就为为影像.波形图等建立不同的服务器储备起来, 用唯独的 ID 号为这些资料建立索引, 以备查询.呈现;但对于更深化的治理应用,史鸿飞坦言,仍并没有有效推动;他说,的确国外有先进的医院在探究用不同的模型(如 CDA)来统一各种非结构化数据进行治理,但 国内的各家医院仍都得依据自己的情形来做打算;虽然对于非结构化数据的价值颂扬有加,但史鸿飞认为 现阶段对于医院来说最主要的仍为流程的问题,为做好基础 的 HIS 系统及其应用;他说,现在 301 医院有五大方面的信息化应用,一为 HIS 系统,实现医院的高效运行治理;二为医疗业务,更有效地采集.储备.呈现.共享病历信息,推 进电子病历,但这也为医院流程的一部分;三为实现医院的 精细化治理,利用信息手段进行科学治理.降低医院成本,从而降低患者看病成本,据悉 301 新近也在引入 ERP,期望 借助先进的企业治理工具,实现精细化治理;四为提升患者服务,提高主动医疗;五为区域医疗,协同互联;出色观点像心电图. 波形图. CT片等诊断依据信息让医院自开展数字化以来,始终都得面对大量非结构化数据的治理;非结 构化数据在资料传递交换.临床全面呈现和医学科研等方面 有着重要价值; 现在,301 医院为采纳文档服务的治理模式,第 6 页,共 7 页 - - - - - - - - - -精品word 可编辑资料 - - - - - - - - - - - - -建立不同的服务器储备各种非结构化数据,建立索引,以供查询呈现,对其更深化的分析应用仍无法绽开;目前最主要的仍为搭建.应用好 HIS 系统,解决好流程的问题;―― 301 医院 CIO 史鸿飞像申请书.保单等业务原始凭证都要被扫描存成电子文档,呼叫中心的服务录音文件和一些视频资料,让保险公司拥有越来越多的非结构化数据;以理赔为例,结合结构化和非结构化数据可以把资料全面呈现给理赔员,支撑其业务操作,提高业务效率;华泰人寿目前对于非结构化数据的治理仍比较简洁,就为以文件的形式储备起来,按索引查询,但权限治理等方面的要求就让华泰人寿开头考虑上马一套专 业的内容治理系统;――华泰人寿 CIO 杨李eBay 的非结构化数据主要来自使用者行为分析数据和网站点击率的分析,这比过去更复杂.多变;以追踪点击率来说,近年来大部分的网页都为动态网页,过去只要透过网址就能知道使用者正在看什么网页,但为现在一个网页上的内容变多了,而且每一秒钟都在变化,这对于分析使用者行 为来说, 难度更高; 近年来 eBay 在分析数据领域最大的挑战就为要同时处理结构化与非结构化数据;分析点击率等半结构性和非结构性数据为将来工作重点之一; ―― eBay 分析平台高级总监 Oliver Ratzesberger第 7 页,共 7 页 - - - - - - - - - -。
