好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

一种基于脚本引擎的数据采集方法和装置的制作方法.docx

4页
  • 卖家[上传人]:ting****789
  • 文档编号:308824307
  • 上传时间:2022-06-12
  • 文档格式:DOCX
  • 文档大小:20.33KB
  • / 4 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 一种基于脚本引擎的数据采集方法和装置的制作方法专利名称:一种基于脚本引擎的数据采集方法和装置的制作方法技术领域:本发明涉及计算机技术领域,尤其涉及一种基于脚本引擎的数据采集方法和装置背景技术:业内已经有许多成熟的定向采集软件,其实现方法基本上都是基于模板配置来实现的,这些基于模板配置的数据抽取方法一般是正则匹配法,标记截取法,Xpath抽取法,插件定制法等其中,关于正则匹配法:部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据,并且,该类抽取方法专业性较强,需要熟练掌握正则表达式;关于标记截取法:部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据;关于Xpath抽取法:网页内容必须是结构化的,并且,该类抽取方法专业性较强,需要熟练掌握Xpath语法;另外,部分数据抽取结果可能需要二次清洗,加工、转换才能得到目标数据;关于插件定制法:频繁修改数据抽取规则代码都需要重新编译,显得比较麻烦,且专业性强综上所述,可知现有的基于模板配置的数据抽取方法都有一个特点,就是抽到的数据很多都是要经过二次清洗、加工、转换等才能得到想要的目标数据,导致抽取效率较低;另外,某些抽取方法专业性强,不利于广泛应用。

      发明内容鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于脚本引擎的数据采集方法和装置依据本发明的一个方面,提供了一种基于脚本引擎的数据采集方法,包括:步骤1,加载预先配置的与当前采集任务相对应的采集配置文件,解析该采集配置文件,获取目标数据采集规则;其中,所述目标数据采集规则包括目标数据类型以及采集各类目标数据对应的脚本方法名称和脚本语言;步骤2,初始化支持不同脚本语言的各脚本引擎,并加载预先配置的由采集目标数据的脚本方法构成的脚本文件;步骤3,下载网页数据,并查找定义在该网页上需要采集的目标数据的采集规则,将下载的网页数据和查找到的采集规则中配置的脚本方法名称发送至相应脚本语言的脚本引擎;步骤4,脚本引擎根据所述脚本方法名称,调用并执行对应的脚本方法,在所述网页数据中采集出目标数据可选地,本发明所述方法中,根据采集任务需求,所述脚本方法中定义有目标数据抽取、清洗、加工和转换规则可选地,本发明所述方法中,所述目标数据抽取规则包括:按照正则匹配法定义的抽取规则进行抽取、按照标记截取法定义的抽取规则进行抽取、按照Xpath抽取法定义的抽取规则进行抽取、或者按照插件定制法定义的抽取规则进行抽取。

      可选地,本发明所述方法的步骤4中,执行对应的脚本方法在网页数据中采集出目标数据,具体包括:按照所述脚本方法定义的抽取规则,在所述网页数据中抽取出指定的目标数据,以及按照所述脚本方法中定义的清洗、加工和转换规则,对抽取得到的目标数据进行清洗、加工和转换操作,得到所需的目标数据可选地,本发明所述方法中,所述目标数据类型包括但不限于为:标题、作者、日期、内容根据本发明的另一方面,提供了一种基于脚本引擎的数据采集装置,包括:配置解析模块,用于加载预先配置的与当前采集任务相对应的采集配置文件,解析该采集配置文件,获取目标数据采集规则;其中,所述目标数据采集规则包括目标数据类型以及采集各类目标数据对应的脚本方法名称和脚本语言;数据处理模块,用于下载网页数据,并查找定义在该网页上需要采集的目标数据的采集规则,将下载的网页数据和查找到的采集规则中配置的脚本方法名称,按脚本语言发送至脚本引擎模块中相应的脚本引擎中;脚本引擎模块,包括支持不同脚本语言的多个脚本引擎,各脚本引擎在初始化后,加载预先配置的由采集目标数据的脚本方法构成的脚本文件,以及在接收到数据处理模块发送的数据后,根据所述脚本方法名称,调用并执行对应的脚本方法,在所述网页数据中采集出目标数据。

      可选地,本发明所述装置中,根据采集任务需求,所述脚本引擎模块加载的脚本文件中的脚本方法中定义有目标数据抽取、清洗、加工和转换规则可选地,本发明所述装置中,所述脚本引擎模块中,所述目标数据抽取规则包括:按照正则匹配法定义的抽取规则进行抽取、按照标记截取法定义的抽取规则进行抽取、按照Xpath抽取法定义的抽取规则进行抽取、或者按照插件定制法定义的抽取规则进行抽取可选地,本发明所述装置中,所述脚本引擎模块,具体用于按照所述脚本方法定义的抽取规则,在所述网页数据中抽取出指定的目标数据,以及按照所述脚本方法中定义的清洗、加工和转换规则,对抽取得到的目标数据进行清洗、加工和转换操作,得到所需的目标数据可选地,本发明所述装置中,所述配置解析模块中,目标数据类型包括但不限于为:标题、作者、日期、内容本发明有益效果如下:本发明所述方法和装置,通过简单、易用的脚本语言进行脚本方法配置,灵活、方便的实现了目标数据的采集,降低了采集数据的专业性要求,便于广泛推广;并且,由于脚本方法可以通过脚本语言进行灵活配置,实现了在抽取的同时完成清洗、加工和转换等操作,得到的目标数据无需再次加工,极大的提高了采集效率上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

      通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制而且在整个附图中,用相同的参考符号表示相同的部件在附图中:图1为本发明实施例提供的一种基于脚本引擎的数据采集方法的流程图;图2为本发明实施例所述方法的执行框图;图3为本发明实施例提供的一种基于脚本引擎的数据采集装置的结构框图具体实施例方式下面将参照附图更详细地描述本公开的示例性实施例虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员为了降低数据采集的专业性要求,以及提高数据采集效率,本发明实施例提供一种基于脚本引擎的数据采集方法和装置,所述方法和装置通过脚本的方式实现了数据采集过程中同时抽取,清洗,加工和转换,很好的解决了所提出的技术问题在具体介绍本发明方案前,首先给出本发明所述技术方案应用的几个技术名词的解释,具体如下:采集配置文件:定义了采集任务在各个网页上采集的目标数据的采集规则配置。

      其中,采集规则配置主要包括:目标数据类型以及采集该类目标数据对应的脚本方法名称与脚本语言;例如,若提取的目标数据类型为“标题”,则定义“标题”对应的数据采集的脚本方法名称是“parseTitle”,使用的脚本语言是:javascript脚本文件:由用户用脚本语言编写的用于采集目标数据的脚本方法构成的文件其中,脚本语言通常都有简单、易学、易用的特性,所以,只要明确采集任务的具体需求,即可利用完成脚本方法的配置,极大的降低了对专业性的要求关于脚本语言,常见的有javascript, vbscript, php 等脚本引挚:解析并执行脚本方法的工具;本发明中,脚本引擎通过加载配置的脚本文件,获取脚本方法目前,已有的脚本引擎包括:微软提供的javascript脚本引挚,vbscript脚本引挚等基于上述技术名词的解释,下面给出本发明的方法实施例和装置实施例的具体实现过程方法实施例如图1所示,本发明实施例提供一种基于脚本引擎的数据采集方法,包括:步骤S101,加载预先配置的与当前采集任务相对应的采集配置文件,解析该采集配置文件,获取目标数据采集规则;其中,所述目标数据采集规则包括目标数据类型以及采集各类目标数据对应的脚本方法名称和脚本语言;该步骤中,所述目标数据类型包括但不限于为:标题、作者、日期、内容,本领域技术人员可以根据用户需求进行灵活划分。

      步骤S102,初始化支持不同脚本语言的各脚本引擎,并加载预先配置的由采集目标数据的脚本方法构成的脚本文件;该步骤中,根据采集任务需求,所述脚本方法中定义有目标数据抽取、清洗、加工和转换规则其中,所述目标数据抽取规则可以按照正则匹配法定义的抽取规则进行抽取、可以按照标记截取法定义的抽取规则进行抽取、可以按照Xpath抽取法定义的抽取规则进行抽取、或者可以按照插件定制法定义的抽取规则进行抽取当然,本发明所述技术方案并不限于上述抽取规则,也可以根据具体需求进行灵活配置步骤S103,下载网页数据,并查找定义在该网页上需要采集的目标数据的采集规贝U,将下载的网页数据和查找到的采集规则中配置的脚本方法名称发送至相应脚本语言的脚本引擎;步骤S104,脚本引擎根据脚本方法名称,调用并执行对应的脚本方法,在所述网页数据中采集出目标数据优选地,该步骤中,调用并执行对应的脚本方法,在所述网页数据中采集出目标数据具体包括:按照所述脚本方法定义的抽取规则,在所述网页数据中抽取出指定的目标数据,以及按照所述脚本方法中定义的清洗、加工和转换规则,对抽取得到的目标数据进行清洗、加工和转换操作,得到所需的目标数据如图2所示,为以图1为执行原理的执行框架图,确切地说,本实施例将采集过程分为两个过程,一个为采集前,另一个为采集中。

      具体的,在任务采集前系统会根据不同的采集任务做相应的准备工作,首先它会解析采集任务对应的采集配置文件,目的是让抓取目标数据的规则配置与脚本方法建立对应关系,然后是初始化脚本语言相对应的脚本引挚,脚本引挚再加载脚本语言相对应脚本文件,接下来就可以进行采集了,采集的过程是先下载网页数据,然后找到定义在该网页上需要抽取的目标数据规则配置,再逐个把目标数据抽取规则配置里的脚本方法名称与下载到的网页数据传入到脚本引挚执行脚本方法,脚本引挚会根据相应脚本方法进行数据抽取,清洗,加工,转换等操作,最后拿到目标数据并做后续处理综上所述,本发明实施例所述方法,通过简单、易用的脚本语言进行脚本方法配置,灵活、方便的实现了目标数据的采集,降低了采集数据的专业性要求,便于广泛推广;并且,由于脚本方法可以通过脚本语言进行灵活配置,实现了在抽取的同时完成清洗、加工和转换等操作,得到的目标数据无需再次加工,极大的提高了采集效率装置实施例如图3所示,本发明实施例提供一种基于脚本引擎的数据采集装置,包括:配置解析模块310、数据处理模块320和脚本引擎模块330 ;配置解析模块310,用于加载预先配置的与当前采集任务相对应的采集配置文件,解析该采集配置文件,获取目标数据采集规则;其中,所述目标数据采集规则包括目标数据类型以及采集各类目标数据对应的脚本方法名称和脚本语言;其中,所述目标数据类型包括但不限于为:标题、作者、日期、内容数据处理模块320,用于下载网页数据,并查找定义在该网页上需要采集的目标数据的采集规则,将下载的网页数据和查找到的采集规则中配置的脚本方法名称,按脚本语言发送至脚本引擎模块330中相应的脚本引擎中;脚本引擎模块330,包括支持不同脚本语言的多个脚本引擎,各脚本引擎在初始化后,加载预先配置的由采集目标数据的脚本方法构成的脚本文件,以及在接收到数据处理模块320发送的数据后,根据脚本方法名称,调用并执行对应的脚本方法,在网页数据中采集出目标数据。

      进一步地,本发明实施例中,根据采集任务需求,所述脚本引擎模块330加载的脚本文件中的脚本方法中定义有目标数据抽取、清洗、加工和转换规则其中,所述目标数据抽取规则可以按照正则匹配法定义的抽取规则进行抽取、可以按照标记截取法定义的抽取规则进行抽取、可以按照Xpath抽取法定义的抽取规则进行抽取、或者可以按照插件定制法定义的抽取规则进行抽取当然,本发明所述技术方案并不限于上述抽取规则,也可以根据具体需求进行灵活配置进一步地,所述脚本引擎模块330,具体用于按照所述脚本方法定义的抽取规则,在所述网页数据中抽取出指定的目标数据,以及按照所述脚本方法中定义的清洗、加工和转换规则,对抽取得到的目标数据进行清洗、加工和转换操作,得到所需的目标数据。

      点击阅读更多内容
      猜您喜欢
      抓重点亮点做特色预防-抓重点,攻难点,增亮点,促发展.docx 一种基于国产算法的银行智能卡芯片安全协处理器的制作方法.docx 2022版山东省建筑施工专职安全生产管理人员(C类)考核题库押题训练卷含答案51.docx 中国农垦经济发展中心公开招聘应届毕业生等人员补充(北京)练习训练卷(第9卷).docx 2022江西师范大学先进材料研究院非事业编制临时聘用人员公开招聘1人押题卷2.docx 2022浙江温州市乐清市档案馆编外人员公开招聘1人强化训练卷3.docx (幼儿音乐教案)大班音乐律动公开课我真的很不错教案.docx 2022广西贺州市钟山县交通运输局公开招聘1人押题卷1.docx (大班主题教案)大班主题公开课家乡的桥教案反思.docx 2022版山东省建筑施工专职安全生产管理人员(C类)考核题库押题训练卷含答案36.docx 2022广西玉林市陆川县农业机械化服务中心公开招聘编外文秘人员1人押题卷0.docx 一种基于局部特征学习的人脸识别方法.docx 中级会计师《中级会计实务》考试试题模拟训练含答案(第11套).docx 2022江西赣州章贡区科学技术局公开招聘高校毕业见习生1人押题卷3.docx 2022广西玉林市北流市机关后勤服务中心公开招聘编外工作人员5人强化训练卷(第7卷).docx 2022广西百色市德保县人民武装部公开招聘编外人员2人强化训练卷(第3卷).docx 2022广西百色市德保县文化体育广电和旅游局公开招聘编外人员2人押题卷0.docx 一种基于密集架的档案库的集成管理系统的制作方法.docx 2022广西北海市北部湾技术转移转化服务中心公开招聘3人强化卷(第5次).docx 2022广西防城港市人民政府办公室公开招聘6人押题卷8.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.