好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基于web资源的信息抽取技术.doc

6页
  • 卖家[上传人]:ss****gk
  • 文档编号:218146327
  • 上传时间:2021-12-04
  • 文档格式:DOC
  • 文档大小:111.28KB
  • / 6 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 基于WEB资源的信息抽取技术郭志红(上海交通大学情报研究所,上海200030)摘要web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据 库型查询系统所利用如何将这些信息抽取出來,转化成结构化信息,供其它信 息集成系统所利用,成为该顶域的研究热点本文介绍了-•个简单的web信息抽 取模型,对基于该模型的wrapper归纳技术进行了探讨,并描述了一个wrapper 口动生成系统的原型关键词信息抽取wrapper归纳技术自动生成原型系统The Technology of Information Extraction for WEBResourceGuo Zhihong(Informalion Research Institute, Shanghai Jiaotong university, Shanghai 200030)Abstract There is picnty of useful infonueition in web resource. It can,t be used by the traditional database query system because it is not well-structured. Recently considerable attention has been received on how to extract it from web resource and transfer it to structured information that can be used by other information integration systems. This paper presents a simple web information extraction model, discusses the technology of wrapper induction based on the model and describes automatic generation prototype system of wrapper.Keywords information extraction wrapper induction automatic generationprototype system 引言Internet是一个巨大的信息资源库,它上面有着各种各样的信息:天 气预报,股票价格,商品廿录,政府法规和税收政策,个人爱好,研究报告等等。

      所有这些web资源信息都有两个共同的特征:(1 )文本内容以html形式发布2)通过浏览方式或基于格式的查询方式来实现对其内容的存取由于html 标记更关注字体大小,颜色,位置等,而文档的结构却隐含在这些标记中,故 html页中的大量信息都是半结构化的而基于这种半结构化信息的查询,即web 查询,与传统的基于结构化信息的数据库查询是不同的,其查询结果往往是互不 相关的html页面,而且相同的杳询往往得到的是不同的结果故要直接杳询页 而上的精确信息显得十分困难为了解决这个问题,需要针对各种类型的web 资源集构建相应的wrapper,利用该wrapper去抽取html页中的半结构化信息, 并转化成结构化数据,供其它信息集成系统利用由于网上新资源的频繁加入, 现存的资源格式又经常变化,手工构建wrapper将极其乏味而且容易出错因此, 开发出口动构建wrapper的技术及其系统则是该顶域的发展趋势web信息抽取模型一个简单的web信息抽取模型可概括为:向特定资源库发岀一个查询请求, 得到相应的响应页,然后wrapper从响应页中抽取出所需要的信息,将其映射成 相应的标记信息,如图1所示resourcequery*6 =wrapperW g WlabelLgC他1.1心・、 …,(勿川引上),•… Sl.K心•训,图一、简单的中命信息抽取模型{(方| 口丄•…(方|口人口口・女人…9|丄|・儿勺口求,图中0是以查询语言Q.构造的查询表 达式,表达了用户所需要的信息。

      它可 能是SQL或KQML语句,也冇可能是CGT脚本参数所组成的语句P为查询响应 页,可以把它看成是ASCII字符集27中的字符吊,含有一个或多个所需信息的元 组(例如,假设我们要抽取的信息为各个国家所对应的号码区域号,则具体 的〈国家,区域号〉即为一个元组它有两个属性:国家,区域号形式地讲, —个元组可表达为一个具有k个字符串属性的向量〈A】,A2, Ak>) S为特定的信 息资源库,可以看成是一个将查询表达式转化成响应页戶的函数力为标记信息 集,一个标记信息集厶就是一个响应页中所要抽取的所有信息元组集合其形式 化表示如下所示: 即该响应页中含有I L | >0个元组,每个元组具有K>0个属性整数1 WkWK 是属性索引号,而整数1 WmW | L\则是该响应页中的元组索引号,每个 〈bm,k, e.k〉表示为一个单一的属性集bm,k是第m个元组的第k个属性在该响应页 中的起始位置,Sk则是它的结束位置因此,第01个元组的第k个屈性的值为 该响应页中处于b.k和两个位置点之间的字符内容W是一个Wrapper,是整个信息抽取模型的核心,可以将W看成是一个将响 应页P映射成标记信息集厶的函数。

      用公式表示即为W(P)二厶也就是说,在响应 页P上调用W,所得结果为标记信息集L.wrapper归纳技术wrapper归纳扌支术是一种自动构建wrapper程序的技术其形式化描述如下所 示:输入:集合={ ,Vpn,h> }(取自于样例页),其中Pn指的是响应页,In指的是标信息集输岀:wrapper程序w, w属于W (W为wrapper程序库,该库是动态构建的) 对于中必任意一个vpn, ln>,均有w(pn)=lnoLR wrapper执行程序(Wr^perclid,……,1励珏込响应页P) m^-0while p中有多个hfor 每f } 在p中押苗到下一个站把该位苴记为b“ 在p中扌券到下一个卜 把该位苴记为也return标记信息集{...,< 也入九助…}图2 LR wrapper执行程序在上述概念和模型的基础上,Nicholas Kushmerick提出了六种wrapper集: LR wrapper 集,HLRT wrapper 集,OCLR wrapper 集,HOCLRT wrapper 集,N-LR wrapper集和N-HLRT wrapper集。

      LR wrapper集是个基础集,其它五者都是它 的扩展一个wrapper集包含 三个元素:一个wrapper — 个wrapper执行程序和一个 wrapper学习算法一个 wrapper可简单地表示为一个 向量该向量具冇多个分量, 各个分量分别对应不同的分 界符一个wrapper执行程序 描述如何用一个wrapper (即 由多个不同的分界符所组成 的向量)去抽取响应页中的元 组信息,并输出一个标记信息集一个wrapper学习算法是由一大堆子例程组合而成,其功能为:通过采用启 发式规则和样未分析方法,为不同的web类型集,构建相应的wrappero在此, 以LR wrapper集为例作详细的说明一个LR wrapper可表示为向量vl i j i, , 1K,rQ,其中li」2, ,Ik为左边分界符,如vB>,vI>等, ,「k为右边分界符,如1>等LR wrapper执行程序如图2所示它描述了一个LR wrapper是 如何执行的它的输入参数为:Wrapper,

      LR wrapper 学习算法如 图3所示它列举了 LR学习程序LearriLR及其candsx(x^ {l,r}),validx等相关子 例程LR wrapper学习算法依次考虑每一个分界符,对于每一个分界符,算法都 要为其枚举侯选集candsx (k, )中的毎一个侯选对彖,一旦有侯选对彖满足所 有有效条件validx,则被确定为合格对象,该循环终止LeamLR的输LeamLR程序(样页)for 每一个 lWkWKfor 每一个 u Ecand^ (k? e ) : if validj (u, € ) then 并终止循环for 每一个 lWkWKfor 每一个 u EcandSj- (k, e ) : if validj. (u, k, e ) then rk^u 并终止循环return LR wrappervh』” candsj程序(索引号k,样页e )return neighbors, (k, € )中的最短字符串的所有后■缀集合candSr程序(索引号k,样页 )return neighbors,(k, )中的最短字符串的所有前缀集合程序valid】(侯选对象u,索引号k,样页 )for S—个 sEneighborS|(k( 8 ): if u 不是 s 的一个正确后缀 then return FALSEif k=l then for 每一个 sE tails ( ): if u 是 s 的一个子字符串 then return FALSE return TURE程序valid,.(侯选对■象u,索引号k,样页 )for 每一个 sE attribs (k5 ): if u 是 s 的一个子字符串 then retxirn FALSEfor 每一个 sEneighborsf(k, ) : if u 不是 s 的一个前缀 then return FALSEreturn TURE程序attribs (索引号k,样页e )relum U出 ["刃] | {/加.代・5・大),…} w L/J程序neighbors)(索引号k,样页e )if k = I then return seps( K, i?) U heads(t?) else return s巳ps(k—I•上:)程序neighbors^ (索引号k,样页 )\fk = K then return seps(K. f)U tails(^) else return seps(h)程序 tails (fif-页 )程序heads (样页 )return | {(物」,5」),g}程序seps (索引号比样页 )if k = K then巴[s.AS珞中I (・・、少刚.K.Cm.KhwLn Am <|InllelseMum UwwJ巴[呦卡,给•阳]| (…他上6注…)图3 LR wrapper学习算法入参数为样页e ,输出结果为LR Wrappero其它wrapper集都是LR wrapper集的扩展。

      HLRT wrapper集中的wrapper可表示为向量 vh,t,li,n, , Ik, rQ,其中 h,t 分别为首位分界符;OCLR wrapper 集中的 wrapper可表示为向量vo,c,h,m……,1k, *>,其中0,c分别为打开和关闭分界符;HOCLRT wrapper集中的wrapper可表示为向量vh,t,o,c,h,口, ,心这四者所处理的响应页均为含有HTML标记的文本N-LR wrapper集和N・HLRT wrapper集均 可用来抽取嵌套结构信息,它们。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.