好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基于Web的双语平行语料库获取系统使用手册.docx

6页
  • 卖家[上传人]:gg****m
  • 文档编号:233974562
  • 上传时间:2022-01-03
  • 文档格式:DOCX
  • 文档大小:142.44KB
  • / 6 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 基于Web的双语平行语料库获取系统使用手册1欢迎使用本系统可以用于从互联网上获取双语平行信息包括双语平行网页和双语平 行句对主要致力于获取中英平行信息,但是如果要移植到其他语言对丄,只需 要修改一些与语种相关的配置文件与相关设置就可以了2系统需求2.1 CPU由于需要进行多进程处理,所以最好多核的2・2内存800M2.3硬盘200G2.4操作系统Linux3文件系统 3.1代码文件系统代码文件示意图:ByGoogleExtraCandiWebsiteWebminingLanguageldentifyBinHostCrawlingPretreatSteplExtraCa ndiUHPairUniqueStepOStep2VerificationAlign Sentence按照不能的功能将整个任务划分为三个模块,stepO, step 1, step2□每一个模块 在Webmining Fl录下都有一个启动脚本以进行批处理(详见使用步骤说明) 每一模块又由图示中相应的小模块组成,所有的子模块所处的文件夹都在 Webmining这个Fl录中,其中bin中存在的是一些各个模块公用的一些代码与脚 本。

      3.2文档文件系统在本系统中使用到一些配置文件,都存放在Webmining/Doc中包含有锚文木 列表、可处理的网页类型、不可处理的网页类型以及Html特殊符号转换表3.3数据文件系统本系统关键是要维护一个数据流,每一•模块的输入数据来自另一•模块的输 出,同吋其输出数据又会成为其他模块的输入数据数据流图详见:这些中间文件具体的存放路径如下图所示:虚线框中的每个文件夹中都按照数字索引的方式来命名文件夹(即 web 1 ,web2,web3, ),存放相应网站的处理结果4使用步骤4.1初始化环境变量首先确保处于Webmining文件夹中,运行config.sh・・/config.sh4.2 stepO ■双语侯选网站获取[1] 通过搜索引擎来查询含有特定锚文本的网页URL列表: 运彳亍环境:Windows[21下载每个锚文本得到的所有网页并相应的保存:./ByGoogle/start.sh[3]获取双语候选网站的首页链接:./start_frontpage.sh这个过程会得到每个双语候选网站的首页链接,按照不同的锚文本存放在路径: /Data/WebsiteData/FrontPages/®文本/ 中。

      [4]双语候选网站去重:./Unique/combine.sh $ {webdatapath }/F ron tPages ${uniwebsite} ${allwebsite}生成一个所有双语候选网站首页列表和去重后的双语候选网站首页列表,分别保 存在 n${ webdatapath}/all_site.txt"和"${ webdatapath}/unique_site.txt"之中其中 unique_site.txt是4.3节网页采集环节的输入数据4.3 stepl •网页采集与预处理./stepl.sh流程介绍:[1] 根据unique_site.txt中毎个候选网站的首页链接来下载整个网站 /HostCrawling/downwebsite.sh ${urls} $ {webdatapath}按照网站序号來存储,每个在下载中的网站,存在/Data/ WebsiteData/downwebsite/ 下对应序号的文件夹中,处于处理中的网站,其所在的冃录名会加上“tempr 这个前缀[2] 对网站中的所有网页进行预处理:・ /Pretreat/start.sh ${ webdatapath}⑶ 对文件夹webdatapath更改名字:半一个网站已经全部下载完毕并且经过预处理,就去除其所在文件夹的“temp」' 前缀,以标志这个网站已经下载并处理完毕。

      4.4 step2■双语平行信息抽取对上一步骤处理完毕的所有网站进行双语平行信息抽取,色插双语平行网页和双 语平行句对[1]得到当前网站的URL列表:Find ${PREPATH}/DataAVebsiteData/downwebsite/web${prefix} -type f> ${urllist}[2]进行语种识别,得到中英网页的URL列表./Languageldentify/classifypage.sh $ {urllist}[3] 根据中英网页的URL列表,获取双语候选网页:./ExtraCandiUrlPair/start.sh ${clist} ${elist} ${path candipage}生成一个11「英候选网页列表(urlpairs.txt),存放在 Data/ResultData/CandidatePairs/ 中相应的web${prefix}里面[4] 生成中英平行网页J Verification/start.sh ${candipages} ${path verify} ${path candisent}同时生成一个双语候选网页列表,存放在Data/ResultData/CandiSenPairs/11【相应 的 web${prefix}里面。

      [5] 生成双语平行句对:./ AlignSentence/start.sh ${candisent} ${path align} ${parallelpages}输入:中英候选句对,中英平行句对的存放路径,中英平行网页对5常见问题1) 语种识别程序text_cat所占内存将近100%这是因为正在进行语种识别的网页不是文本类型的,可能是图片,pdf, word o 这里情况几乎不会再出现,因为每个网站的网页都经过过滤,只处理可处理的一 类文木网页如果出现这种情况,就检查一下这个网站的web${prefixJ_url.txt 里面是否含有不可处理的网页2) 所有进程异常中断或者某些网站的双语平行网页和双语平行句对文件的内 容为空首先检查硬盘空间是否已经耗尽,如果硬盘空间已经很小,就应该先停止stepl。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.