您所在位置：网站首页 > 办公文档 > 其它办公文档 > 基于Web的双语平行语料库获取系统使用手册

基于Web的双语平行语料库获取系统使用手册.docx

6页

卖家[上传人]：gg****m

文档编号：233974562

上传时间：2022-01-03

文档格式：DOCX

文档大小：142.44KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10金贝

下载

/ 6 举报版权申诉马上下载

文本预览

下载提示

常见问题

基于Web的双语平行语料库获取系统使用手册1欢迎使用本系统可以用于从互联网上获取双语平行信息包括双语平行网页和双语平行句对主要致力于获取中英平行信息，但是如果要移植到其他语言对丄，只需要修改一些与语种相关的配置文件与相关设置就可以了2系统需求2.1 CPU由于需要进行多进程处理，所以最好多核的2・2内存800M2.3硬盘200G2.4操作系统Linux3文件系统 3.1代码文件系统代码文件示意图:ByGoogleExtraCandiWebsiteWebminingLanguageldentifyBinHostCrawlingPretreatSteplExtraCa ndiUHPairUniqueStepOStep2VerificationAlign Sentence按照不能的功能将整个任务划分为三个模块，stepO, step 1, step2□每一个模块在Webmining Fl录下都有一个启动脚本以进行批处理（详见使用步骤说明）每一模块又由图示中相应的小模块组成，所有的子模块所处的文件夹都在 Webmining这个Fl录中，其中bin中存在的是一些各个模块公用的一些代码与脚本。

3.2文档文件系统在本系统中使用到一些配置文件，都存放在Webmining/Doc中包含有锚文木列表、可处理的网页类型、不可处理的网页类型以及Html特殊符号转换表3.3数据文件系统本系统关键是要维护一个数据流，每一•模块的输入数据来自另一•模块的输出，同吋其输出数据又会成为其他模块的输入数据数据流图详见：这些中间文件具体的存放路径如下图所示:虚线框中的每个文件夹中都按照数字索引的方式来命名文件夹(即 web 1 ,web2,web3, ),存放相应网站的处理结果4使用步骤4.1初始化环境变量首先确保处于Webmining文件夹中，运行config.sh・・/config.sh4.2 stepO ■双语侯选网站获取[1] 通过搜索引擎来查询含有特定锚文本的网页URL列表: 运彳亍环境：Windows[21下载每个锚文本得到的所有网页并相应的保存：./ByGoogle/start.sh[3]获取双语候选网站的首页链接:./start_frontpage.sh这个过程会得到每个双语候选网站的首页链接，按照不同的锚文本存放在路径: /Data/WebsiteData/FrontPages/®文本/ 中。

[4]双语候选网站去重：./Unique/combine.sh $ {webdatapath }/F ron tPages ${uniwebsite} ${allwebsite}生成一个所有双语候选网站首页列表和去重后的双语候选网站首页列表，分别保存在 n${ webdatapath}/all_site.txt"和"${ webdatapath}/unique_site.txt"之中其中 unique_site.txt是4.3节网页采集环节的输入数据4.3 stepl •网页采集与预处理./stepl.sh流程介绍：[1] 根据unique_site.txt中毎个候选网站的首页链接来下载整个网站 /HostCrawling/downwebsite.sh ${urls} $ {webdatapath}按照网站序号來存储,每个在下载中的网站，存在/Data/ WebsiteData/downwebsite/ 下对应序号的文件夹中，处于处理中的网站，其所在的冃录名会加上“tempr 这个前缀[2] 对网站中的所有网页进行预处理：・ /Pretreat/start.sh ${ webdatapath}⑶ 对文件夹webdatapath更改名字：半一个网站已经全部下载完毕并且经过预处理，就去除其所在文件夹的“temp」' 前缀，以标志这个网站已经下载并处理完毕。

4.4 step2■双语平行信息抽取对上一步骤处理完毕的所有网站进行双语平行信息抽取，色插双语平行网页和双语平行句对[1]得到当前网站的URL列表：Find ${PREPATH}/DataAVebsiteData/downwebsite/web${prefix} -type f> ${urllist}[2]进行语种识别，得到中英网页的URL列表./Languageldentify/classifypage.sh $ {urllist}[3] 根据中英网页的URL列表，获取双语候选网页：./ExtraCandiUrlPair/start.sh ${clist} ${elist} ${path candipage}生成一个11「英候选网页列表(urlpairs.txt),存放在 Data/ResultData/CandidatePairs/ 中相应的web${prefix}里面[4] 生成中英平行网页J Verification/start.sh ${candipages} ${path verify} ${path candisent}同时生成一个双语候选网页列表，存放在Data/ResultData/CandiSenPairs/11【相应的 web${prefix}里面。

[5] 生成双语平行句对：./ AlignSentence/start.sh ${candisent} ${path align} ${parallelpages}输入：中英候选句对，中英平行句对的存放路径，中英平行网页对5常见问题1）语种识别程序text_cat所占内存将近100%这是因为正在进行语种识别的网页不是文本类型的，可能是图片，pdf, word o 这里情况几乎不会再出现，因为每个网站的网页都经过过滤，只处理可处理的一类文木网页如果出现这种情况，就检查一下这个网站的web${prefixJ_url.txt 里面是否含有不可处理的网页2）所有进程异常中断或者某些网站的双语平行网页和双语平行句对文件的内容为空首先检查硬盘空间是否已经耗尽，如果硬盘空间已经很小，就应该先停止stepl。

点击阅读更多内容