好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

正则表达式使用工具教程.docx

5页
  • 卖家[上传人]:天****步
  • 文档编号:306445304
  • 上传时间:2022-06-09
  • 文档格式:DOCX
  • 文档大小:17.06KB
  • / 5 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 本文格式为Word版,下载可任意编辑正则表达式使用工具教程 八爪鱼·云采集网络爬虫软件 正那么表达式使用工具教程 正那么表达式-教程 正那么表达式是烦琐的,但是它是强大的,在八爪鱼中,学会正那么表达式的应用能让你的数据表示更加模范化,所提取数据字段表达更加精准合理的运用正那么,除了提升你的数据表示模范、字段表达精准之外,还会给你带来十足的成就感只要专心阅读本教程,结合八爪鱼正那么表达式工具实战应用,掌管正那么表达式是分外轻易的 内容列表: 11.1正那么表达式-简介 11.2正那么表达式-简朴例如 11.3-正那么表达式-八爪鱼正那么工具 11.4正那么表达式-语法 11.5正那么表达式-正那么表达式及简朴应用 11.1正那么表达式-简介 正那么表达式〔Regular Expression〕,按英文直译是“模范化表达〞,其作用是将繁杂模糊的源数据通过正那么表达式转化为简朴直观的目标数据。

      例如: “150ABCD〞 “一百五ABCD〞 “One hundred and fiftyABCD〞 分析斟酌过程: 以上字符串中,我们的源文本数据分别为:““150ABCD〞、“一百五ABCD〞、“One hundred and fiftyABCD〞 假设我们要提取目标数据为:字符串中以数字开头的数据 那么我们约束条件为:只取字符串中以数字开头的源数据 将此约束条件转化为正那么表达式为:[0-9](.+)\\b 其中,[0-9]的语义为开头1位为0-9开头,中间间隔以通配符“.〞代替,(.+)语义为字符串长度不做限定,\\b的语义为,匹配一个边界 正那么后的目标数据:“150ABCD〞 通过这个简朴例子,我们大致了解到了为什么要用正那么与正那么所能实现的效果,讲通俗点就是,正那么只是将我们的意愿〔提取字符串中以数字开头的数据〕以表达式的形式呈现出来〔[0-9](.+)\\b〕,并最终通过表达式匹配到所需要的目标数据〔“150ABCD〞〕,所以生动运 八爪鱼·云采集网络爬虫软件 用正那么,可以通过简朴的方法实现强大的功能。

      为什么要在八爪鱼中使用正那么? 在八爪鱼采集数据过程中,受限于网页HTML布局的理由,片面目标数据并不能单独提取出来,这时需要简朴的探寻与替换操作来提取与预期探寻结果匹配确实切文本,除此之外,对数据要求精准模范的用户,还能通过正那么表达式测试所提取数据字符串的模式、替换文本、基于匹配模式从字符串中提取子字符串等操作 例如: 匹配字符串内模式: 1.查看字符串是否展现号码模式 2.查看字符串是否展现网址URL模式 替换文本: 1.用正那么表达式识别字符中特定文本 2.用正那么表达式完全删除该文本或用其他文本替换它 基于匹配模式从字符串中提取子串 1.用于查找字符串文本内特定文本 11.2正那么表达式-简朴例如 11.匹配任何空白字符,包括空格、制表符、换页符等 正那么表达式:\\s+ 图 11.2-1 例如1 八爪鱼·云采集网络爬虫软件 2.匹配源文中1-9开头,1-9结尾,中间长度为9的字符串 正那么表达式:[1-9].{9}[1-9] 图 11.2-2 例如2 3.匹配源文本中http开头,com结尾,中间长度任意的字符串 正那么表达式:http(.+)com 八爪鱼·云采集网络爬虫软件 图 11.2-3 例如3 4.匹配源文本中汉字八爪鱼 正那么表达式:八爪鱼采集器 八爪鱼·云采集网络爬虫软件 图 11.2-4 例如4 5.综合运用 假设一个源文本中包含空白字符、数字,那么我们的思路大致如下: 1.利用\\s+去除空白字符干扰 图 11.2-5 综合运用1 2.利用[0-9].{4}[0-9]匹配所想要的数字 — 5 —。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.