Python网络爬虫基础教程 第8章 验证码识别
70页1、第8章 验证码识别Python网络爬虫基础教程学习目标/Target了解验证的分类,能够说出常见验证码的特点掌握字符验证码的识别方法,能够使用ocr实现识别字符验证码的功能熟悉滑动拼图验证码的识别方法,能够使用Selenium实现识别滑动拼图验证码的功能熟悉点选验证码的识别方法,能够使用Selenium结合超级鹰平台实现识别点选验证码的功能章节概述/Summary随着大数据、机器学习、深度学习的兴起,越来越多的企业通过分析数据探索新的发展道路,例如,内容推荐、商品推荐、智慧城市等。虽然通过对大量数据进行分析可以带来一定的商业价值,但越来越多的网站为了保护网站中的数据不被网络爬虫采集,会在网站内容中加入一些防爬虫措施干扰网络爬虫,例如,加入验证码,此时网络爬虫如果想采集数据,则需要对验证码进行处理处理。目录/Contents8.18.2验证码识别实践项目:登录黑马头条后台管理系统验证码识别8.1验证码是指能够区分用户是计算机或人类的公共全自动程序,它因为能够有效防止非人类的用户恶意注册网站,以及频繁采集网页数据等行为,所以成为了很多网站防爬虫的首选方式。起初,验证码只是一张带有随机字符的
2、图片,用户只需要输入图片中的字符即可完成验证,但是这种验证码很容易被网络爬虫识别。为了提升验证码的识别难度,设计人员在原先验证码的基础上添加了一些干扰元素,比如斜线、杂点等。8.1 验证码识别l掌握字符验证码的识别方法,能够使用pytesseract实现识别字符验证码的功能学学习目目标8.1.1 字符字符验证码的的识别8.1.1 字符字符验证码的的识别字符验证码是指将一串随机产生的数字或字母生成一张图片,图片中包含一些干扰元素(如数条直线、数个圆点、扭曲文字、杂点背景),由用户肉眼识别图片中的数字或字母后输入表单提交网站进行验证,一旦验证成功后就可以使用某项功能。相比用户行为的验证码,字符验证码的识别相对简单一些。我们只需要通过字符识别技术获取图片中的字符即可。常见的字符识别技术是OCR技术(Optical Character Recognition,光学字符识别),为了能够在Python程序中使用OCR技术识别字符验证码,我们可以通过两种方式进行实现:Tesseract-OCR(谷歌开发并开源的OCR引擎)和平台OCR(如百度OCR、腾讯OCR)。8.1.1 字符字符验证码的的识别T
3、esseract-OCR是一个光学字符识别引擎,支持多种操作系统,具有精准度高、灵活性高等特点。它通过训练不仅可以识别出任何字体(只要字体的风格保持不变即可),而且可以识别出任何Unicode字符。8.1.1 字符字符验证码的的识别步骤1步骤2步骤3步骤4访问Tesseract-OCR下载页面访问Tesseract-OCR下载页面,根据自己的计算机配置参数选择相应的安装包下载,这里选择下载Tesseract-OCR v5.0.0。8.1.1 字符字符验证码的的识别步骤2步骤1步骤3步骤4进入License Agreement界面在Welcome to Tesseract-OCR Setup界面中单击Next按钮进入License Agreement界面。8.1.1 字符字符验证码的的识别步骤3步骤1步骤2步骤4进入Choose Users界面在License Agreement界面单击I Agree按钮,进入Choose Users界面。8.1.1 字符字符验证码的的识别步骤4步骤1步骤2步骤3进入Choose Components界面在Choose User界面保持默认配置,单击Ne
4、xt按钮,进入Choose Components界面。8.1.1 字符字符验证码的的识别步骤5步骤6步骤7步骤8进入Choose Install Location界面在Choose Users界面保持默认配置,单击Next按钮,进入Choose Install Location界面。8.1.1 字符字符验证码的的识别步骤6步骤5步骤7步骤8进入Choose Start Menu Folder界面单击Choose Install Location界面的Next按钮,进入Choose Start Menu Folder界面。8.1.1 字符字符验证码的的识别步骤7步骤5步骤6步骤8进入Installation Complete界面单击Choose Start Menu Folder界面Next按钮,进入Installation Complete界面。8.1.1 字符字符验证码的的识别步骤8步骤5步骤6步骤7进入Completing Tesseract-OCR Setup界面单击Installation Complete界面Next按钮,进入Completing Tesseract-OCR
5、Setup界面。8.1.1 字符字符验证码的的识别步骤9步骤10添加到环境变量Tesseract-OCR安装完成之后,还需要将Tesseract-OCR的安装目录和语言包配置到环境变量中。8.1.1 字符字符验证码的的识别步骤9步骤10查看当前Tesseract-OCR的版本号通过在命令行窗口中输入tesseract-v命令,查看当前Tesseract-OCR的版本号,以验证环境变量是否配置成功。8.1.1 字符字符验证码的的识别为了能够调用Tesseract-OCR引擎识别字符验证码,Python中提供了两个库pytesseract和Pillow,其中pytesseract是对Tesseract-OCR的一层封装,它也可以单独作为Tesseract-OCR引擎的调用脚本;Pillow是基于PIL库的一个派生分支,如今已经发展成为比PIL本身更具活力的图像处理库。8.1.1 字符字符验证码的的识别pytesseract和Pillow都是第三方库,可以通过pip工具进行安装。pip install pytesseractpip install Pillow若要使用Tesseract-OC
《Python网络爬虫基础教程 第8章 验证码识别》由会员知**分享,可在线阅读,更多相关《Python网络爬虫基础教程 第8章 验证码识别》请在金锄头文库上搜索。
工科大学化学 配套课件
跨境电商客户服务 第2版 习题答案
跨境电商客户服务 第2版 配套课件
跨境电商客户服务 试卷
高考一轮复习古代诗歌阅读专题:语言特色
高考一轮复习古代诗歌阅读专题:评价观点态度
高考一轮复习古代诗歌阅读专题:表达技巧
读懂高考古代诗歌 课件
多个关键词材料的审题立意
古代诗歌鉴赏专题:分析思想情感
高一语文统编版 致云雀课件
湖南省长沙市天心区2022-2023学年高三上学期9月入学检测语文试题(解析版)
AutoCAD实例教程 教学教案
湖北省高中名校联盟2023届新高三第一次联合测评(含答案)
机器视觉检测技术及应用 配套课件
音乐鉴赏 配套课件
Python网络爬虫基础教程 第8章 验证码识别
通信系统与技术基础 第5章 移动通信技术
机器视觉技术与应用实战 第九章 视觉定位与对位
机器视觉技术与应用实战 第十章 机器人视觉引导
2024-04-11 25页
2024-04-11 37页
2024-04-11 28页
2024-04-11 31页
2024-04-11 36页
2024-04-11 29页
2024-04-11 22页
2024-04-11 27页
2024-04-11 34页
2024-04-11 32页