您所在位置：网站首页 > IT计算机/网络 > Python > Python简单爬虫案例详解

Python简单爬虫案例详解

4页

卖家[上传人]：知***

文档编号：597195890

上传时间：2025-01-20

文档格式：DOCX

文档大小：13.61KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金贝

/ 4 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、Python简单爬虫案例详解一、爬虫介绍用pyhton从网页中爬取数据，是比较常用的爬虫方式。网页一般由html编写，里面包含大量的标签，我们所需的内容都包含在这些标签之中，除了对python的基础语法有了解之外，还要对html的结构以及标签选择有简单的认知，下面就用爬取XXX网的案例带大家进入爬虫的世界二、实现步骤1.导入依赖网页内容依赖import requests，如没有下载依赖，在terminal处输出pip install requests，系统会自动导入依赖解析内容依赖常用的有BeautifulSoup、parsel、re等等与上面步骤一样，如没有依赖，则在terminal处导入依赖导入BeautifulSoup依赖pip install bs4导入pasel依赖pip install parsel使用依赖from bs4 import BeautifulSoupimport requestsimport parselimport re2.获取数据简单的获取网页，网页文本response = requests.get(url).text对于很多网站可能需要用户身份登录，此时

2、用headers伪装，此内容可以在浏览器f12获得headers = Cookie: cookie，非真实的, User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36headers = Host: , Connection: keep-alive, Pragma: no-cache, Cache-Control: no-cache, sec-ch-ua: Google Chrome;v=125, Chromium;v=125, Not.A/Brand;v=24, sec-ch-ua-mobile: ?0, sec-ch-ua-platform: Windows, Upgrade-Insecure-Requests: 1, User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gec

3、ko) Chrome/125.0.0.0 Safari/537.36, Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7, Sec-Fetch-Site: same-origin, Sec-Fetch-Mode: navigate伪装后获取网页数据response = requests.get(url=url,headers=headers).get.text甚至还有些跟SSL证书相关，还需设置proxiesproxies = http: http:/127.0.0.1:9000, https: http:/127.0.0.1:9000response = requests.get(url=url,headers=headers, proxies=proxies).get.text3.解析数据数据的解析有几种方式，比如xpath，css, recss顾

4、名思义，就是html标签解析方式了re是正则表达式解析4.写入文件with open(titleName + .txt, mode=w, encoding=utf-8) as f: f.write(content)open函数打开文件IO，with函数让你不用手动关闭IO流，类似Java中Try catch模块中try()引入IO流第一个函数为文件名，mode为输入模式，encoding为编码，还有更多的参数，可以自行研究write为写入文件三、完整案例import requestsimport parsellink = #目标地址link_data = requests.get(url=link).textlink_selector = parsel.Selector(link_data)href = link_selector.css(.DivTr a:attr(href).getall()for index in href: url = fhttps:index print(url) response = requests.get(url, headers) html_data = response.text selector = parsel.Selector(html_data) title = selector.css(.c_l_title h1:text).get() content_list = selector.css(div.noveContent p:text).getall() content = n.join(content_list) with open(title + .txt, mode=w, encoding=utf-8) as f: f.write(content)

《Python简单爬虫案例详解》由会员知***分享，可在线阅读，更多相关《Python简单爬虫案例详解》请在金锄头文库上搜索。

点击阅读更多内容

新上传的文档

钢结构吊装对环境的影响标准厂房建设厂区规划与布局低空经济产业园的产业发展趋势分析智算产业园的技术发展趋势标准厂房区域基础设施现状及发展潜力国内外标准化厂房发展现状智算产业园区功能布局规划妇幼保健院项目背景与意义妇幼保健院经济效益分析吊装设备的选择与配置妇幼保健院项目投资分析集成电路产业园污水处理厂项目的市场前景与发展趋势新课标背景下小学英语作业的重要性妇幼保健院医疗质量管理体系销售部外部市场变化对薪酬体系的影响产教融合基地产业发展趋势分析妇幼保健院人员需求与组织结构二手车行业现状标准厂房钢结构材料的选择与性能城中村改造项目区域选择与现状分析

进入店铺

收藏店铺