20秋学期（1709、1803、1809、1903、1909、2003、2009 ）《网络爬虫与信息提取》在线作业（二）

资源ID：149536379 资源大小：21.18KB 全文页数：15页
资源格式： DOCX 下载积分：12金贝

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要12金贝

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

1、金锄头文库是“C2C”交易模式，即卖家上传的文档直接由买家下载，本站只是中间服务平台，本站所有文档下载所得的收益全部归上传人（卖家）所有，作为网络服务商，若您的权利被侵害请及时联系右侧客服；
2、如你看到网页展示的文档有jinchutou.com水印，是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有jinchutou.com水印标识，下载后原文更清晰；
3、所有的PPT和DOC文档都被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；下载前须认真查看，确认无误后再购买；
4、文档大部份都是可以预览的，金锄头文库作为内容存储提供商，无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证，请慎重购买；
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据；
6、如果您还有什么不清楚的或需要我们协助，可以点击右侧栏的客服。

下载须知 | 常见问题汇总

1、会员注册 2、如何支付与充值 3、个人资料信息修改 4、我的收藏和“收藏文件夹” 5、我的读者群和加入读者群 6、我的书签 7、金锄头文库批量上传工具（绿色版）V1.0 8、下载文档（资源）相关问题整理 9、解决下载文档时，自动弹出迅雷的问题 10、下载时为什么支付不成功？

20秋学期（1709、1803、1809、1903、1909、2003、2009 ）《网络爬虫与信息提取》在线作业（二）

20秋学期（1709、1803、1809、1903、1909、2003、2009 ）网络爬虫与信息提取在线作业（二）一、单选题共20题，40分1. ()是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具AScrapydBScrapyDeployCDeployDScrapy_Deploy2. 当爬虫创建好了之后,可以使用"scrapy()<爬虫名>" 命令运行爬虫。AstartupBstarwarCdrawlDcrawl3. 在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()Aspiders文件夹Bitem.pyCpipedivne.pyDsettings.py4. 使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令()AswipeBmoveCscrollDfly5. windows中创建定时任务的命令为AtaskBschtasksCcreatetasksDmaketasks6. MongoDB中数据存储的形式类似于()A列表B元组C字典D集合7. requests中post请求方法的使用为requests.post(网址, data=data)中的data为()A列表B元组C字典D集合8. Python中把列表转换为集合需要使用函数AsetBdivstCconvertDchange9. 使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控()中的数据,并不读取start_urls中的数据。ARedisBRedisSpiderCSpiderDMongoDB10. 在Mac OS下安装MongoDB使用命令() install mongodbAbrewBapt-getCsudoDapt11. 当需要把Python里面的数据发送给网页时,应先将其转换成()AJson字符串BGETCPOSTDRequest12. 服务器端记录信息确定用户身份的数据是AsessionBcookiesCmoonpiesDlocalstorage13. 下列说法错误的是()A小程序的请求极其简单，基本上没有验证信息B用Python来请求小程序的后台接口从而获取数据，比请求异步加载网页的后台接口要复杂很多。C如果目标网站有微信小程序，那么一定要优先调查能否通过小程序的接口来抓取数据。D小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据，能极大提高爬虫的开发效率。14. 下面Python代码输出为():def default_para_trap(para=, value=0): para.append(value) return paraprint(第一步:.format(default_para_trap(value=100)print(第二步:.format(default_para_trap(value=50)A第一步:100第二步:100,50B第一步:100第二步:50C第一步:100第二步:D第一步:100第二步:10015. 在Scrapy的目录下,哪个文件负责存放爬虫文件?()Aspiders文件夹Bitem.pyCpipedivne.pyDsettings.py16. xpath中extract方法返回值类型是()A列表B元组C字典D集合17. 参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。AHEADERBHEADERSCHEADDBODY18. Python中Object=(1, 2, 3, 4, 5),则Objcet是()A列表B元组C字典D集合19. 在Scrapy的目录下,哪个文件负责定义需要爬取的数据?()Aspiders文件夹Bitem.pyCpipedivne.pyDsettings.py20. Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成A列表B元组C字典D集合二、多选题共10题，20分1. Python中的容器有()A列表B元组C字典D集合2. 使用Selennium获取网页中元素的方法有Afind_element_by_nameBfind_element_by_idCfind_elements_by_nameDfind_elements_by_id3. 一个可行的自动更换代理的爬虫系统,应该下列哪些功能?A有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证，将可以使用的代理IP保存到数据库中B在发现某个请求已经被设置过代理后，什么也不做，直接返回C在ProxyMiddlerware的process_request中，每次从数据库里面随机选择一条代理IP地址使用D周期性验证数据库中的无效代理，及时将其删除4. 下列关于在IOS上配置charles的说法正确的是()A不同ios设备之间会有比较大的差别，所以配置的时候需要找到对应的安装证书的入口。B手机和电脑需要在同一个局域网下。CHTTP代理可以使用“自动”选项。D安装好证书以后，打开iOS设备上的任何一个App，可以看到Charles中有数据包在流动5. 下列说法错误的是()Amitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本，并在Python脚本里面直接操作HTTP和HTTPS的请求，以及返回的数据包。B命令行中执行mitmdump -s parse_request.py即可运行python 脚本C使用python可以自定义返回的数据包，如 response.headers，就是返回的头部信息D如果返回的是JSON类型的字符串，python无法进行解析。6. 以下HTTP状态码表示服务器本身发生错误的是A400B503C302D5007. Python中哪种容器生成后可以修改内容A列表B元组C字典D集合8. 以下HTTP状态码表示服务器没有正常返回结果的是A200B301C404D5009. 如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据()来起诉使用爬虫的公司A服务器日志B数据库日志记录C程序日志记录D服务器监控10. requests中post请求方法的第二个参数可以为()A字典B列表Cjson数据D字符串三、判断题共20题，40分1. process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用A对B错2. 需要登录的网站一般通过GET请求就可以实现登录。A对B错3. Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。A对B错4. UI Automator Viewer与Python uiautomator可以同时使用A对B错5. device.sleep()方法是使用UI Automatorr关闭屏幕的命令A对B错6. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的A对B错7. mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本A对B错8. MongoDB是一个关系数据库产品A对B错9. Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。A对B错10. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。A对B错11. Charles和Chrome开发者工具相比,只是多了一个搜索功能。A对B错12. 爬虫中间件的激活需要另外写一个文件来进行A对B错13. Cookies一般包含在请求头Headers中A对B错14. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行A对B错15. 如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。A对B错16. Redis中使用lrange读取数据后数据也会删除A对B错17. 开源库pytesseract的作用是将图像中文字转换为文本。A对B错18. Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。A对B错19. ”curl http:/爬虫服务器IP地址:6800/cancel.json -d project=工程名 -d job=爬虫JOBID“该命令的作用是启动爬虫A对B错20. 中间人爬虫就是利用了中间人攻击的原理来实现数据抓取的一种爬虫技术A对B错

注意事项

本文（20秋学期（1709、1803、1809、1903、1909、2003、2009 ）《网络爬虫与信息提取》在线作业（二））为本站会员（易**）主动上传，金锄头文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】，按提示上传提交保证函及证明材料，经审查核实后我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。