电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

20秋学期(1709、1803、1809、1903、1909、2003、2009 )《网络爬虫与信息提取》在线作业(二)

15页
  • 卖家[上传人]:易**
  • 文档编号:149536379
  • 上传时间:2020-10-27
  • 文档格式:DOCX
  • 文档大小:21.18KB
  • / 15 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、20秋学期(1709、1803、1809、1903、1909、2003、2009 )网络爬虫与信息提取在线作业(二)一、单选题共20题,40分1. ()是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具AScrapydBScrapyDeployCDeployDScrapy_Deploy2. 当爬虫创建好了之后,可以使用scrapy() 命令运行爬虫。AstartupBstarwarCdrawlDcrawl3. 在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()Aspiders文件夹Bitem.pyCpipedivne.pyDsettings.py4. 使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令()AswipeBmoveCscrollDfly5. windows中创建定时任务的命令为AtaskBschtasksCcreatetasksDmaketasks6. MongoDB中数据存储的形式类似于()A列表B元组C字典D集合7. requests中post请求方法的使用为requests.post(网址, data=dat

      2、a)中的data为()A列表B元组C字典D集合8. Python中把列表转换为集合需要使用函数AsetBdivstCconvertDchange9. 使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控()中的数据,并不读取start_urls中的数据。ARedisBRedisSpiderCSpiderDMongoDB10. 在Mac OS下安装MongoDB使用命令() install mongodbAbrewBapt-getCsudoDapt11. 当需要把Python里面的数据发送给网页时,应先将其转换成()AJson字符串BGETCPOSTDRequest12. 服务器端记录信息确定用户身份的数据是AsessionBcookiesCmoonpiesDlocalstorage13. 下列说法错误的是()A小程序的请求极其简单,基本上没有验证信息B用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多。C如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据。D小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数

      3、据,能极大提高爬虫的开发效率。14. 下面Python代码输出为():def default_para_trap(para=, value=0): para.append(value) return paraprint(第一步:.format(default_para_trap(value=100)print(第二步:.format(default_para_trap(value=50)A第一步:100第二步:100,50B第一步:100第二步:50C第一步:100第二步:D第一步:100第二步:10015. 在Scrapy的目录下,哪个文件负责存放爬虫文件?()Aspiders文件夹Bitem.pyCpipedivne.pyDsettings.py16. xpath中extract方法返回值类型是()A列表B元组C字典D集合17. 参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。AHEADERBHEADERSCHEADDBODY18. Python中Object=(1, 2, 3, 4, 5),则Objcet是()A列表B元组C字典D

      4、集合19. 在Scrapy的目录下,哪个文件负责定义需要爬取的数据?()Aspiders文件夹Bitem.pyCpipedivne.pyDsettings.py20. Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成A列表B元组C字典D集合二、多选题共10题,20分1. Python中的容器有()A列表B元组C字典D集合2. 使用Selennium获取网页中元素的方法有Afind_element_by_nameBfind_element_by_idCfind_elements_by_nameDfind_elements_by_id3. 一个可行的自动更换代理的爬虫系统,应该下列哪些功能?A有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中B在发现某个请求已经被设置过代理后,什么也不做,直接返回C在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用D周期性验证数据库中的无效代理,及时将其删除4. 下列关于在IOS上配置charles的说法正

      5、确的是()A不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口。B手机和电脑需要在同一个局域网下。CHTTP代理可以使用“自动”选项。D安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动5. 下列说法错误的是()Amitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本,并在Python脚本里面直接操作HTTP和HTTPS的请求,以及返回的数据包。B命令行中执行mitmdump -s parse_request.py即可运行python 脚本C使用python可以自定义返回的数据包,如 response.headers,就是返回的头部信息D如果返回的是JSON类型的字符串,python无法进行解析。6. 以下HTTP状态码表示服务器本身发生错误的是A400B503C302D5007. Python中哪种容器生成后可以修改内容A列表B元组C字典D集合8. 以下HTTP状态码表示服务器没有正常返回结果的是A200B301C404D5009. 如果目标网站有反爬虫声明

      6、,那么对方在被爬虫爬取以后,可以根据()来起诉使用爬虫的公司A服务器日志B数据库日志记录C程序日志记录D服务器监控10. requests中post请求方法的第二个参数可以为()A字典B列表Cjson数据D字符串三、判断题共20题,40分1. process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用A对B错2. 需要登录的网站一般通过GET请求就可以实现登录。A对B错3. Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。A对B错4. UI Automator Viewer与Python uiautomator可以同时使用A对B错5. device.sleep()方法是使用UI Automatorr关闭屏幕的命令A对B错6. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的A对B错7. mitmproxy的强大之处在于它还自带一

      7、个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本A对B错8. MongoDB是一个关系数据库产品A对B错9. Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。A对B错10. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。A对B错11. Charles和Chrome开发者工具相比,只是多了一个搜索功能。A对B错12. 爬虫中间件的激活需要另外写一个文件来进行A对B错13. Cookies一般包含在请求头Headers中A对B错14. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行A对B错15. 如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。A对B错16. Redis中使用lrange读取数据后数据也会删除A对B错17. 开源库pytesseract的作用是将图像中文字转换为文本。A对B错18. Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。A对B错19. ”curl http:/爬虫服务器IP地址:6800/cancel.json -d project=工程名 -d job=爬虫JOBID“该命令的作用是启动爬虫A对B错20. 中间人爬虫就是利用了中间人攻击的原理来实现数据抓取的一种爬虫技术A对B错

      《20秋学期(1709、1803、1809、1903、1909、2003、2009 )《网络爬虫与信息提取》在线作业(二)》由会员易**分享,可在线阅读,更多相关《20秋学期(1709、1803、1809、1903、1909、2003、2009 )《网络爬虫与信息提取》在线作业(二)》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《网络爬虫与信息提取》在线作业(二)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《网络爬虫与信息提取》在线作业(二)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《网络爬虫与信息提取》在线作业(一)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《网络爬虫与信息提取》在线作业(一)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《数据科学导论》在线作业(一)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《数据科学导论》在线作业(一)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《数据科学导论》在线作业(二)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《数据科学导论》在线作业(二)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《Python编程基础》在线作业(二)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《Python编程基础》在线作业(二)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《Python编程基础》在线作业(一)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《Python编程基础》在线作业(一)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《程序设计基础(下)》在线作业(二)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《程序设计基础(下)》在线作业(二)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《程序设计基础(下)》在线作业(一)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《程序设计基础(下)》在线作业(一)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《学术基本要素:专业论文写作(尔雅)》在线作业(3)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《学术基本要素:专业论文写作(尔雅)》在线作业(3)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《计算机应用基础》在线作业(一)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《计算机应用基础》在线作业(一)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《学术基本要素:专业论文写作(尔雅)》在线作业(五)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《学术基本要素:专业论文写作(尔雅)》在线作业(五)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《学术基本要素:专业论文写作(尔雅)》在线作业(四)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《学术基本要素:专业论文写作(尔雅)》在线作业(四)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《学术基本要 素:专业论文写作(尔雅)》在线作业

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《学术基本要 素:专业论文写作(尔雅)》在线作业

  • 2019年10月自考0050《外国文学史》试题(参考答案)

    2019年10月自考0050《外国文学史》试题(参考答案)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《并行程序设 计》在线作业(一)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《并行程序设 计》在线作业(一)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《网络技术与应 用》在线作业(三)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《网络技术与应 用》在线作业(三)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《网络技术与应用》在线作业(二)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《网络技术与应用》在线作业(二)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《网络技术与应 用》在线作业(一)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《网络技术与应 用》在线作业(一)

  • 20秋学期(1709、1803、1809、1903、1909、2003、2009 )《并行程序设 计》在线作业(二)

    20秋学期(1709、1803、1809、1903、1909、2003、2009 )《并行程序设 计》在线作业(二)

  • 2019年4月自考0050《外国文学史》试题(参考答案)

    2019年4月自考0050《外国文学史》试题(参考答案)

  • 点击查看更多
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
     
    收藏店铺
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.