电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > DOCX文档下载
分享到微信 分享到微博 分享到QQ空间

南开大学21秋《网络爬虫与信息提取》平时作业一参考答案58

  • 资源ID:470098054       资源大小:14.19KB        全文页数:14页
  • 资源格式: DOCX        下载积分:15金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要15金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

南开大学21秋《网络爬虫与信息提取》平时作业一参考答案58

南开大学21秋网络爬虫与信息提取平时作业一参考答案1. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案:A2. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B3. 下列说法错误的是( )。A.小程序的请求极其简单,基本上没有验证信息B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率参考答案:D4. 使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码。( )A.正确B.错误参考答案:A5. 在有spiders何setting.py这两项的情况下,可以写出爬虫并且保存数据,items.py和pipelines.py文件是原作者的失误而导致的冗余文件。( )T.对F.错参考答案:F6. 当爬虫创建好了之后,可以使用“scrapy( )”命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案:D7. 下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para:下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para: para = para.append(value) return para print('第一步:'.format(default_para_trap(value=100) print('第二步:'.format(default_para_trap(value=50)A.第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案:B8. 下面Python代码输出为( ):def default_para_trap(para=, value=0):para.append(value)return下面Python代码输出为( ):def default_para_trap(para=, value=0):para.append(value)return paraprint('第一步:'.format(default_para_trap(value=100)print('第二步:'.format(default_para_trap(value=50)A.第一步:100第二步:100,50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案:A9. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )T.对F.错参考答案:T10. requests中get请求方法的使用为requests.get('网址', data=data)。( )T.对F.错参考答案:F11. 爬虫中间件的作用对象是请求request和返回response。( )爬虫中间件的作用对象是请求request和返回response。( )A.正确B.错误参考答案:B12. Python中若定义object=1, 2, 3, 4, 5,则print(object:3)输出( )Python中若定义object=1, 2, 3, 4, 5,则print(object:3)输出( )A.12B.123C.23D.234参考答案:B13. 使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )A.settextB.setC.set_textD.text参考答案:C14. 要实现Charles对Android抓包,其过程比iOS稍微复杂一点。这是因为不同的Andorid设备,安装证书的入口可能不一样。( )要实现Charles对Android抓包,其过程比iOS稍微复杂一点。这是因为不同的Andorid设备,安装证书的入口可能不一样。( )A.正确B.错误参考答案:A15. 下面代码一共执行循环多少次( ): for i in range(10): print(i * i)A.9B.10C.11D.0参考答案:B16. Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )A.正确B.错误参考答案:B17. PyMongo中逻辑查询表示小于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:B18. 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案:B19. Redis中从集合中查看有多少个值,用关键字( )。A.scardB.cardC.countD.distinct参考答案:A20. BS4可以用来从( )中提取数据A.HTMLB.XMLC.数据库D.JSON参考答案:AB21. 要使用tesseract来进行图像识别,需要安装两个第三方库( )要使用tesseract来进行图像识别,需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案:CD22. Charles和Chrome开发者工具相比,只是多了一个搜索功能。( )T.对F.错参考答案:F23. process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )T.对F.错参考答案:F24. Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。( )A.正确B.错误参考答案:A25. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好。于是将数据或者分析结果出售给某基金公司,从而获得销售收入。这是合法的。( )A.正确B.错误参考答案:A26. RoboMongo是MongoDB的管理软件。( )T.对F.错参考答案:T27. “curl http:/爬虫服务器IP地址:6800/cancel.json-d project=工程名-d job=爬虫JOBID”该命令的作用是启动爬虫。( )A.正确B.错误参考答案:B28. process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案:B29. HTTP常用状态码表明服务器不允许访问那个资源的是( )A.500B.503C.403D.405参考答案:C30. 在Linux中哪个命令是添加权限的( )A.chmodB.sudoC.cpD.mkdir参考答案:A31. Redis中的值可以支持( )。A.列表B.哈希C.集合D.有序集合参考答案:ABCD32. Redis的集合与Python的集合一样,没有顺序,值不重复。( )Redis的集合与Python的集合一样,没有顺序,值不重复。( )A.正确B.错误参考答案:A33. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B34. robots.txt是一种规范,在法律范畴内。( )A.正确B.错误参考答案:B35. 爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行。( )A.正确B.错误参考答案:B36. 网络爬虫的用途有( )。A.收集数据B.尽职调查C.提高流量D.攻击服务器参考答案:ABC37. 插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )T.对F.错参考答案:F38. 爬虫中间件的激活需要另外写一个文件来进行。( )A.正确B.错误参考答案:B39. Python可以将列表或字典转换成Json字符串。( )T.对F.错参考答案:T40. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。( )A.正确B.错误参考答案:B41. 使用UI Automator使屏幕向上滚动一屏的操作是得到相应控件后使用命令scroll.vert.forward。( )A.正确B.错误参考答案:B42. Python中把列表转换为集合需要使用( )函数Python中把列表转换为集合需要使用( )函数A.setB.listC.convertD.change参考答案:A43. 以下表示请求正常处理的HTTP状态码为( )以下表示请求正常处理的HTTP状态码为( )A.200B.301C.404D.500参考答案:A44. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Ch

注意事项

本文(南开大学21秋《网络爬虫与信息提取》平时作业一参考答案58)为本站会员(汽***)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.