
南开大学22春《网络爬虫与信息提取》综合作业二答案参考58.docx
13页南开大学22春《网络爬虫与信息提取》综合作业二答案参考1. HTTP状态码302表示资源永久重定向 )T.对F.错参考答案:F2. 数据抓包就是中间人爬虫的一个简单应用所以使用Charles也是一种中间人攻击 )T.对F.错参考答案:T3. 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询 )T.对F.错参考答案:T4. robots.txt是一种规范,在法律范畴内 )robots.txt是一种规范,在法律范畴内 )A.正确B.错误参考答案:B5. 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了( )攻击A.XSSB.DOSC.DDOSD.跨域参考答案:C6. 在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容 )在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容 )A.正确B.错误参考答案:A7. Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串 )A.正确B.错误参考答案:A8. lxml库中etree模块的( )方法把Selector对象转换为bytes型的源代码数据。
A.etree.tostringB.etree.convertBytesC.etree.toBytesD.etree.convertstring参考答案:A9. Redis是( )数据库A.关系数据库B.键值数据库C.列存数据库D.图数据库参考答案:B10. Python中定义函数关键字为( )A.defB.defineC.funcD.function参考答案:A11. 虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度 )T.对F.错参考答案:T12. 安装mitmdump之前,运行sudo apt-get install python3-dev python3-pip libffi-dev libssl-dev是为了安装必要的运行环境 )T.对F.错参考答案:T13. MongoDB中可以将( )数据结构插入集合中A.列表B.元组C.字典D.集合参考答案:C14. MongoDB是一个关系数据库产品 )A.正确B.错误参考答案:B15. 下面关于Charles使用说法错误的是( )A.在数据包非常多的情况下,使用Charles的过滤功能来对数据包进行过滤从而减少干扰B.通过单击图中方框框住的各个选项卡,可以非常直观地观察到请求和返回的各种信息C.如果浏览器是Chrome,在没有安装第三方代理插件的情况下,Chrome的HTTP流量都会经过CharlesD.Charles无法支持计算机上除了浏览器之外的其他软件参考答案:D16. 以下哪个HTML标签表示定义文档的主体( )以下哪个HTML标签表示定义文档的主体( )A.divB.bodyC.headD.footer参考答案:B17. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好。
于是将数据或者分析结果出售给某基金公司,从而获得销售收入这是合法的 )A.正确B.错误参考答案:A18. 在请求头中设置User-Agent即可正常请求网站 )在请求头中设置User-Agent即可正常请求网站 )A.正确B.错误参考答案:B19. 下列关于在IOS上配置charles的说法正确的是( )下列关于在IOS上配置charles的说法正确的是( )A.不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口B.和电脑需要在同一个局域网下C.HTTP代理可以使用“自动”选项D.安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动参考答案:BD20. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据 )A.正确B.错误参考答案:A21. ( )是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案:A22. MongoDB中获取名字为set1的集合的语句为( )MongoDB中获取名字为set1的集合的语句为( )A.database.set1B.database('set1')C.database['set1']D.database{'set1'}参考答案:AC23. Python可以将列表或字典转换成Json字符串。
)T.对F.错参考答案:T24. Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库 )T.对F.错参考答案:T25. 开源库pytesseract的作用是将图像中文字转换为文本 )A.正确B.错误参考答案:A26. 在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:D27. 用Xpathh获取第二个div标签应该是( )用Xpathh获取第二个div标签应该是( )A.dvi(1)B.div(2)C.div[1]D.div[2]参考答案:D28. Python中( )与元组由类似的数据读取方式A.字符串B.列表C.字典D.集合参考答案:AB29. 使用UI Automator使屏幕向上滚动一屏的操作是得到相应控件后使用命令scroll.vert.forward )A.正确B.错误参考答案:B30. 爬虫的源代码通过公开不会对被爬虫网站造成影响 )A.正确B.错误参考答案:B31. 自己能查看的数据,允许擅自拿给第三方查看。
)T.对F.错参考答案:F32. 要使用tesseract来进行图像识别,需要安装两个第三方库( )要使用tesseract来进行图像识别,需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案:CD33. Python正则表达式中“.*”是贪婪模式,获取最长的满足条件的字符串 )A.正确B.错误参考答案:A34. HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源 )A.正确B.错误参考答案:B35. HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )A.403B.404C.500D.503参考答案:AB36. 当爬虫创建好了之后,可以使用“scrapy( )”命令运行爬虫A.startupB.starwarC.drawlD.crawl参考答案:D37. 使用Selennium获取网页中元素的方法有( )A.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements_by_id参考答案:ABCD38. 当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。
)T.对F.错参考答案:F39. HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )A.403B.404C.500D.503参考答案:AB40. Python中Object=(1,2,3,4,5),则Objcet是( )A.列表B.元组C.字典D.集合参考答案:B41. “curl http://爬虫服务器IP地址:6800/cancel.json-d project=工程名-d job=爬虫JOBID”该命令的作用是启动爬虫 )A.正确B.错误参考答案:B42. Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为( )A.空B.空列表C.空元组D.不返回参考答案:B43. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任 )charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任 )A.正确B.错误参考答案:A44. Scrapy每一次发起请求之前都会在这里检查网址是否重复。
因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可 )A.正确B.错误参考答案:A45. 下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统,使用Homebrew安装mitmproxy,命令为:brew install mitmproxyB.在Ubuntu中,要安装mitmproxy,首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令,只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 installmitmproxy 进行安装参考答案:C46. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B47. requests中get请求方法的使用为requests.get('网址', data=data) )T.对F.错参考答案:F48. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。
)Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据 )A.正确B.错误参考答案:A49. requests中post请求方法的第二。












