
南开大学2021年12月《网络爬虫与信息提取》期末考核试题库及答案参考89.docx
14页南开大学2021年12月《网络爬虫与信息提取》期末考核试题库及答案参考1. Redis若要进入交互环境,需要打开终端输入( )A.redis-cliB.redisC.redis-cmdD.redis-start参考答案:A2. Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3 )T.对F.错参考答案:F3. 以下表示请求正常处理的HTTP状态码为( )以下表示请求正常处理的HTTP状态码为( )A.200B.301C.404D.500参考答案:A4. 常用的会话跟踪技术是( )A.sessionB.cookiesC.moonpiesD.localstorage参考答案:AB5. 如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个( )A.列表B.元组C.字典D.集合参考答案:C6. 在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容 )在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容 )A.正确B.错误参考答案:A7. 某些网站在发起Ajax请求时会携带( )字符串用于身份验证某些网站在发起Ajax请求时会携带( )字符串用于身份验证A.TokenB.CookieC.ReqTimeD.sum参考答案:A8. Redis中从集合中查看有多少个值,用关键字( )。
A.scardB.cardC.countD.distinct参考答案:A9. PyMongoDB中排序方法sort第二个参数1表示降序 )T.对F.错参考答案:F10. 当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问 )当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问 )A.正确B.错误参考答案:B11. 使用UI Automator获滚动屏幕的操作是得到相应控件后使用命令( )A.scrollB.scroll_upC.scroll_forwordD.scroll_back参考答案:A12. 下面Python代码输出为:( )def default_para_without_trap(para=[],value=0):if not para:par下面Python代码输出为:( )def default_para_without_trap(para=[],value=0):if not para:para=[]para.append(value)return para print(‘第一步:{}’.format(default_para_trap(value=100))) print(‘第二步:{}’.format(default_para_trap(value=50)))A.第一步:[100]第二步:[100,50]B.第一步:[100]第二步:[50]C.第一步:[100]第二步:[]D.第一步:[100]第二步:[100]参考答案:B13. MongoDB是一个关系数据库产品。
)A.正确B.错误参考答案:B14. mitmproxy的强大之处在于它还自带一个mitmdump命令这个命令可以用来运行符合一定规则的Python脚本 )A.正确B.错误参考答案:A15. 以下哪些方法属于Python写CSV文件的方法?( )A.writeheadersB.writeheaderC.writerrowsD.writerow参考答案:ACD16. requests中post请求方法的第二个参数可以为( )requests中post请求方法的第二个参数可以为( )A.字典B.列表C.json数据D.字符串参考答案:AC17. 插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1 )插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1 )A.正确B.错误参考答案:B18. 采用以下( )技术可以实现异步加载A.HTMLB.AJAXC.CSSD.HTTP参考答案:B19. 爬虫的源代码通过公开不会对被爬虫网站造成影响 )A.正确B.错误参考答案:B20. Python可以将列表或字典转换成Json字符串。
)T.对F.错参考答案:T21. 下列哪项不是HTTP的请求类型( )下列哪项不是HTTP的请求类型( )A.GETB.POSTC.PUTD.SET参考答案:D22. 如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的 )A.正确B.错误参考答案:A23. 自动填充验证码的方式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别参考答案:BC24. PyMongo中逻辑查询表示不等于的符号是( )A.$neB.$ltC.$gtD.$eq参考答案:A25. Python中以下哪个容器里的元素不能重复( )A.列表B.元组C.字典D.集合参考答案:D26. HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源 )A.正确B.错误参考答案:B27. 爬虫中间件的激活需要另外写一个文件来进行 )A.正确B.错误参考答案:B28. process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。
)process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用 )A.正确B.错误参考答案:B29. PyMongo删除操作有( )PyMongo删除操作有( )A.deleteB.delete_allC.delete_oneD.delete_many参考答案:CD30. Python中( )与元组由类似的数据读取方式A.字符串B.列表C.字典D.集合参考答案:AB31. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据 )A.正确B.错误参考答案:A32. 使用python定制mitmproxy,下面的语句请求的是( ){req.headers["User-Agent"]}使用python定制mitmproxy,下面的语句请求的是( ){req.headers["User-Agent"]}A.headersB.文本内容C.目标网站D.user-agent参考答案:D33. 为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。
)T.对F.错参考答案:T34. Python中Object={&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;},则Objcet.get(&39;boj_3&39;,&39;3&39;)是( )A.1B.2C.3D.无输出参考答案:C35. 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装 )在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装 )A.正确B.错误参考答案:B36. 浏览器用来记录用户状态信息的数据叫( )浏览器用来记录用户状态信息的数据叫( )A.sessionB.cookiesC.moonpiesD.selenium参考答案:B37. BS4可以用来从( )中提取数据A.HTMLB.XMLC.数据库D.JSON参考答案:AB38. 带上通过Chrome浏览器从评论页面复制而来的( )再发起请求,可以减少爬虫被网站封锁的概率A.CookieB.HtmlC.HeadersD.CSS参考答案:C39. cookies的缺点是( )。
A.实现自动登录B.跟踪用户状态C.http中明文传输D.增加http请求的流量参考答案:CD40. MongoDB URI的格式为:mongodb://服务器IP或域名:端口@用户名:密码 )MongoDB URI的格式为:mongodb://服务器IP或域名:端口@用户名:密码 )A.正确B.错误参考答案:B41. 当需要把Python里面的数据发送给网页时,应先将其转换成( )A.Json字符串B.GETC.POSTD.Request参考答案:A42. 使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令( )A.wakeupB.lightC.brightD.sleep参考答案:A43. 可以通过( )绕过网站登录A.sessionB.cookiesC.moonpiesD.localstorage参考答案:B44. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf )A.正确B.错误参考答案:B45. XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。
)T.对F.错参考答案:F46. Python中( )容器有推导式Python中( )容器有推导式A.列表B.元组C.字典D.集合参考答案:ACD47. scrapy与selenium结合可以实现直接处理需要异步加载的页面 )T.对F.错参考答案:T48. Python中一个函数可以有( )个return语句Python中一个函数可以有( )个return语句A.0B.1C.多个D.2参考答案:ABCD49. 如果使用Python的数。
