
2.2-微博数据获取处理平台.docx
7页2.2-微博数据获取处理平台 基于云计算的 微博数据获取分析平台 朱廷劭 中国科学院心理研究所计算网络心理实验室 目录 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences2 目录 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences3 平台概述?微博信息概况 2016‐7‐14 中国科学院大学, University of Chinese Academy of Sciences 4 我国网民数已以逾6亿(含移动客户端) 在新浪微博(我国最大的开放社会媒体)上: 日均活跃用户数约7660万月活跃用户数约1.67亿社会媒体兴起,用户在社会媒体上 获取信息、表达自我、进行互动… 数据即行为的记录 社会媒体→心理学实验室 平台概述?平台信息概况 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 5 传统数据技术已经无法满足海量微博数据的处理要求,而云计算技术可以非常高效的可以非常高效的完成对海量数据的存储和计算任务。
采集 传输处理 存储分析 展示 虚拟化、云计算虚拟化平台: ?基于vSphere,提供实验室私有云 ?虚拟化计算资源(CPU、Memory): 28 * (12*2.1GHz CPU + 128GB Memory) ?虚拟化存储资源(外接存储):5 * 27.3 TB ?网络资源(内网、外网): 8Gbps、20Mbps ?提供便捷的资源管理 目录 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 6 平台系统组成 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 7 基础设施 人机交互 处理应用 系统平台 2016‐7‐14 中国科学院大学, University of Chinese Academy of Sciences 8 HBase数据仓库:?存储用户微博数据 ?用户数:简要信息~55m,详细信息~1m ?微博条数(~1.06m User):~3.5b ?压缩后逻辑存储容量:~4TB WebAPP:心理地图、社会感知系统、社会幸福感分析、热点事件监控等等Cloudera Hadoop方案:?集群管理(48 集群结点)?HBase键值数据仓库 ?MapReduce分布式计算框架 ?Spark、Spark streaming、storm ?Kafka消息队列?Mlib、Mahout等?模型库 目录 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 9 平台系统生态架构 分布式爬虫平台 用户信息微博信息 系统日志 …… 流计算实时分析处理平台 Kafka消息中间件 Storm流计算引擎其他数据源 文件数据库…… Sqoop 离线导入 大数据分析基础平台 Hadoop Hdfs Hadoop Yarn HBase 基础组件 机器学习 Mahout Mlib 中间计算结果 Hbase KV 查询API 统一接口业务应用心理地图 社会感知 辛福感分 析热点事件监控 特定事件监控 自杀意念 用户分析…… 平台网关接口 Spark streaming MapReduce Spark Graph Graphx 分析工具 Python R 爬虫集群Hadoop处理集群Web应用 目录 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 11 系统介绍?分布式爬虫系统 2016‐7‐14 中国科学院大学, University of Chinese Academy of Sciences 12 微博开放平台(Weibo Open Platform)是基于微博海量用户和强大的传播能力,接入第三方合作伙伴服务,向用户提供丰富应用和完善服务的开放平台。
具备Token申请的条件 申请Token 具备微博API获取数据权限 系统介绍?分布式爬虫系统 2016‐7‐14 中国科学院大学, University of Chinese Academy of Sciences 13 微博开放平台特性: 下载频次限制、有效期 解决方案:分布式爬虫系统构建分布式Token获取服务 系统介绍?分布式爬虫系统 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 14 Server CrawlerClient CrawlerClient CrawlerClient Hbase 网关 … TokenClient TokenClient … 消息队列 Server :维护TokenClient上报的有效Token;生成微博下载API的Url;处理Crawler的URL请求TokenClient :与Server通信,当有效Token小于一定阈值后,从数据库获取用户信息,申请Token 并发送到Server。
CrawlerClient :与Server通信,获取Url,根据更新机制下载微博数据,并将微博数据存储到 Hbase支撑离线处理、将数据发送到消息队列支撑实时处理任务 系统介绍?Hadoop计算平台 流计算实时分析处理平台 Kafka消息中间件 Storm流计算引擎Sqoop 离线导入 大数据分析基础平台 Hadoop Hdfs Hadoop Yarn HBase 基础组件 机器学习 Mahout Mlib 平台网关接口 Spark streaming MapReduce Spark Graph Graphx 分析工具 Python R 两大作用:?离线处理?分析 五大功能:?数据传输?数据存储?数据处理?模型建立?模型应用 系统介绍?Hadoop计算平台 离线处理模式(MapReduce): 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences16 系统介绍?Hadoop计算平台 分析模式(Storm): 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences17 系统介绍?Hadoop计算平台 数据传输: Kafka Thrift 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences18 系统介绍?Hadoop计算平台 数据存储: Hbase HDFS Cluster Zoo Keeper Cluster Region Server Region Server Region Server Master Server HStore HFiles HStore HFiles Region HDFS 2016‐7‐14 中国科学院大学, University of Chinese Academy of Sciences 19 系统介绍?Hadoop计算平台 模型建立: Mlib:基于Spark Mahout:基于Mapreduce GraphX:基于Spark …… 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 20 系统介绍?Hadoop计算平台 数据处理流程 采集 传输 存储 特征提取模型应用 展示 计算平台处理流程 2016‐7‐14 中国科学院大学, University of Chinese Academy of Sciences 21 系统介绍?Hadoop计算平台 数据处理流程—传输 分布式爬虫系统 Kafka 基于Hadoop 的批量数据处理 系统基于Storm 的流数据处理系 统 Thrift 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 22 系统介绍?Hadoop计算平台 数据处理流程—特征提取 总词数WC 每句词数WPS 超过六字母字词Sixltr 抓取率(%)Dic 阿拉伯数字Numerals 英文单词EngWord 四字词(大于等于4个汉字的词语)FourChar 微博提及(@)AtMention 话题HashTag URL网址URL 微博表情Emos 功能词funct 代名词pronoun 特定人称代名词ppron 第一人称单数代名词i 第一人称复数代名词we 第二人称代名词you 第三人称单数代名词shehe 第三人称复数代名词they 非特定人称代名词ipron 动词verb 助动词auxverb 副词adverb 介系词preps 连接词conj 否定词negate 量词quant 数字number 脏话swear 語文 歷程 语言 过程 原有LIWC 類別针对 微博 。
