您所在位置：网站首页 > 大杂烩/其它 > 2.2-微博数据获取处理平台

2.2-微博数据获取处理平台.docx

7页

卖家[上传人]：学***

文档编号：229421462

上传时间：2021-12-25

文档格式：DOCX

文档大小：15.53KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

9金贝

下载

/ 7 举报版权申诉马上下载

文本预览

下载提示

常见问题

2.2-微博数据获取处理平台基于云计算的微博数据获取分析平台朱廷劭中国科学院心理研究所计算网络心理实验室目录 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences2 目录 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences3 平台概述?微博信息概况 2016‐7‐14 中国科学院大学, University of Chinese Academy of Sciences 4 我国网民数已以逾6亿（含移动客户端）在新浪微博（我国最大的开放社会媒体）上：日均活跃用户数约7660万月活跃用户数约1.67亿社会媒体兴起，用户在社会媒体上获取信息、表达自我、进行互动… 数据即行为的记录社会媒体→心理学实验室平台概述?平台信息概况 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 5 传统数据技术已经无法满足海量微博数据的处理要求，而云计算技术可以非常高效的可以非常高效的完成对海量数据的存储和计算任务。

采集传输处理存储分析展示虚拟化、云计算虚拟化平台： ?基于vSphere，提供实验室私有云 ?虚拟化计算资源（CPU、Memory）： 28 * (12*2.1GHz CPU + 128GB Memory) ?虚拟化存储资源（外接存储）：5 * 27.3 TB ?网络资源（内网、外网）： 8Gbps、20Mbps ?提供便捷的资源管理目录 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 6 平台系统组成 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 7 基础设施人机交互处理应用系统平台 2016‐7‐14 中国科学院大学, University of Chinese Academy of Sciences 8 HBase数据仓库：?存储用户微博数据 ?用户数：简要信息~55m，详细信息~1m ?微博条数(~1.06m User)：~3.5b ?压缩后逻辑存储容量：~4TB WebAPP：心理地图、社会感知系统、社会幸福感分析、热点事件监控等等Cloudera Hadoop方案：?集群管理（48 集群结点）?HBase键值数据仓库 ?MapReduce分布式计算框架 ?Spark、Spark streaming、storm ?Kafka消息队列?Mlib、Mahout等?模型库目录 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 9 平台系统生态架构分布式爬虫平台用户信息微博信息系统日志 …… 流计算实时分析处理平台 Kafka消息中间件 Storm流计算引擎其他数据源文件数据库…… Sqoop 离线导入大数据分析基础平台 Hadoop Hdfs Hadoop Yarn HBase 基础组件机器学习 Mahout Mlib 中间计算结果 Hbase KV 查询API 统一接口业务应用心理地图社会感知辛福感分析热点事件监控特定事件监控自杀意念用户分析…… 平台网关接口 Spark streaming MapReduce Spark Graph Graphx 分析工具 Python R 爬虫集群Hadoop处理集群Web应用目录 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 11 系统介绍?分布式爬虫系统 2016‐7‐14 中国科学院大学, University of Chinese Academy of Sciences 12 微博开放平台（Weibo Open Platform）是基于微博海量用户和强大的传播能力，接入第三方合作伙伴服务，向用户提供丰富应用和完善服务的开放平台。

具备Token申请的条件申请Token 具备微博API获取数据权限系统介绍?分布式爬虫系统 2016‐7‐14 中国科学院大学, University of Chinese Academy of Sciences 13 微博开放平台特性：下载频次限制、有效期解决方案：分布式爬虫系统构建分布式Token获取服务系统介绍?分布式爬虫系统 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 14 Server CrawlerClient CrawlerClient CrawlerClient Hbase 网关 … TokenClient TokenClient … 消息队列 Server ：维护TokenClient上报的有效Token；生成微博下载API的Url；处理Crawler的URL请求TokenClient ：与Server通信，当有效Token小于一定阈值后，从数据库获取用户信息，申请Token 并发送到Server。

CrawlerClient ：与Server通信，获取Url，根据更新机制下载微博数据，并将微博数据存储到 Hbase支撑离线处理、将数据发送到消息队列支撑实时处理任务系统介绍?Hadoop计算平台流计算实时分析处理平台 Kafka消息中间件 Storm流计算引擎Sqoop 离线导入大数据分析基础平台 Hadoop Hdfs Hadoop Yarn HBase 基础组件机器学习 Mahout Mlib 平台网关接口 Spark streaming MapReduce Spark Graph Graphx 分析工具 Python R 两大作用：?离线处理?分析五大功能：?数据传输?数据存储?数据处理?模型建立?模型应用系统介绍?Hadoop计算平台离线处理模式（MapReduce）： 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences16 系统介绍?Hadoop计算平台分析模式（Storm）： 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences17 系统介绍?Hadoop计算平台数据传输： Kafka Thrift 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences18 系统介绍?Hadoop计算平台数据存储： Hbase HDFS Cluster Zoo Keeper Cluster Region Server Region Server Region Server Master Server HStore HFiles HStore HFiles Region HDFS 2016‐7‐14 中国科学院大学, University of Chinese Academy of Sciences 19 系统介绍?Hadoop计算平台模型建立： Mlib：基于Spark Mahout：基于Mapreduce GraphX：基于Spark …… 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 20 系统介绍?Hadoop计算平台数据处理流程采集传输存储特征提取模型应用展示计算平台处理流程 2016‐7‐14 中国科学院大学, University of Chinese Academy of Sciences 21 系统介绍?Hadoop计算平台数据处理流程—传输分布式爬虫系统 Kafka 基于Hadoop 的批量数据处理系统基于Storm 的流数据处理系统 Thrift 2016‐7‐14中国科学院大学, University of Chinese Academy of Sciences 22 系统介绍?Hadoop计算平台数据处理流程—特征提取总词数WC 每句词数WPS 超过六字母字词Sixltr 抓取率(%)Dic 阿拉伯数字Numerals 英文单词EngWord 四字词（大于等于4个汉字的词语）FourChar 微博提及（@）AtMention 话题HashTag URL网址URL 微博表情Emos 功能词funct 代名词pronoun 特定人称代名词ppron 第一人称单数代名词i 第一人称复数代名词we 第二人称代名词you 第三人称单数代名词shehe 第三人称复数代名词they 非特定人称代名词ipron 动词verb 助动词auxverb 副词adverb 介系词preps 连接词conj 否定词negate 量词quant 数字number 脏话swear 語文歷程语言过程原有LIWC 類別针对微博。

点击阅读更多内容

相关文档

餐饮食品安全：食材采购与验收详细方案.docx 供餐企业评价与退出机制.docx 餐饮管理：后厨最重要的7个岗位.docx 餐饮服务的16个“怎么办”.docx 餐饮行业采购索证和进货查验制度.docx 餐饮行业的43个销售技巧.docx 连锁餐饮门店巡店计划.docx 某餐饮母亲节营销活动方案.docx 某前厅人员绩效考核方案.docx 夏季食堂食源性疾病管控要点.docx 餐厅八大运营指标效率指标全解析.docx 餐饮场所及设施设备清洗消毒和维护制度.docx 食堂设备检查细则.docx 餐饮服务过程中的48个问答题及答案话术.docx 餐厅员工的自我要求.docx 餐饮企业食品安全操作规定.docx 升学宴-毕业宴-谢师宴接待流程及服务培训.docx 某食品公司餐饮卫生与安全管理.docx 餐厅大堂经理职责.docx 餐饮厨房培训计划方案.docx

猜您喜欢

探究初中英语语篇教学提升学生阅读能力.docx 建筑施工噪音污染及控制.docx 2021国家公务员考试申论模拟试卷(三)参考答案.docx 2021五四青年节励志演讲稿5篇_“讲抗疫故事 ·做奋进青年”.docx 学校周围安全问题的解决对策.docx -混凝土运输合同模板-.docx 大数据对高校思想政治教育工作的作用.docx 强化中职生社会主义核心价值观教育的探究.docx 数据加密技术策略在网络安全中的运用.docx 2021 年度公司培训计划.docx 2021临床常用的干燥综合征分类诊断标准.docx 探析新时期高职院校学生干部培养策略.docx 平泉市农村集体产权制度改革存在的问题及对策.docx 急诊科抢救心脑血管疾病中的安全隐患与措施探究.docx 2021入团申请书1500字四篇.docx 实施探究性学习活动例谈.docx 2021后备干部培养计划大全.docx 开放式有效教学探索.docx 1医院人才引进管理暂行办法.docx -农民文化艺术节开幕式主持词.docx

进入店铺

收藏店铺

相似文档更多>

正为您匹配相似的精品文档