
烟台中科网络技术研究所拟推广技术和应用.docx
5页烟台中科网络技术研究所简介烟台中科网络技术研究所(简称“网络所” )由中国科学院计算技术研究所与烟台高新技术产业开发区共同组建的从事网络应用技术研究的事业单位,于 2011 年 10 月正式挂牌成立网络所定位为把国家战略需求的拉动和地方市场驱动组合在一起,与中科院计算所协同开展网络数据平台建设,技术转移和产业辐射等工作网络所主要研究方向是海量网络信息处理和信息服务,是中科院计算所继曙光、龙芯后第三发展方向“天玑”的研发和产业化基地网络所在烟台高新区的大力支持下,三年来取得了快速发展目前有正式员工 80 人,42%为研究生学历,组建了研发、测试、运维、信息服务的完整研发团队,拥有多名国内网络数据方向的一流科研人员建成 400 平米独立的电信级网络数据专用中心机房,500台高性能服务器集群,总计算能力 60 万亿次浮点运算/ 秒,总存储 1.2PB,400Mbps 互联网接入带宽1.拟推广技术1.1.互联网信息采集技术1.1.1. 定向采集技术1) 能够从互联网中高速准确的采集公开数据,提取相关元信息2) 能够快速高效获取网页,支持 Javascript 等多种复杂页面形式,支持网页编码自动识别和转换,支持基于 cookie 状态检测的采集,具有反“ 防刷新”的采集机制;3) 可定向采集并抽取新闻、论坛、博客、微博客、评论等各类复杂的信息内容;1.1.2. 元搜索采集技术元搜索可以认为是对多个独立搜索引擎的整合、控制和优化利用,对独立搜索引擎的整合、控制和优化利用称之为“元搜索技术” ,元搜索技术即是元搜索引擎的核心。
元搜索主题采集,在各大搜索引擎基础上只采集用户感兴趣的内容,信息全面,更新及时目前支持的(站内)搜素引擎有,百度、搜狗、360、新浪、新浪微博、天涯、百度贴吧、股票贴吧、财经贴吧、新浪博客、网易博客1.2.分布式全文检索技术1) 自主研发的分布式高扩展性、高性能全文检索系统 I3Search2) 支持文本、数字、日期、字符串等数据类型的高效索引3) 支持丰富的查询语言,同时支持 32 位与 64 位硬件平台下的 Windows、Linux 等主流操作系统4) 索引速度高达 9M/S,支持索引,实现毫秒级别查询1.3.中文信息处理技术1.3.1. 中文分词技术1) 支持简体中文和繁体中文的词语切分,支持最常用的 UTF8 编码格式文本2) 采用 C/C++编写,速度快,性能稳定3) 面向领域定制,可以准确地切分领域的专业术语词汇4) 支持未登录词识别,词典中不可能收录所有的词语,大量的人名、地名、外来语译名、新词语等等,可以支持对未登录词的切分5) 分词效果,采用 SIGHAN2005 中文分词国际评测语料 PKU,MSR 进行分词效果评价,效果达到目前分词技术的领先水平语料 准确率 召回率 F 值PKU 0.952 0.953 0.952MSR 0.957 0.962 0.9591.3.2. 倾向性分析技术1) 支持中文和英文混合文本,支持最常用的 UTF8 编码格式文本2) 采用 C++编写,速度快,性能稳定。
3) 面向领域定制,引入领域的专用情感词典4) 高度可配置化,方便定制不同分析策略5) 分类效果,以金融行业为例,达到目前国内外金融倾向性分析先进水平,在不同通道实际业务金融语料上评估表明平均准确率和召回率超过 85%1.3.3. 命名实体识别技术1) 面向领域文本进行定制,自动识别出其中出现的人名、地名、机构名、时间短语和名称的命名实体2) 采用 C/C++编写,速度快,性能稳定3) 提供两种编程接口a) 模块接口,可以在应用程序中以接口的形式直接被调用b) 服务接口,将实体识别模块封装成服务端计算,客户端访问的服务方式,用户通过 C++, Java 等各种语言的客户端进行远程调用4) 在金融领域新闻文本上的评测数据上进行测试,效果如下表:实体类别 人名 地名 机构名 股票名称 时间短语评测指标(F 值) 92.9% 90.2% 75.8% 90.3% 91.5%1.4.大数据管理平台产品经过多年在大数据应用和管理领域的实践,面向应用领域发布了大数据管理平台产品BDE1.0,包括软硬件一体机形态在多个行业中得到应用并取得了显著效果1) 集成如下组件:列式数据库 ICTBase,海量数据仓库 DSQL,图数据库 GDB,分布式文件系统 ICTStor,以及硬件加速卡等组件。
2) 支持 SQL 访问,并支持 JDBC3) 支持实时短查询和准实时长查询两种数据查询方式4) 并行数据加载/移植,支持 ETL 标准接口5) 单机 PB 级规模,可多机堆叠6) 软硬一体,高密度(44T/U)、低功耗(40%)7) 支持多租户&性能隔离8) 提供 Web GUI 监控运维及操作界面组件名称 功能说明存储组件 包括 GDB、ICTStor、ICTBase、 D-SQL 分布式数据库、EMDB分布式数据总线 包括分布式内存集群、多通道订阅分发引擎、执行处理引擎、关联加载引擎ETL 工具 包括数据及离线导入导出分析引擎 包括搜索、通联分析、机器学习、文本处理等业务适配层 包括 UDF,行业工具及分析模板等2.拟推广示范应用2.1.天玑舆情/口碑监测服务1) 专门针对互联网等公开信息源头的信息服务分析、挖掘平台该系统主要从互联网上定向采集特定信息,经过加工、处理、分析后,向政府相关部门提供专业的、定向的信息服务2) 系统主要从互联网上定向、实时采集特定相关的新闻、论坛和博客的内容,其采集的规模可以达到百万板块级别,采集的时间粒度可达分钟级别,每天获取的信息量在上几十万条,更新的数据量大约在几百万条;3) 采集后的信息经过正文抽取、关键词提取后,进行数据分析,可自动分析出互联网上的热点事件、热点人物信息;4) 用户可以通过系统长期跟踪自己关心的事件、人物、组织,实时获取这类信息,并对此类信息的发布源头、时空的传播以及事件影响做出分析;5) 用户可设置自己的信息预警,对于自己关注的事件、人物、组织等出现的突发事件进行预警和报警,便于提升用户的舆情掌控能力和危机公关能力2.2.天玑学术服务学术圈(SocialScholar)是一个面向学术领域的垂直社交平台,集成了搜索、社交、分析与推荐等学术服务模式,旨在为科研学者提供大规模学术资源深度挖掘与搜索、以及社会化学术交流的平台。
学术搜索功能社会化搜索:搜索与社交分享的无缝融合,轻松获取多种类型的学术资源,查看同行对论文的评价,并发表自己的看法,基于学术概念的推荐与探索式搜索协同讨论:上下文感知的论文讨论,简洁的浏览与操作方式,对问题快捷灵活的定位与排序,实时通知最新的问答学术应用特色应用:圈内热点每天带给你社交网络中最热资讯,领域调研为每个涉足新领域的你提供 360 度的调研信息事件:时间线帮你发现即将到来的学术事件,你可以在新鲜发布中分享身边的学术活动,事件发现为你推荐可能感兴趣的以及热门事件论文:经典论文提供每个领域重要论文排行榜,猜你喜欢为你提供个性化的论文推荐,你可以通过论文众包获取继续的论文资源,你可以通过论文热评浏览大家对论文的评价与看法学者:知名学者提供每个领域重要学者排行榜,合作网络提供对每个学者合作者关系的快捷查询,你可以通过学术人脉发现学者间的关联路径会议期刊:知名会议提供每个领域知名会议排行榜,重要期刊提供每个领域重要期刊排行榜,你可以通过会议热评浏览大家对会议的评价与看法,你可以通过期刊热评浏览大家对期刊的评价与看法学术社交构建属于你的学术社交网络,分享你的学术生活、观点以及知识,轻松掌握自己的学术状态,获得个性化的学术服务。
大众排名大众排名是一个众包排名引擎,通过大众偏好产生知识、分享知识,你可以创建属于自己的科普大众排名,你可以通过投票来表达自己鲜明的观点2.3.爱猫棒棒是基于大数据和多屏互动战略开发的智能显示外延设备支持全网视频、文件存储、多屏分享等功能连接互联网后,可以看电影、上网、玩游戏、听音乐等还可以将、pad 中的多媒体内容传输到各种显示终端上,实现多个屏幕间自由切换和分享聚合海量互联网视频资源,聚合所有最新最热高清电影、电视剧、美剧、综艺、动漫,流媒体云播放覆盖全网的智能搜索,全互联网智能搜索,在千万部片源中找到所需的视频2.4.示范应用服务方式2.4.1. 账号服务使用云服务的方式,登陆部署在互联网上应用系统开展业务应用实时监控网络信息,根据需求进行个性化追踪和专题报导,表达出最直接可视化的信息,并提供精准的信息全文搜索,并且能够自动发现网络舆情2.4.2. 数据服务通过调用远程程序接口,读取部署在互联网上的服务器数据以主题加关键词的形式,在互联网上采集相关数据,并将初步删选过的数据推送给用户的一种服务形式并且用户获取数据后,可以按照自己的需要对数据进行进一步处理分析2.4.3. 资讯服务提出具体业务需求,由我们的人员提供最终的监测报告。
由专业的舆情分析师运用科学的网络舆情监测理论体系、作业流程和应用技术,对互联网媒体、新闻、论坛、博客、微博等网络舆情主要载体进行 24 小时监测,对舆情事件起因、传播载体、传播路径规律以及应对策略得失等多角度进行分析而出具的舆情监测报告服务。












