
新媒体数据分析及应用完整版ppt整本书教学教程最全电子教案(.pptx
331页新媒体数据分析及应用1.新媒体数据分析概述2.新媒体数据采集3.新媒体数据预处理4.新媒体数据分析之文本分析5.新媒体数据分析之社交网络分析6.新媒体数据可视化7.新媒体数据分析与应用实例目录/Contents目录/Contents1.新媒体数据分析概述1.1 认识新媒体数据分析1.1.1 新媒体数据的含义1.1.2 新媒体数据分析的含义1.2 新媒体数据分析的特征1.3 新媒体数据分析的应用领域1.4 新媒体数据分析的基本流程1.4.1 数据采集1.4.2 数据预处理1.4.3 数据建模与分析1.4.4 数据可视化1.5 新媒体数据分析的常用工具1.5.1SPSS1.5.2Gephi1.5.3软件使用说明1.6 案例分析中国房产网络舆情分析新媒体数据分析概述第一章本章学习目标了解新媒体数据分析的含义、特征和应用领域了解和掌握新媒体数据分析的基本流程了解新媒体数据分析的常用工具案例“今日头条”是近年来比较具有代表性的新闻资讯类App,它的口号是“你关心的才是头条”今日头条”的后台对用户的社交行为、阅读行为、地理位置、职业、年龄等数据进行搜集,建立用户信息数据库对每条信息提取几十个到几百个高维特征,并进行降维、聚类等计算去除重复信息;对信息进行机器分类、摘要抽取,LDA(LatentDirichletAllocation)主题分析、信息质量识别等处理,分析出用户的兴趣与需求,据此推送符合用户喜好的资讯。
创始人张一鸣曾经指出今日头条不是一家新媒体公司,而是一家“数据分析”技术公司1.1 认识新媒体数据分析新媒体中传递的所有信息、用户与新媒体之间所有的交互都可以被称为新媒体数据按照数据存储形式分类,新媒体数据包括结构化数据、半结构化数据和非结构化数据结构化数据:结构化数据是以固定格式存在的数据,是指由二维表结构来进行逻辑表达的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理常见的新媒体结构化数据有:u公众号运营数据:常见的属性包括阅读量、点赞量、评论量等uApp监测指标数据常见的属性包括用户量、新用户量、UGC量(社交产品)、销量、付费量等u网络问卷调查数据 1.1 认识新媒体数据分析半结构化数据 :半结构化数据具有一定的结构模式,但呈现出一种结构与数据相互混合的状态数据的结构没有被清晰地描述,或者经常处于动态变化状态,或者过于复杂而不能由传统的模式定义来表现半结构数据主要来源有:u(1)无严格模式限制的存储数据u(2)结构和内容不固定的数据u(3)异构信息源集成的数据非结构化数据: 非结构化数据指没有固定结构的数据,它的数据表现形式绝大部分是文本、图形、图像、音频、视频等类型。
其本质上是结构化和半结构化数据之外的一切数据非结构化数据的主要类别有:u(1)普通纯文本u(2)图片u(3)流媒体1.1 认识新媒体数据分析随着计算技术的发展,人类计算能力不断提高,统计机器学习、自然语言处理等数据挖掘技术更广泛地应用到社会科学、传播学研究过程当中网络科学的一位重要研究者邓肯瓦茨(DuncanJ.Watts)指出“如果处理得当,基于互联网传播产生的数据和互动性将会变革我们对于人类集体行为的认识”作为获取新媒体数据信息价值的技术手段,研究人类社会和传播行为的新方法,新媒体数据分析可被定义为:通过自然语言处理、模式识别、统计学、数据可视化等分析技术,从新媒体数据中挖掘出人类社会和传播行为中隐含的、先前未知的并有潜在价值的信息的过程1.2 新媒体数据分析的特征新媒体数据将现实中人们的关系进行了数字化,具有独特的数据收集与测量尺度新媒体数据分析注重研究网络关系以及关系模式,而不是个体属性复杂网络理论是当前新媒体数据分析的关键方法论注重数据间的网络关系属性新媒体数据具有显著的多源异质性和跨媒介属性如何构建融合多源数据的泛化模型、如何发现多源数据间的关联关系等多源异质数据分析问题是新媒体数据分析技术的研究热点,也是媒体融合的核心问题。
体现媒体融合的特性新媒体数据大部分属于半结构化或非结构化数据我们需要结合一系列相关学科工具去解析、提取和分析数据对新媒体文本数据的挖掘已经是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索、机器学习、自然语言处理等具有学科多元性1.3 新媒体数据分析的应用领域u数据新闻领域:数据新闻作为一种建立在对数据进行收集、处理、分析以及可视化呈现基础之上的新闻报道形式应运而生,它是数据技术对新闻业全面渗透的必然结果,它的出现在一定程度上改变了传统新闻生产流程例如卫报通过追踪分析260万份“推特”(Twitter)内容,利用可视化动态图表描述了从流言开始传播到辟谣结束的整个过程利用数据分析技术,数据新闻具备新闻叙事、事实判断、预测走向、信息定制四个功能1.3 新媒体数据分析的应用领域u个性化信息服务领域:新媒体的迅速崛起使人们获取新闻信息的渠道不断被拓宽,使用户置身信息的海洋之中,这也造成了新媒体时代的“信息过载”和“信息迷向”,要想及时、准确地获得相关信息却变得越来越困难这就迫切需要一种可以满足用户特定信息需求的个性化环境,将用户感兴趣的信息主动推荐给用户的服务方式,即个性化信息服务。
u网络舆情管理领域:新媒体时代的舆情分析与监测已经成为政府了解社情民意、把握舆情动向、对突发事件做出快速响应和处理的不可或缺的手段网络舆情从传播方式和内容上均标记着新媒体大数据特征,因此运用新媒体数据分析技术成为舆情分析与治理的关键通过关联分析、聚类分析、分类分析等数据分析技术能够对网络舆情进行快速准确的监测、研判和引导1.4 新媒体数据分析的基本流程新媒体数据分析的基本流程包括新媒体数据采集、新媒体数据预处理、新媒体数据建模与分析、新媒体数据分析结果1.4 新媒体数据分析的基本流程新媒体数据分析的基本流程包括新媒体数据采集、新媒体数据预处理、新媒体数据建模与分析、新媒体数据分析结果是在对待解决问题需求理解的基础上,对数据进行收集及对收集的数据进行规范化,合法化的一系列操作;新媒体数据采集和新媒体数据预处理是新媒体数据分析中的核心阶段,包括了对分析的对象的确定、分析所需模型的选取以及分析结果的评价指标的选择等;新媒体数据建模与分析是对于结果的直观展示,也就是数据结果的可视化新媒体数据分析结果的呈现在实际应用中,新媒体数据分析的过程往往是一个循环完善的过程,需要根据实际的数据情况及时调整策略。
1.4.1 数据采集(1)新媒体数据采集工具大数据时代意味着大量的数据收集、处理工作,单纯地依靠人力来完成这些工作是不可取的目前针对新媒体数据的采集工具主要可以分为三类:公开数据库、网络爬虫、第三方交互式网络信息采集器公开数据库:公开数据库是指一些由政府或者企业提供的公开信息资源库优点:采集容易并且数据的准确度及数据质量有很高的保障;缺点:数据范围小,自主定制程度低,往往不能精确地找到我们所需的信息网络爬虫:网络爬虫是指通过编程的手段完成对目标网页的信息解析,从而完成数据的收集工作优点:高自由度,用户可以通过网络爬虫对数据的格式、内容等各个方面进行定制和约束;缺点:用户需要具备一定的编程和数据库相关的知识基础,对于操作者的要求较高1.4.1 数据采集总的来说,目前爬虫是新媒体数据收集工具中最为全能也是对使用者要求最高的一种工具;对于简单少量的数据可以选择第三方交互式网络信息采集器;对于各个行业已有指标的可以借助公开数据库进行获取在新媒体数据收集过程中读者应该根据实际情况灵活地切换各个工具第三方交互式网络信息采集器:第三方交互式网络信息采集器是由软件公司根据爬虫原理进行改造的数据采集软件。
优点:易操作,对于新用户较为友好;缺点:交互式的操作和可视化的图标使其失去了处理复杂数据的能力,在数据的自由定制方面弱于爬虫;执行效率普遍偏低,在大量数据的收集方面不能完全取代爬虫1.4.1 数据采集(2)新媒体数据采集质量分析与评估早期的IBM程序员和讲师乔治富希瑟(GeorgeFuechsel)创造了GIGO(garbagein,garbageout)这个概念,用来提醒计算机及其相关行业的工作者:输出结果的质量取决于数据输入的质量对数据质量的评估和分析,需要根据具体的质量需求构建评估模型在实际评估过程中,不同的数据集会对应不同的评估需求,因此不同数据集根据不同的需求对应不同的评估模型数据质量维度为数据质量的业务需求提供了框架,数据质量的业务需求具有多方面的属性,常见的质量维度包括完整性、重复性、准确性、时效性、易用性与可维护性等1.4.2 数据预处理数据预处理(DataPreprocessing)是指在进行数据分析工作之前对原始数据进行理解、清洗、集成、转换、归约的一系列的数据处理工作,从而使待分析数据在数据质量和规范上符合数据分析的标准数据清洗是数据预处理工作中的基础内容之一,主要是指通过对原始数据进行理解从而发现“脏数据”存在的形式和产生的原因,然后对“脏数据”进行转化处理或者剔除从而满足数据分析后续阶段对于数据的要求。
1) 数据清洗针对数据异常问题,数据清洗方法主要包括缺失数据的处理方法、相似(重复)数据的处理方法、异常数据处理方法、逻辑错误数据处理方法等1.4.2 数据预处理数据转换是指为了方便后续的数据建模与分析,需要将数据的属性、分布特征、离散特征等进行转换2)数据转换数据转换的主要内容包括属性类型转换、构造新属性、数据离散化和数据标准化数据的属性转换主要是为了使数据值易于后续的数据分析构造新属性是为满足数据分析需求而基于已有属性人工设置新属性数据离散化是指将不严格要求连续取值的变量进行离散化分区,使其取值变为若干个范围,便于后续数据分析数据标准化是为了消除不同属性数值取值范围不同所带来的数值差异的问题,通过数据标准化将数据的取值范围进行统一1.4.2 数据预处理大量的数据在操作和分析上都会带来不小的困难,数据归约就是在尽量保证数据完整的基础上对数据进行“缩小”,从而提高数据的可操作性3)数据归约数据归约方法主要包括数值归约、属性归约和属性子集选择,三种方法均是建立在保留数据完整性的基础之上数值归约是使用较小的数据来代替原有的数据集属性归约是减少所需考虑的随机变量或者属性个数的一种数据处理手段。
属性子集选择与属性归约类似,它是通过属性集合中不同属性的取舍,从而达到减少所需考虑的随机变量或者属性个数的目的1.4.3 数据建模与分析1. 新媒体中文本数据分析新媒体作为一种新兴的由用户创造内容主导的社交媒体平台,为广大的数据分析工作者提供了丰富的研究原料文本数据分析又可以称为“文本挖掘”,是一种通过抽取散布于文本中的有效、有用、可理解的知识的手段本书将从以下四个方面展开对于新媒体文本的挖掘之旅:关键词提取、文本聚类、自动摘要、文本情感分析1.4.3 数据建模与分析(1)关键词提取:关键词提取是一种通过分析词在文本中的重要性或者其他指标将我们感兴趣的“关键词”进行抽取的文本分析的方法u提到关键词抽取不得不提的另一个重要概念是文本分词分词是通过事先设定一定的规律将“连续”的文本划分为“离散”的词语,目前常用的分词手段主要分为以下几类:基于词典的分词方法(字符匹配、机械分词)、基于统计的分词方法(基于词语出现的频率或者概率)、基于语义的分词方法(机器学习)u在分词的基础上通过一定的重要性指标筛选出一定的词语就是关键词抽取,目前最常用的重要性指标有TF-IDF(termfrequencyinversedocumentfrequency)。
u其中,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率;逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量,该词语在其他文档中出现的情况1.4.3 数据建模与分析(2)文本聚类:文本聚类是通过文本之间相似度的度量,从而对文本进行类别划分。
