数据新闻学-第三部分第八和九章.pptx
248页数据新闻学数据新闻学沈阳沈阳教授教授清华大学,新闻与传播学院清华大学,新闻与传播学院 微博:微博:新媒沈阳新媒沈阳 私号:私号:runasunrunasun微博公号:新媒体指数微博公号:新媒体指数网站:网站:本幻灯片有少量页面来自网络,仅供教学研究参考请勿用于商业用途专题篇Part32015/4/2722011年8月6日在英国首都伦敦开始的一系列社会骚乱事件骚导火索是2011年8月4日在伦敦北部的托特纳姆,一名29岁的黑人男性平民马克达根(MarkDuggan)被伦敦警察厅的警务人员枪杀,民众上街抗议警察暴行2015/4/273数据地图式新闻报道http:/ 地图标示骚乱发生地点,热力图方式标示出伦敦各地区的经济指标 蓝色表示富裕地区 红色表示贫穷地区 地图显示出骚乱与社会经济发展不平衡密切相关性,从地理位置上凸显出一个分裂社会 数据来自公开法庭审理骚乱案件资料以及政府关于社会经济状况的统计资料 2011年英国伦敦骚乱,英国卫报英国暴乱 卫报数据博客对英国暴动专题报道一条数据新闻 用互动的方式,展现了英国暴乱事件的发展过程,以及在某一个时间点发生暴乱事件的情况和性质英国暴乱:从互动时间轴来看)互动时间轴新闻报道2015/4/275思考这个案例,我们已经见到过几次,这一次再看,大家的关注点会放到哪里?可视化以外,什么东西是你们想要继续了解的?2015/4/2762015/4/277 伦敦骚乱爆发后,英国舆论与政界一度将骚乱归罪于社交媒体如Facebook、Twitter传播谣言、煽动骚乱,甚至要求关闭社交媒体。
卫报数据新闻团队通过与学术团队一起研究社交媒体在骚乱中作用,分析260万条关于骚乱推特信息,观察谣言如何在推特上传播,以及不同用户在宣传和散布信息中功能,以确定推特和其他社交媒体是否煽动了骚乱 对推特信息进行了内容分析,分类编码为:重复、驳斥、质疑、评论,还对数据进行可视化处理,从而发现推特在纠正谣言方面也发挥了积极作用之后,卫报与伦敦政治经济学院的学者合作推出了一本用数据解读骚乱事件的小册子解读骚乱,使得新闻报道具备了带有前瞻性的社会科学研究的性质数据带给新闻线索探索数据化挖掘收集Chapter82015/4/278回顾2015/4/279在可视化几章中,我们有涉及到数据收集,并且部分涉及到数据挖掘,但在很少涉及到数据分析这一块紧接在数据可视化这几章这一次我们将在数据挖掘与分析这块,进行更深入的深挖与阐述目录101数据挖掘收集和新闻线索2数据挖掘十大经典算法3数据化挖掘收集新闻线索4数据挖掘与分析分类2015/4/27一、数据挖掘收集和新闻线索2015/4/27111、传统的新闻线索来源2、数据中发现新闻线索3.数据的来源与类型1、传统的新闻线索来源1)来自发布新闻的部门或是编辑部提供给记着的新闻线索2)来自基层广大通讯员提供的新闻线索3)来自机智的发现、寻找和挖掘 捕捉相关新闻媒体的报道 浏览互联网的最新报道 广交各方朋友 重视新闻热线 制作特殊日历4)参加各类会议2015/4/27122015/4/2713案例举例1社会类1)民生问题 【加利福尼亚观察网】,医护费用 【法国自由基金会】,众包水价 【央视】,360搜索大数据看民生 【金融时报】,养老院危机2)社会经济(股票金融经济指标) 【日本内阁】采用大数据作为经济判断指标 【阿里研究中心】,数据地图2015/4/27143)社会问题和冲突 谋杀秘闻 【英国卫报】英国暴乱4)社会群体 【彭博】,世界亿万富翁俱乐部 【卫报】,GayrightsintheUS,statebystate5)人口统计学 【NPR】,VisualizingHowaPopulationGrowsto7Billion 【国家发改委规划司】,榨菜指数农民工2015/4/27152.战争类 【美联社】伊拉克战争 【卫报】维基解密伊拉克 【CNN】主客场:伊拉克和阿富汗战争中的伤亡 【网易数读】火箭弹阴影下的以色列:日均遭3枚火箭弹袭击2015/4/27163.政治活动(选举大型会议)1)大型会议类 【中央电视台】两会解码传统媒体平台上的数据新闻2)政治活动经费 【赫尔辛基新闻报】芬兰议会选举与竞选经费3)竞选实时报道类 【骇客布宜诺斯艾利斯分会】实时竞选黑客4)竞选结果发布类 【纽约时报】选举结果大看板(数据新闻手册)5)竞选结果预测类 【nerd】用大数据分析美国50个州所有选举情况2015/4/27174.突发新闻【WNYC】RunwaysinRange【大西洋月报】从互动地图来看MH370【纽约时报】MH370搜索【华尔街日报】&【腾讯】MH370乘客清单【JeffreyHeer,AlanNewberger】涉嫌参与“911”袭击的恐怖组织成员之间的关联图2015/4/27185.热点话题 【财新网】老虎家族 【凤凰网】大老虎的朋友圈 【搜狐新闻】冰桶挑战6.舆情分析 【武大沈阳】从事件看微博传播特点 【CCTV&亿赞普】两会前舆情预热2015/4/27197.数据新闻讲故事:新闻性纪录片类【加拿大电影局】叙述bear71【纽约时报】911事件回顾【纽约时报】下雪2015/4/27208.大型运动会及国际赛事1)世界杯类数据新闻 【彭博】世界杯预测项目 【CCTV5&微博台网联动】2014世界杯 【NateSilver】FiveThirtyEight预测2)其他国际大型赛事PPT:P157 【纽约时报】争分夺秒 男子100米自由泳链接2015/4/27219.气象预报1)天气预报类 【Forecast】2)灾难预警类 【纽约时报】纽约市飓风疏散区地图3)灾难后续报道类 【SAS】可视化分析展示灾民安置情况(*SAS系统全称为StatisticsAnalysisSystem)4)气象数据的拓展运用 【RMS】灾难性事件风险模型 【WeatherCo】根据天气数据预测消费行为 【日本】借助“大数据”防灾2015/4/272210.信息、知识传播类1)疾病、医疗类 【卫报】JohnSnow伦敦霍乱地图CartoDB版 【MITTECH】数据预测埃博拉病毒的传播 全球痢疾传播图 【propublica】药物过量2)其他 【纽约时报&纽约大学】ConnectingMusicandGesture2015/4/27232、数据中发现新闻线索扩宽来源:丰富多元的海量信息本身成为具有挖掘价值的新闻富矿,大大拓宽了新闻线索及选题来源。
发展新途径:大规模数据赋予记者们搜寻新闻线索和发现选题新途径扩展新闻的时间语态,对新闻价值的判断不再局限于现时发生的事件赋予新价值:通过发掘海量数据之间的相关关系,赋予一般性事件以新的价值附注:之前所有的案例都将在案例篇详细论述2015/4/2724题外话数据采集是一篇数据新闻的关键和核心,如果无法发现优质有用的数据,那么这篇新闻就失去了灵魂,甚至丧失了准确性乃至真实性,这与数据新闻的宗旨是相悼的,所以,获得权威数据对数据新闻记者来说至关重要2015/4/27253.数据来源1)官方数据门户2)企业创建的数据平台3)利用社交媒体平台采集的数据4)时空和气象数据5)搜索引擎2015/4/2726附注:可视化的几章中有涉及到这部分,这里再做些补充1)官方数据门户开放数据逐渐成为全球共识2015/4/2727美国:2009年数据门户网站DataGov上线,涵盖农业、金融等多个领域的数据英国:2010年创建数据开放网站dataUk,可以找到政府公开数据世界银行:2010年开放其数据库开放政府合作伙伴:2011年多国成立开放政府合作伙伴,签署开放数据声明中国:国家统计局平台、卫生计生统计、北京市政务数据资源网等2)企业创建的数据平台很多企业尤其是互联网企业建立了自己的数据发布平台2015/4/2728国外国内Googlepublicdata数据堂DataMarket阿里研究院GuardianDataStore百度指数3)利用社交媒体平台采集的数据人们越来越倾向于在社交平台上表达自己的见解,发表自己的意见,而这些由文字、图片、视频组成的大数据背后可能隐藏着重大新闻有许多的社交媒体数据挖掘收集处理与分析工具2015/4/27294)时空和气象数据全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。
物联网时代,在这一时代下,通过如传感器、全球定位系统、射频识别技术、激光扫描器、气体感应器等各种装置与技术,实时采集任何需要的信息,产生了诸如海洋环境数据、地球空间环境数据、工厂环境数据等诸多环境数据,与互联网结合形成的一个巨大网络2015/4/2730案例央视新闻联播推出“据”说春节,首次采用百度地图定位大数据、百度指数来解读春运、年货、年夜饭等新闻2015/4/2731以百度提供的迁徙动态图为例,百度通过LBS开放平台分析用户的定位信息,能够映射出用户的迁徙轨迹,数亿用户的迁徙轨迹就构成了一张实时变化的动态图今年春运成都往返北京的线路连续多日跻身全国十大热门线路经分析发现,出现这种情况是因为越来越多的人从“过年回家看父母”变成“把父母接到大城市过年”,这样逆向迁徙成为春运新特征如果没有大数据提供的洞察,逆向迁徙这一新闻点很难被发掘出来2015/4/27325)搜索引擎搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统全球三大搜索引擎:gogle、百度、Yahoo中国主要搜索引擎:百度、360搜索、搜狗2015/4/2733使用搜索引擎的技巧限定搜索内容搜索电子表格:filetype:XLSfiletype:CSV搜索地理数据:filetype:shp数据库提取:filetype:MDB,filetype:SQL,filetype:DB搜索pdf格式:文件类型:pdf限定域名仅在摸个域名下搜索:site:agency.gov#sthash.Ghoux2IF.dpuf搜索可提供批量数据的位置容易获得源文件的列表:site:agency.govDirectoryListing2015/4/2734使用搜索引擎的技巧更多搜索语法:Intitle:将搜索范围限制在网页的标题中Intext:只在网页的正文中检索关键词Inanchor:在页面的链接锚点进行搜索Link:检索所有连接到某个特定RRL的页面列表Daterange:查找一定的日期或者一定日期范围内Related:检索与某特定网页类似的网页2015/4/2735二.数据挖掘十大经典算法2015/4/27361、C4.56、pagerank2、K-means7、Adaboost3、SVM8、KNN4、Apriori9、NaiveBayes5、EM10、Cart数据挖掘数据挖掘,是从大量数据中抽取有意义的(非平凡的,隐含的,以前未知的并且是有潜在价值的)信息或模式的过程。
2015/4/2737数据挖掘领域的顶级专家进行投票筛选,推选出在实际中用途最广、影响最大的十种数据挖掘算法2015/4/27381、C4.5C4.5是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件2015/4/27392)K-meansk-meansalgorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割(kclose_to(X,”park”)0.5%,80% 此规则表明80%靠近体育中心的学校同时也靠近公园,并且有0.5%的数据符合这一规则2015/4/27110 构成空间关联规则的谓词: 距离信息:close_to(临近)、far_away(远离) 拓扑关系:inter。





