危害公共安全事件的关联关系挖掘及预测OmniEye,上海交通大学团队:陈夏明(队长),强思维,王海洋,孙莹,石开元指导老师:上海交通大学网络信息中心金耀辉教授jinyh@赛题概况数据介绍方案设计结果输出2赛题概况数据介绍方案设计结果输出l赛题背景l竞赛任务3赛题背景2014年7月17日至24日,北京于7天内发生6起危害公共安全事件媒体大规模报道、网民舆论——负面信息传播泛滥的温床了解危害公共安全事件在互联网上的触发、传播机理,找到相关事件间的影响关系和共性,是意义重大的研究课题4竞赛任务基本任务1.数据清洗,剔除杂质2.自定义标签,事件提取核心任务(可选)3.同系列事件间相互触发关系研究4.不同系列事件间共性分析5.事件预测5原始数据集HDFS事件集CKAN特征集CKAN预测模型建立新闻/微博数据数据预处理Processing新闻分类Spark事件聚类Spark特征提取关联分析可视分析异常点剔除特征降维模型训练模型预测预处理(任务1)事件提取(任务2)关联分析(任务3、4)事件预测(任务5)6赛题概况数据介绍方案设计结果输出l数据集l数据预处理7数据集及预处理8GDP民族节日城市坐标新闻/微博数据(54万条)媒体/用户数据(24万条)数据清洗:去重和纠错数据扩充(DataEnrichment)l新闻分类l事件聚类l关联分析l事件预测赛题概况数据介绍方案设计结果输出9新闻分类公交车爆炸事件暴恐事件校园砍杀事件10媒体名称媒体名称发布布时间新新闻标题新华网2013-12-14河南光山县发生校园伤害案 22名学生被砍伤新浪微博2013-12-15目前,22名被砍伤的学生中,有7名学生因伤势严重转院治疗。
此外,还有1名群众及1名小学生因伤势严重,仍在光山县人民医院的重症监护室进行治疗愿平安!新闻分类挑战一:不同媒介(体)的报道方式不同公交车爆炸事件暴恐事件校园砍杀事件11新闻分类挑战一:不同媒介(体)的报道方式不同挑战二:新闻媒体报道角度不同媒体名称媒体名称发布布时间新新闻标题网易新闻2013-07-28新疆莎车县发生暴恐案件,造成37人死亡,13人受伤人民网2013-07-28新疆莎车:暴恐分子袭击军警击毙暴徒59人四川2013-07-28新疆莎车暴恐袭击案件告破公交车爆炸事件暴恐事件校园砍杀事件12媒体名称媒体名称发布布时间新新闻标题第一金融网2013-04-26新疆巴楚15名警察社区工作人员遭暴徒袭杀人民网2013-04-26习近平批示新疆巴楚县暴力事件 对案件善后作指示人民网2013-04-27习近平:要使暴力恐怖分子成为"过街老鼠 人人喊打"新闻分类挑战一:不同媒介(体)的报道方式不同挑战二:新闻媒体报道角度不同挑战三:新闻事件和衍生事件的关联公交车爆炸事件暴恐事件校园砍杀事件13语境过滤的新闻分类算法NewsClassificationwithContextFiltering已分类新闻语境过滤(相似度S>d)事件分类器扩充语料库置信度>=CI置信度pmax(c)>p14语境过滤事件描述的语境特征以无监督的方式自主学习(基于Googleword2vec)从传统词频统计到词语语境关联*word2vec:事件聚类算法独立事件聚类及Spark并行处理多角度新闻要素提取采用并行和事件树结构进行优化新闻当事人新闻发生地特征向量新闻关键词相似度计算新闻标注类别提取的独立事件0.30.20.70.7P0.510.90.80.80.6校园事件CC0.6未知新闻事件1事件2新闻要素提取16事件聚类结果可视化17特征提取•季节•民族节日•工作日、休息日时间•省、市地理划分•城市GDP•人口、民族组成空间•新闻报道•微博舆论•正负情感媒体18关联分析•同系列事件触发关系时间触发关系——事件频次自相关分析空间触发关系——最大信息量相关系数(MIC)新闻媒体传播95%置信水平暴力恐怖事件每隔5天复发概率最高校园砍杀事件发生次数在临近区域相似度较高* MIC: Reshef et al. "Detecting Novel Associations in Large Data Sets". Science 334 (6062)19关联分析不同系列事件共性分析时间特征媒体特征空间特征元旦,除夕,建党节等是三类事件的多发时段三类事件在周末发生频次低于工作日妇女节20校园砍杀事件公交车爆炸事件暴恐事件大事件报道会触发同类型小事件的发生集中性的空间分布21事件预测预测目标未来时间段内事件是否发生(0/1)未来时间段内事件发生的次数时间空间•季节•民族节日•工作日、休息时间特征空间特征媒体特征•省、市地理划分•城市GDP•人口、民族组成•新闻报道•微博舆论•正负情感时间相关性空间相关性ᵆᵅ22事件预测预测模型建立多维度特征分类建模时间特征具有最好的预测效果Decision Tree,Random Forest,Kernel SVM,Gradient Tree BoostingRandom Forest Regression, Regression Tree时间特征子预测器空间特征子预测器媒体特征子预测器二级综合预测器预测发生概率预测发生频次模型选择23赛题概况数据介绍方案设计结果输出l算法评估l可视化l开放数据与众包l未来24算法评估事件类型误报率漏报率公交车爆炸事件14.28%12.09%暴恐事件12.39%14.05%校园砍杀事件14.10%11.54%事件聚类算法评估评估方法准确率预测频次误差测试集验证64.50%0.8956留一验证82.34%0.5250K-Fold82.34%0.5234滑动窗口75.27%0.5525新闻分类算法评估事件预测算法评估准确度~95%媒体名称发布时间新闻标题事件类型搜狐新闻2013-12-16河南砍学生男子患20年癫痫病暴恐事件新华网2013-01-23面包车自燃公交司机徒手拔断着火线路帮助灭火公交车爆炸天津2014-03-19乌鲁木齐发生持械袭警案嫌犯被民警当场击毙暴恐事件校园砍杀无暴恐事件25众包标注26开放数据27未来CTDCHINA TERRORISM DATABASE•基于开放数据平台•自动爬取网络新闻报道、微博媒介传播•语境过滤&事件聚类&众包标注中国地区数据稀缺!马里兰大学(UMD)http://www.start.umd.edu/gtd/ 28致谢海量HYLANDA大数据情报服务平台的数据支持;暨南大学应急管理学院陈玉梅老师的指导建议;南风窗杂志社戴玉老师提供的新闻背景;上海交通大学网络信息中心金耀辉老师的悉心指导;OMNILab团队的所有成员。
陈夏明博士生王海洋博士生孙莹硕士生石开元硕士生强思维博士生29请批评指正!谢谢!30。