
acm sigkdd数据挖掘及知识发现会议.pdf
6页ACM SIGKDD 数据挖掘及知识发现会议1 清华大学计算机系 王建勇 1、 KDD 概况 ACM SIGKDD 国际会议(简称 KDD)是由 ACM 的数据挖掘及知识发现专委会[1]主办 的数据挖掘研究领域的顶级年会 它为来自学术界、 企业界和政府部门的研究人员和数据挖 掘从业者进行学术交流和展示研究成果提供了一个理想场所,并涵盖了特邀主题演讲 (keynote presentations) 、论文口头报告(oral paper presentations) 、论文展板展示(poster sessions) 、 研讨会 (workshops) 、 短期课程 (tutorials) 、 专题讨论会 (panels) 、 展览 (exhibits) 、 系统演示(demonstrations) 、KDD CUP 赛事以及多个奖项的颁发等众多内容由于 KDD 的 交叉学科性和广泛应用性,其影响力越来越大,吸引了来自统计、机器学习、数据库、万维 网、生物信息学、多媒体、自然语言处理、人机交互、社会网络计算、高性能计算及大数据 挖掘等众多领域的专家、学者KDD 可以追溯到从 1989 年开始组织的一系列关于知识发现 及数据挖掘(KDD)的研讨会。
自 1995 年以来,KDD 已经以大会的形式连续举办了 17 届, 论文的投稿量和参会人数呈现出逐年增加的趋势2011 年的 KDD 会议(即第 17 届 KDD 年会) 共收到提交的研究论文 (Research paper) 714 篇和应用论文 (Industrial and Government paper)73 篇,参会人数也达到 1070 人下面我们将就会议的内容、历年论文投稿及接收情 况以及设置的奖项情况进行综合介绍此外,由于第 18 届 KDD 年会将于 2012 年 8 月 12 日至 16 日在北京举办,我们还将简单介绍一下 KDD’12[4]的有关情况 2、 会议内容 自 1995 年召开第 1 届 KDD 年会以来,KDD 的会议内容日趋丰富且变的相对稳定其 核心内容是以论文报告和展版(poster)的形式进行数据挖掘同行之间的学术交流和成果展 示KDD 录用的论文以研究论文为主、辅以一定数量的应用论文,以及少量的系统演示论 文依附于 KDD 年会的 KDD CUP 竞赛也是会议的一项重要内容此外,会议还包括特邀 主旨报告 (keynote presentations) 、 报告 (tutorials) 、 专题讨论 (panels) 、 研讨会 (workshops) 以及工业实践及展览(Industrial practice expo track)等内容。
1. 研究主题(Research Track) 每年的 KDD 年会结束后不久,来年的会议组织者会发布论文征文通知征文通知中 会列出论文的各种投稿要求,包括会议感兴趣的主题、评价标准以及格式等从 KDD’12 官方网站的征文通知[5]可以了解到,KDD’12 感兴趣的研究类主题主要包括关联分析 (association analysis) 、分类与回归分析算法(classification and regression methods) 、半监 督式学习(semi-supervised learning) 、聚类(clustering) 、因式分解(factorization) 、迁移学 习和多任务学习(transfer and multi-task learning) 、特征选择(feature selection) 、社会网络 (social networks) 、图数据挖掘(mining of graph data) 、时空数据分析(temporal and spatial data analysis) 、可扩展性(scalability) 、隐私保护(privacy) 、安全性(security) 、可视化 (visualization) 、 文本分析 (text analysis) 、 万维网挖掘 (Web mining) 、 移动数据挖掘 (mining mobile data) 、推荐系统(recommender systems) 、生物信息学(bioinformatics) 、电子商务1注:本文的一个缩短版本(参见以下链接: 年的第 12 期。
(e-commerce) 、广告(online advertising) 、异常检测(anomaly detection) 、以及针对 大数据的知识发现(knowledge discovery from big data)等论文的评价标准主要包括新颖 性(novelty) 、技术质量(technical quality) 、影响力(potential impact) 、论文表达的清晰度 (clarity of writing)等指标 会议期间,KDD 研究论文报告按照主题会被分成了若干个分会(session) ,被录用论 文的作者在相应的分会做报告以 KDD 2011[6]为例,该年会的分会主题包括分类 (Classification) 、矩阵分解(Matrix factorization) 、图分析(Graph analysis) 、Web 用户建 模(Web user modeling) 、用户建模(User modeling) 、数据和数据流(Online data and streams) 、文本挖掘(Text mining) 、隐私保护(Privacy) 、社会网络(Social networks) 、理 论 (Theory) 、 频繁集 (Frequent sets) 、 非监督式学习 (Unsupervised learning) 、 图挖掘 (Graph mining) 、可扩展性(Scalability)和可预测建模(Predictive modeling) 。
2. 应用主题(Industrial and Government Track) 应用主题类论文的发表和作者的与会报告是 KDD 年会的重要组成部分, 也是 KDD 相 对于很多其他会议的特色之一由于数据挖掘的广泛应用性,应用主题类论文受到数据挖 掘研究人员和开发者的重视相对于很多其他会议,KDD 应用主题类论文的征文启事和录 取更为规范从 KDD’12 官方网站的征文通知[5]可以看出,该年会的企业及政府应用主题 征求描述针对企业和政府部门数据挖掘解决方案的论文投稿,并特别欢迎某些在数据挖掘 技术应用过程中能够促进某些实际问题的理解或提出新的挑战性研究问题的论文 KDD 应 用主题类论文涉及的应用领域主要包括电子商务、医疗、国防、公共政策、财务、工程、 环境、制造业、电信、政务等被 KDD 录用的应用主题类论文又被分为以下 3 大类: 对企业、政府或其他机构带来实际价值的数据挖掘系统 对企业、政府或其他用户(例如科学研究或医疗行业)带来显著价值的知识发现 有潜力带来价值的前沿应用和技术 3. KDD CUP 竞赛 KDD CUP 是 ACM SIGKDD[1]组织的有关数据挖掘和知识发现领域的年度赛事。
作为 KDD 年会的重要组成部分,自 1997 年以来已经连续举办了 15 届,目前是数据挖掘领域最 有影响力的赛事 通常每年在 KDD 会议网站上会公布当年的 KDD CUP 主题及各个子任 务、数据集、考核指标等全世界的数据挖掘参赛者在规定时间内提交解决方案和结果 优胜者名单会在 KDD CUP 网站公布,并在会议期间颁奖纵观历年的 KDD CUP 赛事, 我们不难发现其主题的多样性往届的 KDD CUP 任务涉及到面向利润(升力曲线)优化 的直接营销、计算机网络入侵检测、零售网站点击流分析、分子生物活性和现场蛋白 质预测、生物医学文档和基因角色分类、网络挖掘与用户日志分析、粒子物理学和同调蛋 白质预测、互联网用户搜索查询分类、基于图像数据的肺栓塞检测、客户推荐、乳腺癌、 客户关系预测、学生成绩评估、以及基于雅虎音乐数据集的音乐推荐等众多领域在往届 的 KDD CUP 竞赛中,某些华人组成的参赛队伍也曾取得了不俗的成绩例如,KDDCUP 史上首次包揽了全部子项目冠军的团队就来自香港科大,其队员包括 Dou Shen(沈抖) 、 Rong Pan、Jiantao Sun、Junfeng Pan、Kangheng Wu、Jie Yin、Qiang Yang(杨强) 。
4. 系统演示(Exhibit and Demo Track) KDD 会议设有一个系统演示分会场,用于让数据挖掘研究人员或从业者以交互的方式 向与会者展示他们所开发的数据挖掘软件系统 (或组件) 的设计理念、 实现技巧以及功能等 5. 工业实践展(Industry Practice Expo Track) 工业实践展是 KDD 从 2011 年开始新增加的一部分会议内容,主要由特邀报告和专题 讨论组成 其主要目的是召集一流的业界或政府部门的数据挖掘实践者和与会者共享他们的 一些有关数据挖掘应用的体会和经验 6. 专题研讨会(Workshops) 同其它会议类似,KDD 也设有专题研讨会,其目的是就某些热门或前沿主题让数据挖 掘研究人员有机会来交流新颖的研究想法KDD’11[6]共设了 16 个主题研讨会 7. 专题讨论会(panels) KDD 专题讨论会是就数据挖掘领域的某个重要的话题邀请几个相关的知名专家阐述自 己的观点,并通过与参会者的互动来对该话题开展深入的研讨KDD’11[6]的专题讨论主题 为“来自数据挖掘竞赛的经验教训”(Lessons Learned from Contests in Data Mining) 。
8. 短期课程(tutorials) 每年的KDD年会都会就几个数据挖掘主题邀请这些领域的知名专家细致地讲解与该主 题相关的问题、研究背景、主要的解决方案等内容通常每个课程的时间是半天或一天 9. 特邀主题报告(keynote presentations) 每年的 KDD 年会都会邀请在某些数据挖掘领域做出卓越成绩的专家学者做主题报告 以 KDD’11[6]为例,会议共邀请了 4 位特邀主题发言人,他们分别是:美国斯坦福大学电子 工程系教授 Stephen Boyd、Google 公司研究主管 Peter Norvig、美国加州大学圣克鲁兹分校 分子生物工程系教授 David Haussler 以及加州大学洛杉矶分校计算机系教授 Judea Pearl 表 1、2003-2011 年期间 KDD 研究论文投稿及录取情况(注:自 2007 年以来论文不再区分 长、短文,表中 2007 年以后的长、短文对应的分别是长报告和短报告) 年份 投稿 长文 长文录取率 短文 短文录取率 总录取率 2003 258 34 13.2% 36 13.9% 27.1% 2004 337 40 11.9% 44 13.0% 24.9% 2005 465 40 8.6% 36 7.7% 16.3% 2006 457 50 11.0% 55 12.0% 23.0% 2007 513 92 17.9% N/A N/A 17.9% 2008 510 50 9.8% 45 8.8% 18.6% 2009 537 50 9.3% 55 10.2% 19.5% 2010 578 77 13.3% 24 4.1% 17.4% 2011 714 56 7.8% 70 9.8% 17.6% 综合 4369 489 11.2% 365 8.3% 19.5% 3、 历年论文投稿及接收情况 我们对 2003 年以来 KDD的研究类论文和应。
