多源异构大数据机器学习关键技术研究进展.pdf
42页多源异构大数据的机器学习关 键技术研究进展多源异构大数据的机器学习关 键技术研究进展徐增林徐增林 zenglin@zenglin@ 电子科技大学 大数据研究中心 计算机科学与工程学院电子科技大学 大数据研究中心 计算机科学与工程学院统计机器智能与学习实验室统计机器智能与学习实验室统计机器智能与学习实验室 (Statistical Machine Intelligence & LEarning, SMILE) •网址:研究目标: •复杂多源异构数据处理技术复杂多源异构数据处理技术:分类、聚类、半监督学习、多核学习、 特征选择、多任务学习、多视角学习、集成学习、网络分析、张量分 析 •统计机器学习理论研究统计机器学习理论研究: 近似算法、随机投影算法、稀疏学习等的理论 •贝叶斯图模型研究贝叶斯图模型研究:高斯过程、主题模型、隐变量模型 •机器学习的优化与推断研究机器学习的优化与推断研究:最优化算法、Variational Inference、先进 采样算法、混合算法 •机器学习大数据平台研究机器学习大数据平台研究:学习、分布式学习 •机器学习在社会网络、神经信息学、健康、安全等领域的应用大数据挖掘与推理研究所大数据挖掘与推理研究所 (Institute of Big Data Mining and Reasoning)@电子科大大数据研究中心大数据挖掘与推理研究所 (Institute of Big Data Mining and Reasoning)@电子科大大数据研究中心研究目标: •异构多源大数据处理与建模异构多源大数据处理与建模 •实时数据处理、多源数据处理、时间空间数据分析、复杂网络数据分析、金 融大数据建模、媒体大数据建模、医学大数据建模、移动大数据建模 •大数据智能计算与分析技术大数据智能计算与分析技术 •分布式大数据查询技术、先进机器学习与数据挖掘理论研究、并行化机器学 习和数据挖掘算法研究、随机化算法与学习、社会网络分析、Web挖掘 与检索、商业智能、排名与推荐算法、深度学习算法、大数据降维技术 •大数据分布式计算模型与系统大数据分布式计算模型与系统 •大数据分析平台Hadoop/Spark性能优化与功能增强、大数据机器学习平台研 究、面向行业应用(如医疗、教育、安全、移动数据)的大数据分析与学习 平台设计等 •大数据知识表示与推理技术研究大数据知识表示与推理技术研究 •大型本体知识库构建方法和本体映射等知识深层理解的关键处理算 法、知识的深层表示、大型知识库上逻辑推理机制和机器学习大数据挖掘与推理研究所电子科大大数据研究中心 大数据挖掘与推理研究所 (Institute of Big Data Mining and Reasoning)电子科大大数据研究中心 大数据挖掘与推理研究所 (Institute of Big Data Mining and Reasoning)主要人员: • 周涛 (大数据中心主任、优青、拔尖、教授) • 申洪涛 (大媒体计算中心主任,入选者) • 徐增林(青年入选者,教授) • 符红光 (863子课题负责人) • 邵俊明(校百人、教授) • 邵杰(校百人、教授) • 杨阳 (校百人、教授) • 尚明生 (教授)加入我们研究助理/博士生/硕士生研究助理/博士生/硕士生特聘教授/特聘副教授/骨干教师/在职和脱产博士后特聘教授/特聘副教授/骨干教师/在职和脱产博士后中组部“青年”入选者徐增林教授团队,因科研和教学工作需要,面向 海内外诚聘优秀青年学者加盟。
团队的研究着重于机器学习、统计学习、数据挖 掘技术及其在社会网络分析、医学图像处理、空间安全数据分析、神经信息学等 方面的应用 详情: 1. 运维大数据平台设计与实现 2. 医疗大数据分析平台设计与实现 3. 基于异构计算的大数据平台设计与实现报告提纲报告提纲大数据的发展大数据的发展大数据分析面临的挑战大数据分析面临的挑战大数据机器学习算法与平台大数据机器学习算法与平台大数据发展历史大数据在计算机科学中处于最前沿大数据 改变未 来战争大数据 摧毁暴 力恐怖大数据 维护公 共安全•美国大数据研究和发展计划、欧盟Horizon 2020计划都把大数据提到了国家安全战略层 面 •数字主权是继海、陆、空、天四空间之后另 一个大国博弈的空间 •基于海量数据分析决策的“近传感器计算” 将成为未来战争的典型形态•阿富汗反恐战争中针对每股恐怖分子的全方 位情报侦监系统每天产生数据量平均达到53T •美国国家安全局局长亚历山大在众议院特设 情报委员会听证会时指出,通过“棱镜”等 监视项目所获得的情报数据及相应分析,美 国政府至少防止和挫败了50起恐怖袭击事件•通过大数据采集分析,监测异常行为,发现 和制止不法行为 •通过大数据分析,提高犯罪行为实施前的预 防能力和实施后的出警效率 •通过大数据分析,提高刑侦队伍的破案率大数据维护安全•个人基因测序数据可以对已患疾病进行针对性治 疗,对可能疾患进行提前预防 •非干预穿戴设备通过实时采集脉搏、血压、体表 导电率、压力等等指标对预警突发疾病、实时监 控个体健康情况,为残疾人、老年人、婴幼儿和 特定疾病患者提供实时的个性化服务 •通过对诊疗过程数据的分析,可以为初级医院疑 难病例的治疗提供智能决策辅助、发现患者骗保 行为、监测医院、诊室甚至个别医生不正常的过 度医疗和用药行为•加拿大Student Success Systems 基于学生个体 数据分析给出发展状况评估、学业成长预测和个 性化引导方案 •美国DreamboxLearning 和MyLab根据不同学生在 线学习的情况,设计个性化自适应的学习方案 •大数据最终帮助形成在定量化基础上的教学引导 和教学管理大数据 辅助健 康管理大数据 实现个 性教育大数据改善民生报告提纲报告提纲大数据的发展大数据分析面临的挑战大数据分析面临的挑战大数据机器学习平台大数据机器学习平台数据量大且复杂,而分类数据太少,如 何充分利用对未分类数据的质量分析来 提高分类算法性能?多源异构数据语义丰富,如何构建 融合多源数据的泛化模型? 或发 现多源数据间的关联关系?复杂数据对象存在多个方面,如何通过 数据分析来刻画多个方面之间的相互关 系?12312挑战挑战一: 未分类数据多样性大量未分类数据已分类数据大量未分类数据已分类数据未分类数据具有无序性,分布多样性分布多样性等特点-- 相同分布 或弱 相关、结构相似、有杂质、高位等。
不相关有偏差大象犀牛• 提高数据分类的准确率 • 节省专家对数据标记的成本研究意义研究意义研究意义研究意义• 未分类数据的复杂性和多样性 • 数据的高维度难点所在难点所在难点所在难点所在• 利用图的性质(Graph Laplacian)对图进行分割:Graph Cut = 1Graph Cut = 2Graph Cut = 1半监督学习示例:基于图的算法• S3VM的原理是在照顾已分类数据的情况下,保证相对于未 分类数据的决策面边界最大,且决策面应尽量穿过低密度 区域半监督学习示例:半监督支持向量机未分类数据分布多样性建模相同分布 Semi-supervised Learning Xu Z., et al (2007), Efficient convex relaxation for transductive support vector machine. NIPS 分布有差异 Covariance-shifting 存在弱相关关系 Adaptive Regularization Xu Z., et al (2009), Adaptive regularization for transductive support vector machine. NIPS. 结构上存在相似关系 Self-taught Learning Huang K., Xu Z., et al.(2009), Supervised self-taught learning: Actively transferring knowledge from unlabeled data, IJCNN . 好的数据与不相关数据的混合 Generalized semi-supervised learning Huang K., Xu Z., et al (2008), Semi-supervised learning from general unlabeled data. ICDM. Lable不足,无unlabeled dataActive Semi-supervised LearningXu Z., et al (2008). Semi-supervised text categorization by active search. CIKM. 维度太高 Semi-supervise d feature selection Xu Z., et al (2010), Discriminative semi-supervised feature selection via manifold regularization. IEEE TNNLS.挑战二: 多源异构数据建模难点所在难点所在研究意义研究意义难点所在难点所在研究意义研究意义• 多数据源的组合方式的多样性 • 数据源的异构性和不确定性• 结合多个数据源的互补信息 来提高数据分类的准确率 • 发现数据源之间的关联关系数据源对分类的 贡献是不同的, 如何学习各自的 权重来辅助诊断?数据源对分类的 贡献是不同的, 如何学习各自的 权重来辅助诊断?17病人的信息来自于多个数据源数据源之间存在依 赖关系,是否基因 信息的异常可以解 释大脑区域的异常?医疗诊断病人的信息来自于多个数据源数据源之间存在依 赖关系,是否基因 信息的异常可以解 释大脑区域的异常?医疗诊断多核学习算法 --多核学习算法 -- 学习数据源(子空间)之间的权重多视角学习样例:多核学习Sun et al (2010), ACTA AUTOMATICA SINICA方案:提出了一种基于Level Set的 快速多核学习算法,其利用历史梯度 , 并将当前解投影到Level Set 当 中来进行正则化。
方案:提出了一种基于Level Set的 快速多核学习算法,其利用历史梯度 , 并将当前解投影到Level Set 当 中来进行正则化问题:优化过程中,传统方法或者没有对过去的梯度进行正则化,或 者没有使用历史梯度多核学习算法优化多核学习算法优化Ours优化速度快7-10倍优化速度快7-10倍代表性工作:多核学习优化算法Z. Xu, R. Jin., et al (2009), NIPS Xu Z., et al (2010), ICML Yang H., Xu Z., et al (2011), IEEE TNNLS 稀疏泛化多核学习 使用Group Lasso和多核学习之 间的等价关系Genetic variations (discrete)提出一个异构多视角学习算法该算法基于隐变量模型, 对数据源之间的共性和差异性进行建模Intermediate phenotypes (continuous)Zhe S., Xu Z., et al (2014), PSB应用:Alzheimer疾病的关联分析Zhe S., Xu Z., et al (2015), AAAI图模型诊断信息基因信息磁共振图像应用:Alzheimer疾病公共隐变量稀疏投影矩阵稀疏投影矩阵• 大脑区域与基因的相关关系ADNI 。





