大规模主题模型建模与其在腾讯业务中应用
46页1、Peacock: 大规模主题模型 及其在腾讯业务中的应用 Rickjin(靳志辉)? 腾讯SNG效果广告平台部 Outline Peacock Demo? 主题模型背景介绍? 大规模主题模型学习系统 Peacock? Peacock 在腾讯业务中的应用 红酒木瓜汤? 苹果? 莫代尔 ?3 ?4 Peacock Demo ?5 ?6 ?7 ?8 Peacock Team Peacock: Learning Long-Tail Topic Features for Industrial Applications ACM Transactions on Intelligent Systems and Technology, 2014 ?9 Yi Wang Zhihui Jin Xuemin ZhaoZhenlong Sun Lifeng Wang Liubin Wang Hao Yan Doc-Topic Structure Doc 是由 topic 组成的? Topic 是 Vocab 上的概率分布 Hofmann, 1999 PLSA Topic Modeling P(word|topi
2、c)P(topic|doc) Docs Topics Words LDA Topic Modeling P(word|topic)P(topic|doc) Docs Topics Words LDA Model Training w z w z w z w z w z w z z z Doc_1 ? ? ? ? Doc_n Step1: 随机初始化每个词的 topic Nt,dNw,t LDA Model Training w z w z w z w z w z w z z z Doc_1 ? ? ? ? Doc_n Step2: 重新采样每个 topic, 更新计数 Nt,dNw,t P(word|topic)P(topic|doc) LDA Model Training w z w z w z w z w z w z z z Doc_1 ? ? ? ? Doc_n Step3: 重新采样每个 topic, 更新计数 P(word|topic)P(topic|doc) Nt,dNw,t -1 -1 +1 +1 w LDA Model Training w z w z w z w z
3、w z w z z z Doc_1 ? ? ? ? Doc_n Step4: 重复 step2&3, 直到模型收敛 Nt,dNw,t P(topic|doc)P(word|topic) Large-scale LDA Modeling Q1: 如何提升 Gibbs Sampling 速度? 标准采样算法太慢? ? Q2: 如何支持大数据、大模型? 十亿文档,百万词汇,百万 topic ? Q3: 如何调参优化模型质量? alpha,beta 如何选取? topic 个数如何考虑 Nt,dNw,t -1 -1 +1 +1 w z z w z z Peacock: Large-scale Topic Modeling Q1: 如何提升 Gibbs Sampling 速度? 使用 SparseLDA 算法做 Gibbs Sampling 比标准 LDA 快30倍? Q2: 如何支持大数据、大模型? 基于 Go 语言实现? 矩阵分块并行计算? 可以支持10亿 x 1亿的矩阵分解? 可以支持100万 topics 计算? 类似 Google Rephil 系统,挖掘长尾语义? Q3: 如何调参优
4、化模型质量? 每轮迭代对超参数做优化,智能训练 topics 个数 ?18 Q1: 采样速度 标准 LDA 采样? 计算所有路径的累积概率? 计算速度慢? 概率路径是 sparse 的 P(word|topic)P(topic|doc) Docs Topics Words SparseLDA 按照路径类型计算概率分布? 先按路径类型概率分布采样? 在类型内部采样路径 Path-NumProbability 100.8 200.1 700.09 99000.01 Limin Yao, David Mimno, and Andrew ? McCallum. Efficient Methods for Topic ? Model Inference on Streaming ? Document Collections. KDD 2009. Docs Topics Words Q2: 十亿篇文档,百万词汇,百万 Topics W, T w z w z w z w z w z w z z z Doc_1 ? ? ? ? Doc_n AD-LDA (Data Parallelism) L Nw,
《大规模主题模型建模与其在腾讯业务中应用》由会员suns****4568分享,可在线阅读,更多相关《大规模主题模型建模与其在腾讯业务中应用》请在金锄头文库上搜索。
土地管理与地籍测量---第八章界址点测量
人机工程学案例分析(2)
工程安全培训_201303
第9章房地产投资决策分析
第2章房地产经纪制度
ACM程序设计-东北林业大学acm05
《亲爱的汉修先生》读书交流会
中原_深圳新世界尖岗山项目市场汇报_40P_2012年_别墅_项目分析_量价走势
五年级数学质量分析演示文稿
人工智能小镇-智慧小镇建设20180525
景观基本知识及发展历程
建设工程信息管理(2)
机电驱动技术第二章步进驱动技术
工程力学-第9章圆轴扭转时的应力变形分析与强度刚度设计
第一章第二节幼儿园文化环境建设的原则
第一章检测技术的基础知识
第一章__现代表面工程技术
第六章钢结构工程
第9节项目试运行管理
班主任工作经验交流课件(4)
2023-08-11 2页
2023-08-11 3页
2023-08-11 2页
2023-08-11 3页
2023-08-11 4页
2023-08-11 3页
2023-08-11 4页
2023-08-11 2页
2023-08-11 4页
2023-08-11 3页