电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

大规模主题模型建模与其在腾讯业务中应用

46页
  • 卖家[上传人]:suns****4568
  • 文档编号:60838232
  • 上传时间:2018-11-19
  • 文档格式:PDF
  • 文档大小:3.14MB
  • / 46 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、Peacock: 大规模主题模型 及其在腾讯业务中的应用 Rickjin(靳志辉)? 腾讯SNG效果广告平台部 Outline Peacock Demo? 主题模型背景介绍? 大规模主题模型学习系统 Peacock? Peacock 在腾讯业务中的应用 红酒木瓜汤? 苹果? 莫代尔 ?3 ?4 Peacock Demo ?5 ?6 ?7 ?8 Peacock Team Peacock: Learning Long-Tail Topic Features for Industrial Applications ACM Transactions on Intelligent Systems and Technology, 2014 ?9 Yi Wang Zhihui Jin Xuemin ZhaoZhenlong Sun Lifeng Wang Liubin Wang Hao Yan Doc-Topic Structure Doc 是由 topic 组成的? Topic 是 Vocab 上的概率分布 Hofmann, 1999 PLSA Topic Modeling P(word|topi

      2、c)P(topic|doc) Docs Topics Words LDA Topic Modeling P(word|topic)P(topic|doc) Docs Topics Words LDA Model Training w z w z w z w z w z w z z z Doc_1 ? ? ? ? Doc_n Step1: 随机初始化每个词的 topic Nt,dNw,t LDA Model Training w z w z w z w z w z w z z z Doc_1 ? ? ? ? Doc_n Step2: 重新采样每个 topic, 更新计数 Nt,dNw,t P(word|topic)P(topic|doc) LDA Model Training w z w z w z w z w z w z z z Doc_1 ? ? ? ? Doc_n Step3: 重新采样每个 topic, 更新计数 P(word|topic)P(topic|doc) Nt,dNw,t -1 -1 +1 +1 w LDA Model Training w z w z w z w z

      3、w z w z z z Doc_1 ? ? ? ? Doc_n Step4: 重复 step2&3, 直到模型收敛 Nt,dNw,t P(topic|doc)P(word|topic) Large-scale LDA Modeling Q1: 如何提升 Gibbs Sampling 速度? 标准采样算法太慢? ? Q2: 如何支持大数据、大模型? 十亿文档,百万词汇,百万 topic ? Q3: 如何调参优化模型质量? alpha,beta 如何选取? topic 个数如何考虑 Nt,dNw,t -1 -1 +1 +1 w z z w z z Peacock: Large-scale Topic Modeling Q1: 如何提升 Gibbs Sampling 速度? 使用 SparseLDA 算法做 Gibbs Sampling 比标准 LDA 快30倍? Q2: 如何支持大数据、大模型? 基于 Go 语言实现? 矩阵分块并行计算? 可以支持10亿 x 1亿的矩阵分解? 可以支持100万 topics 计算? 类似 Google Rephil 系统,挖掘长尾语义? Q3: 如何调参优

      4、化模型质量? 每轮迭代对超参数做优化,智能训练 topics 个数 ?18 Q1: 采样速度 标准 LDA 采样? 计算所有路径的累积概率? 计算速度慢? 概率路径是 sparse 的 P(word|topic)P(topic|doc) Docs Topics Words SparseLDA 按照路径类型计算概率分布? 先按路径类型概率分布采样? 在类型内部采样路径 Path-NumProbability 100.8 200.1 700.09 99000.01 Limin Yao, David Mimno, and Andrew ? McCallum. Efficient Methods for Topic ? Model Inference on Streaming ? Document Collections. KDD 2009. Docs Topics Words Q2: 十亿篇文档,百万词汇,百万 Topics W, T w z w z w z w z w z w z z z Doc_1 ? ? ? ? Doc_n AD-LDA (Data Parallelism) L Nw,

      5、t L Nw,t L Nw,t G Nw,t a a a b b b (W, T) (1)N (1) t,d (W, T) (2) N (2) t,d (W, T) (3) N (3) t,d Model Parallelism 1.11.21.3 2.12.22.3 3.13.23.3 a b L N (1) t,d L N (1) t,d L N (1) t,d G N (1) t,d L N (2) t,d L N (2) t,d L N (2) t,d G N (2) t,d L N (3) t,d L N (3) t,d L N (3) t,d G N (3) t,d .1.2.3 N (1) w, t N (2) w, tw, N (3) t Lock-free Synchronization .1.2.3 N (1) w, t N (2) w, tw, N (3) t 1.13.22.3 2.11.23.3 3.12.21.3 N (1) t,d N (2) t,d N (3) t,d 1.1 2.2 3.3 3.1 1.2 2.3 2.1 3.2 1.3 Lock-fr

      6、ee Synchronization .1.2.3 N (1) w, t N (2) w, tw, N (3) t 1.13.22.3 2.11.23.3 3.12.21.3 N (1) t,d N (2) t,d N (3) t,d .1.2.3 N (1) w, t N (2) w, tw, N (3) t 1.13.22.3 2.11.23.3 3.12.21.3 N (1) t,d N (2) t,d N (3) t,d Model Parallelism + Data Parallelism 1.1 2.1 3.1 3.2 1.2 2.2 2.3 3.3 1.3 N (1) t,d N (2) t,d N (3) t,d (1) w,t L N (2) w,t L N (3) w,t L N 1.1 2.1 3.1 3.2 1.2 2.2 2.3 3.3 1.3 N (1) t,d N (2) t,d N (3) t,d (1) w,t G N (2) w,t G N (3) w,t G N (1) w,t L N (2) w,t L N (3) w,t L N 超参数 al

      7、pha 对模型质量有重要的影响? 每轮迭代中,通过 MLE 估计优化 alpha Hanna M. Wallach, David Mimno, and Andrew McCallum. Rethinking LDA: Why Priors Matter. NIPS 2009. Q3: 优化模型质量 Peacock 性能 为什么我们需要大模型 搜索相关性MAP 广告点击率模型 AUC Peacock 学习长尾的 Topic LDA Topic Modeling ?31 Peacock 在腾讯业务中的应用 文本语义分析? 广告相关性计算与 CTR 预估? QQ 群分类与广告定向? QQ 群推荐 广点通用户数据挖掘与广告精准定向 TDW intents & interests 站内用户行为关系链数据站外用户行为 基础属性 关系链 行为 用户行为数据分析 文本语义分析 RecSys: user-item 矩阵分解 Peacock 应用:文本语义分析 解决方案? 字面抽取:命名实体识别、关键词? 信息量小,有歧义,容易陷入 Vocabulary Gap ? 语义分析:文本聚类(Topic),文本

      8、分类? 从海量文本数据中归纳“知识”,帮助理解语义? ? 难点? 如何挖掘细粒度、长尾语义? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 红酒木瓜汤 0.397 丰胸(0.1642) 产品(0.0776) 减肥(0.0645) 木瓜(0.0464) ? 0.182 饭后(0.1251) 饭前(0.0757) 服用(0.026) 减肥(0.022) ? 0.162 功效(0.0435) 山药(0.039) 作用(0.0379) 做法(0.0264) ? 0.095 糖尿病(0.0811) 血糖(0.0336) 高血压(0.0285)? 0.050 蜂蜜(0.0801) 牛奶(0.0427) 面膜(0.0303) 好处(0.025) ? 0.044 做法(0.0598) 萝卜(0.0569) 排骨(0.0213) 牛肉(0.017) 苹果 0.170 苹果(0.23) 手机(0.124) iphone(0.025) 电脑(0.017)? 0.086 范冰冰(0.114) 苹果(0.085) 电影(0.059) 佟大为(0.0315)? 0.058 iphone(0.166) 手机(0.07) 3gs(0.039) 苹果(0.033)? 0.025 苹果(0.078) 重量(0.027) 水果(0.015) 质量(0.013)? 0.014 手机(0.183) 步步高(0.083) 电池(0.043)? 0.009 windows(0.089) xp(0.088) 系统(0.05) 苹果电影 0.588 范冰冰(0.114) 苹果(0.085) 电影(0.059) 佟大为(0.0315)? 0.095 电影(0.096) 在线(0.087) 观看(0.07) 视频(0.039)? 0.043 苹果(0.23) 手机(0.124) iphone(0.025) 电脑(0.017)? 0.043 ipod(0.156) touch(0.11) pro(0.03)

      《大规模主题模型建模与其在腾讯业务中应用》由会员suns****4568分享,可在线阅读,更多相关《大规模主题模型建模与其在腾讯业务中应用》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.