电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

lda工作原理

24页
  • 卖家[上传人]:xzh****18
  • 文档编号:56617947
  • 上传时间:2018-10-14
  • 文档格式:PPT
  • 文档大小:983KB
  • / 24 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、LDA工作原理,1.与LDA有关的分布2.LDA的产生过程3.LDA的工作原理4.期望最大化与参数估计,1.与LDA有关的分布,贝努利分布Bern(x|u)=ux(1-u)1-x贝塔分布概率密度函数满足以下条件的 为贝塔分布。,1.与LDA有关的分布,多项式分布狄利克雷分布以上四种分布的详细推导过程在doc文档中。,2.LDA的产生过程,Unigram模型 每篇文档都是独立的多项式分布 存储空间很大,D(文档数)N(词项数)隐形语义检索 增加主题变量,维度降低 文档选择一个主题,与现实不符,2.LDA的产生过程,概率隐形语义检索 增加概率,使一篇文档产生多个主题 训练参数扩展性差,随文档数线性增长 对包含词项不在训练集中的新文档准确率很低,2.LDA的产生过程,LDA的产生 引入Dirichlet分布,主题概率分布随机产生,主题词项分布随机产生,解决了以上问题 Simplex图:4个主题3个词项,3.LDA工作原理,参数的意义为主题概率的概率分布,Dirichlet参数 d为文档d下的主题概率分布 Zd,n为第n个词项文档d产生的主题 Wd,n为主题产生的词项,实际变量 为主题词项概率

      2、分布,为使 满足Dirichlet分布的参数,3.LDA工作原理,参数的意义 为K维向量, p(|)表示选择某个文档概率分布的概率为KV矩阵,i,j=p(wj=1|zi=1),3.LDA工作原理,LDA的连续性 给定和,词项分布w依赖(3.1),概率随机化给定和下,Z,W的联合概率(3.2)给定和,W的概率分布(3.3)联合(3.1)和(3.3),3.LDA工作原理,LDA的连续性 联合(3.1)和(3.3),可得单篇文档的概率分布假设语料库中每篇文档相互独立可交换,3.LDA工作原理,充分统计 LDA是基于贝叶斯充分统计的工作原理 LDA中多项式分布和Dirichlet分布属于指数家族 指数家族的贝叶斯统分统计g()是确保分布密度函数积分为1的因数(3.5)式两边同时对求导,令p(x|)=0,3.LDA工作原理,充分统计 结合(3.6)式,整理得考虑训练多个x样本,X=x1,x2xn(3.10)式两边对求导,p(X|)=0,极大似然ML仅依赖于充分统计的数(x) ,N趋于无穷大比较(3.12)和(3.9),并结合(3.11),可得ML=(真实的参数变量),3.LDA工作原理,工作流程

      3、 对主题采样:kDir() k1,K 对语料库中的第d个文档 d1,D 采样主题概率分布dDir() 采样文档长度Nd 对文档d中的第n个单词 n1,Nd 选择隐含主题zd,nMult(d) 生成一个词项wd,nMult(zd,n) 步骤 训练,进行参数估计 测试,计算隐藏变量后验概率分布,4.期望最大化与参数估计,期望最大化 EM描述如下 已知一个概率模型,包括: 隐变量集Z; 观测集X; 参数集S. 目标:得到p(X|S)最大化的S. EM算法如下(初始化S) E步骤:以当前的Sold估计p(Z|X,S); M步骤:利用前一步的结果,对S最大化如下式子:p(Z|X,Sold)lnp(Z,X|S),4.期望最大化与参数估计,期望最大化 EM描述如下 已知一个概率模型,包括: 隐变量集Z; 观测集X; 参数集S. 目标:得到p(X|S)最大化的S. EM算法如下(初始化S) E步骤:以当前的Sold估计p(Z|X,S); M步骤:利用前一步的结果,对S最大化如下式子:p(Z|X,Sold)lnp(Z,X|S),4.期望最大化与参数估计,变分推理 根据(3.4)式可知由于和存在耦合, (

      4、3.13)的计算困难 解决办法是近似求解,采用变分推理 去掉与Z、Z与W之间的边,以及W节点,4.期望最大化与参数估计,变分推理 p(,z|w,)可近似为q(,z|,),为狄利克雷参数,为多项式参数,变分推理求解信息增益最小时, 结合EM算法,需要估计q(,z|,),最大化q(,z|,)*logp(,z,w|,),得到使p(w|,)最大化的,,具体如下,4.期望最大化与参数估计,变分推理 Jensen不等式确定边界,进行近似求解L(,;,)表示边界值,D(q(,z|,)|p(,z,w|,)表示两者的信息增益:log(w|,)=L+D 边界越大,信息增益越小,越真实,4.期望最大化与参数估计,变分推理 对,和,进行展开,是的一阶导数 E(log(i|)=(i)-(jj),4.期望最大化与参数估计,变分推理 多项式分布的计算 满足约束ni=1,引入拉格朗日常数,(3.16)对相关上式iv表示p(wnv=1|zi=1), 对求导令导数为0,多项式参数ni的极大值,4.期望最大化与参数估计,变分推理 Dirichlet分布参数的计算 无约束, (3.16)对相关上式对求导令导数为0, i的极大值(3.17)和(3.18)得L最大化时和,使p(w|,)最大化 和确定q(,z|,),作为p(,z|w,)近似值,4.期望最大化与参数估计,参数估计 EM的使用 E步骤: 变分推理确定和,近似p(,z|w,) M步骤:根据 和极大化E中p(W|,)边界 多项式参数的计算 满足约束jij=1,引入,(3.16)式对相关上式对求导,令导数为0,得极大值,4.期望最大化与参数估计,参数估计 EM的使用 E步骤: 变分推理确定和,近似p(,z|w,) M步骤:根据 和极大化E中p(W|,)边界 Dirichlet参数的计算 无约束, (3.16)式对相关上式对求导i不等于j,令导数为0,迭代求最大,4.期望最大化与参数估计,平滑 为词项的多项式分布,不在训练集中的词项,多项式参数会将其概率设置为0 准确率变低,不能有效处理包含这种词项的文档 引入Dirichlet分布参数,是为随机矩阵 随机化参数和,解决了LSI和pLSI的问题,

      《lda工作原理》由会员xzh****18分享,可在线阅读,更多相关《lda工作原理》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.