lda工作原理
24页1、LDA工作原理,1.与LDA有关的分布2.LDA的产生过程3.LDA的工作原理4.期望最大化与参数估计,1.与LDA有关的分布,贝努利分布Bern(x|u)=ux(1-u)1-x贝塔分布概率密度函数满足以下条件的 为贝塔分布。,1.与LDA有关的分布,多项式分布狄利克雷分布以上四种分布的详细推导过程在doc文档中。,2.LDA的产生过程,Unigram模型 每篇文档都是独立的多项式分布 存储空间很大,D(文档数)N(词项数)隐形语义检索 增加主题变量,维度降低 文档选择一个主题,与现实不符,2.LDA的产生过程,概率隐形语义检索 增加概率,使一篇文档产生多个主题 训练参数扩展性差,随文档数线性增长 对包含词项不在训练集中的新文档准确率很低,2.LDA的产生过程,LDA的产生 引入Dirichlet分布,主题概率分布随机产生,主题词项分布随机产生,解决了以上问题 Simplex图:4个主题3个词项,3.LDA工作原理,参数的意义为主题概率的概率分布,Dirichlet参数 d为文档d下的主题概率分布 Zd,n为第n个词项文档d产生的主题 Wd,n为主题产生的词项,实际变量 为主题词项概率
2、分布,为使 满足Dirichlet分布的参数,3.LDA工作原理,参数的意义 为K维向量, p(|)表示选择某个文档概率分布的概率为KV矩阵,i,j=p(wj=1|zi=1),3.LDA工作原理,LDA的连续性 给定和,词项分布w依赖(3.1),概率随机化给定和下,Z,W的联合概率(3.2)给定和,W的概率分布(3.3)联合(3.1)和(3.3),3.LDA工作原理,LDA的连续性 联合(3.1)和(3.3),可得单篇文档的概率分布假设语料库中每篇文档相互独立可交换,3.LDA工作原理,充分统计 LDA是基于贝叶斯充分统计的工作原理 LDA中多项式分布和Dirichlet分布属于指数家族 指数家族的贝叶斯统分统计g()是确保分布密度函数积分为1的因数(3.5)式两边同时对求导,令p(x|)=0,3.LDA工作原理,充分统计 结合(3.6)式,整理得考虑训练多个x样本,X=x1,x2xn(3.10)式两边对求导,p(X|)=0,极大似然ML仅依赖于充分统计的数(x) ,N趋于无穷大比较(3.12)和(3.9),并结合(3.11),可得ML=(真实的参数变量),3.LDA工作原理,工作流程
《lda工作原理》由会员xzh****18分享,可在线阅读,更多相关《lda工作原理》请在金锄头文库上搜索。
爱心树活动教案
世界文化之旅0
七年级学年知识归纳
七年级历史下册第二单元第12课《蒙古的兴起和元朝的建立》课件人教新课标版
一片美丽的叶子
非谓语动词 (6)
[中学联盟]江苏省太仓市第二中学七年级英语上册教学课件:Unit3READING1 (2)
“数与代数”教材修订说明
2014年7月师院培训
字理教学快捷入门之一20140521s
议论文写作指导之新材料作文审题立意 (2)
压缩语段 (2)
琵琶行课件 (2)
2014年各年级的教学计划和建议
(苏教版)五年级数学下册找规律第二课时
秋姑娘的信 (5)
苏教版数学五年级上册《复式条形统计图》课件 (2)
【名校课时通】2014届九年级化学全册第二单元探秘水世界第三节原子的构成名师教学课件鲁教版
《逻辑与语文》课件2
《检阅》[1]
2022-05-20 22页
2022-05-20 29页
2022-04-21 115页
2022-04-21 68页
2022-04-17 34页
2022-04-17 38页
2022-04-15 89页
2022-04-15 181页
2022-04-15 148页
2022-04-15 81页