好文档就是一把金锄头！

欢迎来到金锄头文库！[会员中心]

电子文档交易市场

安卓APP | ios版本

电子文档交易市场

安卓APP | ios版本

您所在位置：网站首页 > 商业/管理/HR > 销售管理 > 深度学习之word2vec课件

深度学习之word2vec课件.ppt

22页

卖家[上传人]：博****1

文档编号：578720262

上传时间：2024-08-24

文档格式：PPT

文档大小：1.55MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20金贝

/ 22 举报版权申诉马上下载

文本预览

下载提示

深度学习之word2vec学习、分享与交流报告人：黄宇鹏辞床就告痒畦糙次牵菏称菱钢潭戍圃郴多皋蒋冲须茵船首稼摇慑灼株威蝉深度学习之word2vec课件深度学习之word2vec课件目录•基本概念•模型与方法•实战与应用劲穗辽基霜久禽衙仑譬鳃拴墒岁苏括树琉犊硕慌砧珊盗琴蒋咙黄钾怠拖涵深度学习之word2vec课件深度学习之word2vec课件词向量•自然语言中的词语在机器学习中表示符号–One-hot Representation例如：•“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...]•“麦克”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 ...]•实现时就可以用0,1,2,3,...来表示词语进行计算，这样“话筒”就为3，“麦克”为8.–存在两个问题•维度比较大,尤其是用于 Deep Learning 的一些算法时•词汇鸿沟：任意两个词之间都是孤立的，不能体现词和词之间的关系嘶踢庚番岳戏兵聊涣法父舍桑淖粪渺奠猜莆蒂来躬伐科店膛徊运桑氨纶斩深度学习之word2vec课件深度学习之word2vec课件词向量•Distributional Representation–词表示为：•[0.792, −0.177, −0.107, 0.109, 0.542, ...]，常见维度50或者100–解决“词汇鸿沟”问题•可以通过计算向量之间的距离（欧式距离、余弦距离等）来体现词与词的相似性•如何训练这样的词向量–没有直接的模型可训练得到–可通过训练语言模型的同时，得到词向量瑶炊药许纲盛坝馁虱疗知涅于桃蔓奠孩翰债磨拄封孽莲娜爬对虹冒焦考礁深度学习之word2vec课件深度学习之word2vec课件语言模型•判断一句话是不是正常人说出来的，用数学符号描述为–给定一个字符串"w1,w2,...,wt",计算它是自然语言的概率，一个很简单的推论是–例如，有个句子"大家,喜欢,吃,苹果"•P(大家，喜欢，吃，苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)–简单表示为•计算问题买牺痪市扰哩皂窿顿哎岭茹涡涕泄蔬坯皋堤汛停碗幢朽土搓患嗅攻归弱肆深度学习之word2vec课件深度学习之word2vec课件语言模型•现有模型–N-gram模型–N-pos模型–...–Bengio的NNLM–C&W 的 SENNA–M&H 的 HLBL–Mikolov 的 RNNLM–Huang 的语义强化–...涕拧顷毅戊记诧茸耍蓖扼扛秤扩甫邱脚怖深雏闷拔着惹吝匙叶凤考豫鹃娩深度学习之word2vec课件深度学习之word2vec课件word2vec原理•两种模型，两种方法模型模型CBOWSkip-Gram方法Hierarchical SoftmaxNegative SamplingHierarchical SoftmaxNegative Sampling杆尺魏振炸卒阴横浴烧帧转阜樟预卿约涸晋杀潭申谷窒钡得戴未曼乱劫挣深度学习之word2vec课件深度学习之word2vec课件CBOW模型+Hierarchical Softmax方法•CBOW模型–INPUT:输入层–PROJECTION:投影层–OUTPUT:输出层–w(t):当前词语（向量）–w(t-2),w(t-1),w(t+1),w(t+2):当前词语的上下文–SUM:上下文的累加和煤炎摄钧就焰敬谊荷汇远渠纽陈毛熏绘稽桥依爷稗场逊瘁乎级追蜀敝取酶深度学习之word2vec课件深度学习之word2vec课件CBOW模型+Hierarchical Softmax方法（续）射论怎肤汽诣郭砸葛轨淫笑韦诲浇恬绥懊频降媚搅径卞招捐吾泪耘殷翘殴深度学习之word2vec课件深度学习之word2vec课件CBOW模型+Hierarchical Softmax方法（续）为什么建哈夫曼树？非叶子结点为LR分类器叶子结点对应词典中的一个词目标：埂澄栽筑模纪韧擞白巷整楚嚼掳舅龋学疵翟掀琶瑰绝成丝遥蒜蓟渊地踌骚深度学习之word2vec课件深度学习之word2vec课件CBOW模型+Hierarchical Softmax方法（续）•句子：我,喜欢,观看,巴西,足球,世界杯•w=足球阑捎究刻吓甲堂热海拢秦江晤搂来煎捅缉辉材掌辜挎朴落溅劫骂招显揖敝深度学习之word2vec课件深度学习之word2vec课件CBOW模型+Hierarchical Softmax方法（续）•正类概率:•负类概率:•"足球" 叶子节点经过4次二分类，每次分类结果对应的概率为•由Context("足球")预测"足球"出现的概率仓延灿点砖吵渐廷壶茹夜拉滔店涡跑距诡婴明擒扯幕迈伍击汤隧朵阎苛胀深度学习之word2vec课件深度学习之word2vec课件CBOW模型+Hierarchical Softmax方法（续）•对于词典中的每个词w有，结点个数•其中，•或者表示为•对于由S个句子组成的语料库C有•取对数似然函数参数1参数2扑堰绪档骡捶钒壬胺啊岗闸灼拾个姆藤失领仇扫隆杆伞雌虐进蝴捻似胡霸深度学习之word2vec课件深度学习之word2vec课件CBOW模型+Hierarchical Softmax方法（续）•梯度下降法进行求解–令–f(w,j)关于和的梯度分别为–更新公式遏抛脑状侗粳恩杏陷岔韭蚤姐袍瘁轻馋牙驭恼览隘飘匈爱熔映讽卒轨懊程深度学习之word2vec课件深度学习之word2vec课件word2vec实战（一）•训练数据集：经过分词后的新闻数据，大小184MB–查看"中国"，"钓鱼岛"，"旅游"，"苹果"几个词语的相似词语如下所示青卜惩儒敌溃剧覆峪赛阐向挞警锈牛褂启持脑朋门习碌匹渊潍扣映脓此允深度学习之word2vec课件深度学习之word2vec课件word2vec实战（一）•向量加减法–"中国+北京-日本"，"中国+北京-法国"，"家庭+孩子-学校"帜享肪纯捆敛门苍骗氰贤涵爹罪笔哩证燎哭备兆抒蚀迪迭凝爷晌崔矢嫉稽深度学习之word2vec课件深度学习之word2vec课件word2vec应用（一）•机器翻译–语言词语的关系集合被表征为向量集合–向量空间内，不同语言享有许多共性–实现一个向量空间到另一个向量空间的映射和转换–图为英语和西班语的五个词在向量空间中的位置（已经过降维）–对英语和西班语之间的翻译准确率高达90%擅甘洲鄂沉写性馒闲桅帐胳葵诲祖斟会辰走磐雄友缴收峰马露辈等炳臼跃深度学习之word2vec课件深度学习之word2vec课件word2vec应用（三）•给广告主推荐用户–T媒体网站用户浏览网页的记录–pageH是匹克体育用品公司在T上的官网–page2,page3,page5和pageH是比较相似的页面–可给匹克体育用品公司推荐经常浏览page2,3,5这个几个页面的用户进行广告投放括原炉诈旨壕陪蔓绘殴浆害婶吨试绰套春囊长厦野宙缮蜘疼赞缀旭米茁燎深度学习之word2vec课件深度学习之word2vec课件word2vec应用（三）•相似的页面计算过程孵赛炔凌尚蔓邯出瑰戎盐隶琼罗毙鼻帐拽颠谚声着罚扳呜胶悟柒略侩碗彤深度学习之word2vec课件深度学习之word2vec课件word2vec应用（三）续•对ctr预估模型的帮助–新广告上线存在冷启动问题–通过比较相似的广告的点击率来预估这个广告的点击率–由上个例子可得到每个页面的向量，然后通过Kmeans进行聚类，得到比较相似页面的簇？•向页面向量添加其它的特征，例如广告主所属的行业和地域等•假设页面p1的向量是(0.3,-0.5,0.1），加入行业和地域信息后为(0.3,-0.5,0.1,1,0)，1和0分别表示行业和地域的特征值•这样得到的聚类效果相对更好搂憋储巫羽睁磨艺虚铀堕骚蛹蓉护别革宅氨氰需决辙非祟做院纵历诛坎获深度学习之word2vec课件深度学习之word2vec课件参考文献•[1] 深度学习word2vec笔记之算法篇 •[2] word2vec 中的数学原理详解（四）基于 Hierarchical Softmax 的模型 •[3] @杨超在知乎上的问答《Word2Vec的一些理解》•[4] hisen博客的博文•[5] 深度学习word2vec笔记之应用篇 •[6] Deep Learning实战之word2vec，网易有道的pdf•[7] word2vec源码解析之word2vec.c •[8] Hierarchical probabilistic neural network language model. Frederic Morin and Yoshua Bengio.•[9] Distributed Representations of Words and Phrases and their Compositionality T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean.•[10] A neural probabilistic language model Y. Bengio, R. Ducharme, P. Vincent.•[11] Linguistic Regularities in Continuous Space Word Representations. Tomas Mikolov,Wen-tau Yih,Geoffrey Zweig.•[12] Efficient Estimation of Word Representations in Vector Space. Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean.•[13] Deep Learning in NLP （一）词向量和语言模型些诉崇栖番汕厘档车蕴波曾夜胎哥拒卵绸忠鉴毫戊芍会焰捅伙襄惰酗毖朗深度学习之word2vec课件深度学习之word2vec课件thank you !Q&A巍蒸苫赫渣枫棘患注肝安聚堂顺屯隅绽陛扰苍卤航扫昆滦窑圾乐煽逗千焉深度学习之word2vec课件深度学习之word2vec课件。

点击阅读更多内容

相关文档

工程项目管理及索赔-项目经理班.ppt 2中外工程项目管理模式的比较及分析.ppt 已加连锁体系配送中心管理课件.ppt 项目管理培训教材课件.ppt 工程经济学绪论.ppt 产业经济学第三章产业差异化.ppt 黄金投资分析师培训-005金融学基础课件.ppt 证券投资风险衡量与分析.ppt XXXX高级项目管理师项目收尾二.pptx 《企业薪酬管理》PPT课件.ppt 经济学记忆.pptx 建设工程项目管理培训.ppt 黄金投资分析师培训-008金交所与期交所课件.ppt 薪酬管理-战略性薪酬管理课件.pptx 《政治经济学（第五版）》课件第十四章社会主义国民收入的分配和消费.ppt 《管理经济学》研究生课件IPPTChap007.pptx 分配理论--微观经济学ppt课件.ppt 经济学原理第5版微观第七章中文版课件.ppt 管理经济学之定价实践课件.pptx 《管理经济学》研究生课件IPPTChap004.pptx

收藏店铺

相似文档更多>

正为您匹配相似的精品文档

最近下载

中国佛教孝思想的特质及现实意义——兼与儒家孝思想之比较

中国佛教孝思想的特质及现实意义——兼与儒家孝思想之比较.doc

上期开特下期出特公式

上期开特下期出特公式.doc

din 2605-1 钢制对焊管件-弯头、弯管

din 2605-1 钢制对焊管件-弯头、弯管.pdf

产业集聚区扩展区控制性详细规划文本

产业集聚区扩展区控制性详细规划文本.doc

2024年云南省中考道德与法治真题（解析版）

2024年云南省中考道德与法治真题（解析版）.doc

代建工作手册讨论稿

代建工作手册讨论稿.doc

清水混凝土监理实施细则

清水混凝土监理实施细则.doc

小数除法竖式计算100道及答案

小数除法竖式计算100道及答案.docx

化学电源教学课件 ppt 作者程新群主编化学电源第1章绪论

化学电源教学课件 ppt 作者程新群主编化学电源第1章绪论.ppt

机房环境监控系统设备清单及质量技术标准

机房环境监控系统设备清单及质量技术标准.doc

墙体保温材料XPS挤塑板

墙体保温材料XPS挤塑板.ppt

脐静脉插管术课件

脐静脉插管术课件.ppt

关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们

手机版 | 川公网安备 51140202000112号 | 经营许可证（蜀ICP备13022795号）
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.

QQ咨询
微信客服
返回顶部