好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

QQ音乐的个性化探索.pdf

33页
  • 卖家[上传人]:I***
  • 文档编号:152989288
  • 上传时间:2020-11-26
  • 文档格式:PDF
  • 文档大小:25.07MB
  • / 33 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 音乐的个性化探索 腾讯音乐 / 音乐业务线 / 智能数据中心 SACC2017 Overview 01 | 关于音乐,关于用户 03 | 广告个性化的尝试 02 | 音乐个性化的思考和演进 04 | AI时代一些好玩的尝试 SACC2017 Overview 01 | 关于音乐,关于用户 03 | 广告个性化的尝试 02 | 音乐个性化的思考和演进 04 | AI时代一些好玩的尝试 SACC2017 Play on all your devices iOS/AndroidPCH5 IOS/ANDROID 设备车载 智能音响 TV 音乐/ 听我想听的歌 注册用户 8亿 DAU 1亿 全民K歌/ 你其实很会唱歌 注册用户 4.6亿 主力军 90后用户 SACC2017 “ 音乐这件事儿“ SACC2017 我们的用户 SACC2017 我们的用户听什么? SACC2017 我们的用户听什么? 巅峰音乐 刚好遇见你 李玉刚 演员薛之谦 小苹果筷子兄弟 李白李荣浩 平凡之路朴树 丑八怪薛之谦 告白气球周杰伦 凉凉杨宗纬|张碧晨 FadedAlan Walker 默那英 巅峰专辑 意外薛之谦 不良少年徐良 绅士薛之谦 模特李荣浩 三生三世十里桃花原声 我很忙周杰伦 魔杰座周杰伦 万有引力汪苏泷 JJ陆林俊杰 刚好遇见你李玉刚 周杰伦 薛之谦 陈奕迅 张杰 林俊杰 许嵩 G.E.M. 邓紫棋 BIGBANG 徐良 张学友 巅峰艺人 时间维度 : Aug.2017 Oct.2017 SACC2017 Overview 01 | 关于音乐,关于用户 03 | 广告个性化的尝试 02 | 音乐个性化的思考和演进 04 | AI时代一些好玩的尝试 SACC2017 推荐的那些事儿 短期 业务KPI,case by case 长期 用户口碑,品牌调性 VS 人均听歌15%的 大热之选 神曲到底是什么? 好听的歌是什么? 算法军备竞赛 (CF+ Rules) VS DL 见过,听过的那些事儿 SACC2017 推荐的那些事儿 SACC2017 个性化推荐,在路上 2011 20122013 20142014 2015 SACC2017 个性化推荐,依然在路上 音乐 个性化引擎 全景图 中心化推荐 规则引擎 热门音乐 新音乐 引入个性化推荐 基于内容/标签推荐 CF 基于用户长期兴趣歌手 基于用户长期兴趣流派 优化个性化推荐 实时架构 冷启动优化 用户特征工程优化 多目标推荐优化 内容特征优化(歌单等文本类模型) AI相关探索 音乐大数据挖掘 深度神经网络 图像理解 流水数据预处理 算法模型基础数据 CGI 客户端 负载均衡 L5 Agent Deep Model CF Model ... NLP Model 初始候选数据召回 用户画像 关系网络 业务逻辑 实时流水 特征工程 数据统计 数据仓库 模型训练层推荐层应用层 个性化引擎 Part 0. 音乐理解 Pandora 专家人工标注 专业公司Gracenote以及学院派专业人员采 用近2000种音乐元数据(流派、情感、主题 标签)对每一首歌曲进行分析并标签化 个性化引擎 Part 1. 歌单生态系统 歌单知识体系 基础特征描述: 语义特征描述: -语种,流派,歌手,年代分布 -冷热程度 -播放流水,收藏流水 文本歌曲图片 PGCUGC 歌单产品周期全面支撑 歌单投稿 日均机审占日审核量 70%+ 广场排序 歌单收听数量提升 56%-87% 歌单推荐 音乐馆听歌显著增长 关联歌单 全面覆盖外部展 示歌单 个性化引擎 Part 2. 用户理解 海量用户行为数据挖掘 ,基础画像 腾讯视频 全民K歌 朋友圈/微博音乐分享数据等 多平台联动 用户基础信息:性别、年龄、地域、学历 音乐口味偏好:歌手、流派、语言、年代 音乐行为偏好:电台、收藏、下载、歌单、 搜索 平台行为:新增、留存、回流、活跃 用户特征 DAU:1亿+ 单用户日均操作数据:50亿+ 每日歌曲播放:十亿级 听歌及操作流水,时间衰减模型 自然语言处理:对文本数据,如评论、歌单 的标题挖掘 噪声过滤:SPAM等 监督学习:利用LR、GDBT等模型进行用户 喜好预测 用户特征挖掘算法 包月 数字专辑 送花送礼等 个性化引擎 Part 3. CF Model 浅层协同: 利用用户的听歌行为数据构建user-item矩阵,求取 相似歌曲或相似用户,无须领域知识。

      歌曲1 歌曲2 歌曲3 歌曲4 歌曲 用 户 , = 隐因子模型: Latent Factor Model:利用矩阵分解方法,求出用户和歌 曲的隐特征向量 目标函数: 优化均方误差RMSE,使得预测评分与真实评分的均方误差最小 .,0 13,434 3 84 3 4 ;+ 13; ? 3 + 14; ? 3 ? 3,4 模型简单,准确度高,且可解析性好 个性化引擎 Part 3. CF Model的挑战 仅能发现浅层特征 歌曲1 歌曲2 歌曲3 歌曲4 歌曲 用 户 , = 12 sim i1,2 = 0? sim i1,4 = 1 7 sim i2,i4 = 3 4 l协同模型(CF Model)的挑战 马太效应明显,Top100万歌曲占据了总收听量 的90%+; 基于用户行为召回的数据,多以热门数据为主, 如何跳出热歌圈子,挖掘长尾歌曲 ? 亿级用户的协同计算性能问题 0 0.2 0.4 0.6 0.8 1 1.2 top 100top 1ktop 1wtop 10wtop 20wtop 100w Top歌曲播放量占比 缺点一:推荐的歌曲风格单一,缺乏新鲜感 缺点二:只挖掘浅层的特征,无深层的特征 个性化引擎 Part 3. CF Model的挑战 相似度计算公式小优化 -引入IUF(Inverse User Frequency) By John S.Brees, David Heckerman, Carl Kadie

      人均听歌时长,单曲听歌时长等 模型的评测:特征向量的表示,应该能够使得在同一个流派下,歌曲之间的特征向量距离尽量接近 个性化引擎 Part 4. NLP Model 文文档档歌歌单单 词词歌歌曲曲 歌单向量 NLP Model的主体思想: 将歌单作为文档,通过 word2vec求取每一首歌曲 单词的词向量表示 数据增强: 精选歌单质量好, 但数量少,通过组合歌单来 扩展语料库 主动热度降权: 歌单数据中存在大量的小众 歌曲,有利于进行长尾推荐; 并且受到大盘听歌流水的影 响较小,降低了噪音对模型 的训练的影响 与CF Model相比,NLP Model的应用场景多种多样, 既可以用于作为推荐数据召 回建模 ,也可以用于特征提 取建模 个性化引擎 Part 4. NLP Model Manifold Learning 利用t-SNE对高维的用户特征和歌曲特 征进行降维: 用户特征 用户特征对应流派 STN SUN N V STN SUN S S 将歌单作为文档,通过word2vec求取每一首歌曲的词向量表示, 倾向于选择热门的歌曲做负样本进行训练 (negative sampling)。

      越热门的歌曲,离根节点越近 用户没有点击某一首歌曲,通常有两种原因: 一是不知道有这首歌曲; 二是不喜欢这首歌曲 对于热门歌曲来说,显然第二种的可能性更高,这也是将热 门物品作为负样本的合理性原因 Word2Vec 个性化引擎 Part 14的一些阶段效果 l 一些阶段效果 一些用户好评 听歌人数:Android,Iphone平台提升20%+ 人均听歌时长: Android,Iphone平台提升15%+ 产品指标的提升 个性化引擎 Part 5. DNN Model ReLU(32) ReLU(64) Softmax ReLU(16) 归一化 Input 连续特征离散特征 Overview 01 | 关于音乐,关于用户 03 | 广告个性化的尝试 02 | 音乐个性化的思考和演进 04 | AI时代一些好玩的尝试 音乐 广告“广告,也可以是生活的一部分” MusicBoss精准营销平台 产品运营自助配置广告; 效果追踪等一站式闭环管理; 定向投放与模型投放相结合; 50001001000 活动模型广告投放 p冷启动:使用CF模型,针对特征标签少的用户及活动进行冷启动; p特征拓展:利用word2vec等算法,进行特征维度拓展,并计算人群 lookalike; p活动推荐:排序模块使用Xgboost等模型,进行特征离散化及线上实时 预测; p线上优化:使用FTRL等算法,根据用户的反馈数据实时优化模型参数; 用户包定向筛选 我们的广告探索: 生长阶段 产品化阶段 平台化阶段 自动化阶段 2015年前 音乐率先推出会 员制,数字专辑等多 种付费模式,推动音 乐行业正版化,内部 业务广告需求增长; 同时逐步开放外部合 作广告。

      缺乏统筹, 野蛮生长 2015-2016年 逐步开始规范各个广 告位的投放内容和形 式 纯人工运营,后台逐 个需求开发 2016-2017年 2017年 搭建广告统一 管理平台 加入了更多自动化功 能,包括新增广告自 动建模,流量自动分 配等 产品只需配置新广告, 制定投放基本策略, 平台在投放周期内会 进行流量控制 搭建了音乐广告管理 平台,对所有广告位 进行统筹管理,整合 广告业务相关功能, 引入推荐算法 平台化整合各个功能, 完成了推荐算法、数 据分析、投放策略上 的迭代升级 音乐 个性化广告“广告,也可以是生活的一部分” 数 字 专 辑 外 部 合 作 会 员 推 广 付 费 音 乐 包 APP内部广告 计算模块核心算法变迁 FM因子分解机item2vec GBDT+LRXGBOOST 排期模块运营与模型结合 定向投放模型投放 定向+模型频控投放 分析模块全流程实时化 画像实时分析Hermes (腾讯) 投放效果实时监控TRC 模型参数实时调整FTRL 音乐 个性化广告“广告,也可以是生活的一部分” 平台化阶段 2016-2017年 音乐 广告“广告,也可以是生活的一部分” 广告模型自动建模和优化: Assemble 特征集成,负责将样本和新特征 进行集成 Transform 特征转换,负责做特征常用转换, 比如特征离散,特征交叉,tf-idf Criteria 特征评估指标计算,包括 entropy-ig, giniindex, entropy- igr, symmetry-uncertainty等 Model 模型评估指标计算,包括auc、 logloss、rmse等,以及输出特征 全局重要度、树模型等 自动输出变量探索报告 流量分发自动控制 开始 投放方式 是否不同 关联的活动打分高 的优先投放 号码包优先投放 否 结束 是否都是 自动推荐 优先级 是否相同 否 是 是 优先级高的广告 优先投放 否 投放时间早的广告 优先投放 是 为了处理人工运营、定向投 放、智能推荐几种不同投放 方式的矛盾,平台可进行不 同投放方式的组合,例如: 1)定向人群投放单一指定 广告。

      2)定向人群进行多个广告 的智能排序推荐;非定向人 群按优先级投放 3)定向人群投放单一指定 广告;非定向人群多个广告 智能排序推荐 当流量进入多个广。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.