电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

光环大数据培训_大数据到底如何搞定电影票房预测

5页
  • 卖家[上传人]:gua****an
  • 文档编号:51373637
  • 上传时间:2018-08-13
  • 文档格式:DOCX
  • 文档大小:44.43KB
  • / 5 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/光环大数据培训光环大数据培训_ _大数据到底如何搞定电影票房预测大数据到底如何搞定电影票房预测光环大数据培训机构光环大数据培训机构,怎样利用微博数据从股市中掘金?气象台怎样预报天气并 发布预警?Google 如何通过搜索行为预报流感爆发?这些有趣的问题背后,其实 都隐藏着大数据的影子。基于对搜索行为、社交媒体等数据的深入分析,可以 测量亿万用户的情绪变化、描绘用户的行为模式、挖掘用户的潜在需求,最终 发掘出数据中蕴含的真正价值。2009 年 Google 在Nature上公布了其利用搜索数据对全球流感疫情近乎实 时评估的技术:(1)2012 年微软纽约研究院经济学家 David Rothschild 在 51 个选区中准确预测了 50 个选区的总统大选结果 (2)美国印第安纳大学和曼彻斯 特大学的三位学者依靠 Twitter 的情绪分析预测未来 3-4 天道琼斯指数的涨跌 ,准确率高达 87.6%(3)。与此同时,大数据技术还被广泛应用于道路拥堵、彩 虹甚至地震等领域的预测。搜狗

      2、搜索在大数据研究方面已经有一定收获。自 2013 年开始,我们决定研发一 个有挑战性的社会化预测系统,命名为#深思#(这个名字来源于银河系漫游指 南中的一部超级计算机),在不同领域进行趋势预测,期望通过这个综合系统 来发现隐藏在大数据背后的奥秘。本文以搜狗为案例,分析其电影票房预测的相关技术,其他领域的研究成果将 陆续发布。票房预测:需求与现实票房预测:需求与现实从 1896 年西洋影戏传入上海徐园,到 1905 年中国拍摄首部国产电影定军山 ,再到 2013 年全国电影票房突破 200 亿 大关,(4)有着百余年历史的中国电影 产业,在近几年呈现出飞跃式发展的态势,无论是影片质量、院线建设还是投 资规模都有了长足的发展。与此同时,随着“大数据”时代的到来,电影观影 群体、观影偏好与心理、电影信息传播和获取方式也都在发生着深刻的变化。毋庸置疑,多样化资本的加入是中国电影不可或缺的发展引擎,然而,电影行 业以投资回报率难以预测著称,大投入未必有大产出,票房预测工具的缺失使 得投资者无法有效对冲投资风险,华人著名导演吴宇森的风语者就拖累了 米高梅公司最终走向破产。因此制作与发行公司不得不考

      3、虑所有对票房有影响 的因素:辣妈李小璐对私人订制票房贡献几何;风暴票房为何远低于其 金牌制片人江志强预期;被吐槽“烂片”的富山春居图和小时代缘何票 房却一路走红;成龙大叔的警察故事 2013有无必要拍成 3D;泰囧的“报 复性”观影效应能否复现这一切的一切其实都可以从“大数据”中找到答光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/案。因为网络上的每一次浏览、查询乃至点击所汇聚成的群体智慧都“蝴蝶效 应”般地影响着电影的最终票房。2013 年 Google 在一份名为Quantifying Movie Magic with Google Search(5) 的白皮书中公布了其电影票房预测模型,该模型主要利用搜索、 广告点击数据以及院线排片来预测票房,Google 宣布其模型预测票房与真实票 房的吻合程度达到了 94%,但并未见其公开对未上映电影的预测结果。搜狗公司借助“深思”系统,建立了更为复杂的模型,用于预测国内电影票房, 并在新浪微博上提前发布了 2013 年 12 月国内上映电影的首周票房预测结果。 很高兴到目前为止预测结

      4、果与真实数据非常接近,同时,我们的模型还可以用 于对影响票房的因素进行定量分析。搜索查询量的奥秘搜索查询量的奥秘搜狗搜索每天都响应上亿次的搜索请求,查询词的分布和变化趋势能够很好的 反映出中国网民的兴趣点和关注指向。与 Google 的研究类似,我们也发现,电 影上映前相关查询词的搜索次数与票房收入有着很强的关联性。这一点很好理 解,用户的主动搜索行为体现了用户对这部电影的潜在兴趣。我们选取了 2013 年 1-11 月国内上映的 180 部电影的票房和上映前的搜索量数 据作为训练集,用于训练一个基础的线性回归模型。实验发现,单纯利用搜索 量训练得到的模型,预测得到的首周票房与真实票房的相关度 R 方值仅为 68%,这与 Google 仅用搜索数据得到的结果 70%很接近。(注:R 方值取值为 0 至 1,值越大表示模型预测效果越好),这个结果也说明无论在中国还是美国, 用户的搜索行为是很相似的。用搜索量来进行预测票房是一个好的开始,但是准确度还远远不够。同时很多 搜索词还存在歧义的情况,比如,既是电影也是游戏,混在一起 会造成票房预测值偏高。进一步研究发现,游戏意图的查询请求量较为平

      5、稳, 但电影意图的查询请求在上映前则有一个高峰,也可以通过用户点击的 URL 来 进一步确认用户的搜索意图。因此模型需要再引入查询量的变化趋势和用户点 击的分布情况。修正后的模型可以达到 74%的准确度,这时模型已经可以对电 影票房进行一个粗略的估计。社交媒体:用户的情感分析社交媒体:用户的情感分析社交媒体数据对票房预测也会有一定帮助。假设你是某个明星的粉丝,打算去 看他主演的电影,那么你很可能会提前转发该电影的相关微博给你的朋友。国 外已经有很多预测项目都是在针对 Twitter 数据做研究,这里我们主要采用国 内部分微博网站的数据来进行预测。通过自然语言理解技术,分析出用户对未 上映影片的情感倾向,从而转换为用户的观影需求。进一步可以考虑的因素包光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/括微博转发深度、评论活跃程度,以及相关微博数量随电影上映日期临近的变 化趋势,这些数据都可以被有效的提炼为特征并加入到模型中。微博数据的加入使得准确率超过了 80%。基于垂直媒体的预测基于垂直媒体的预测为了衡量电影发行公司的宣传发行力度

      6、以及用户对宣传的关注程度,我们也引 入了一些垂直媒体的数据来增强预测能力。这里选择了一些知名电影站点和频 道进行统计,其中包括视频类站点(搜狐视频、优酷土豆、爱奇艺、腾讯视频), 娱乐类站点(搜狐娱乐、新浪娱乐、腾讯娱乐、凤凰娱乐、网易娱乐)和电影资 讯类站点(豆瓣电影、电影网 m1905、时光网)。这些网站中电影的相关新闻数、 预告片播放情况、用户评论情况都可以通过定向抓取获得,这些都是影响电影 票房的重要相关因素。显而易见,中小成本电影往往由于资金有限,不可能做 到大范围的宣传,而大制作电影的宣传就会铺天盖地。从统计分析来看,豆瓣电影对票房转换率的贡献要高于其它站点,这可能跟站 点的用户构成相关。引入了垂直媒体的数据后,准确率从 80%上升到了 86%,提 升效果显著。知立方:挖掘数据的秘密武器知立方:挖掘数据的秘密武器知立方是国内搜索引擎行业中首家知识库搜索产品,它引入了语义理解技术, 整合、抽取互联网碎片化信息,构建了海量知识库,包含所有我们需要的导演、 演员、编剧的各种信息。在知立方数据支持下,我们引入知名度指数 (CelebrityRank)来衡量一个名人所具有的票房号召力

      7、。知名度指数完美地解决 了跨领域出演(导演)电影的名人票房号召力无法得以体现的问题。例如,郭敬明在导演电影小时代之前未曾执导,如按传统方法计算其导演 票房号召力则应该为零,这显然是不合理的。而知名度指数由于考虑了郭敬明 是畅销书作家,故其指数值很高,可以充分体现他作为新晋导演所具有的强大 票房号召力。这种情况,从赵薇首导致青春、徐铮首导泰囧、李小璐 从电视圈参演电影私人订制等例子中都有非常具体的体现。基于知立方的 数据,可以大致评估出每个演员/导演对票房的影响力,查询每部电影的属性, 还可以有效的消除同名概念间的歧义。其它对票房有影响的因素其它对票房有影响的因素影响一部电影票房的因素非常繁杂,从电影导演、演员、编剧的票房号召力, 到制片与发行公司的投资规模以及宣发成本,再到电影类型、产地、拍摄技术 (3D,IMAX)以及是否续集,最后到上映时间、节假日、档期、竞争影片、院线排 片以及上映前后的观众关注度、口碑传播效应甚至天气都可以影响到一部电影 的最终票房。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/除了前面已经介绍过的因素

      8、外,模型中实际采用的特征还包括: 档期的电影竞争情况。我们发现以往公开的票房预测模型中对每部电影都是 独立预测,没有考虑电影间的竞争关系,这显然是不合理的。我们采用了独有 的算法来估计同档期的其它影片对市场份额造成的影响。 电影类型。有意思的是,通过对比实验发现,科幻片最能提高票房,动作片 和犯罪片次之,而文艺片、传记片和动画片在模型中表现最差。 电影产地。电影产地为好莱坞的电影,在其他因素与国产片相近的情况下, 对票房大约有 3000 万到 1.2 亿不等的提升。 档期。特定档期对票房有额外的加成作用,这个也比较符合预期。 是否 3D。出人意料的是,在其它因素相近的情况下,是否 3D 对票房的影响 非常小,没有显著差异。看来“伪 3D”们可以省点后期 3D 制作费啦。 预告片。通过视频搜索预告片的趋势也可以提前反映影片的受关注程度。我们成功的把以上技术都整合到“深思”中,对用作训练的 2013 年 1-11 月的 电影首周票房数据,最新的模型能够在交叉验证的情况下达到 95.5%的准确率。因为训练集电影的总数较少(180 部),我们做了大量的额外工作以确保最后的 模型不会出现过拟合(

      9、over fitting)的情况。此时的“深思”已经做好了对即 将上映电影进行票房预测的准备。实际预测效果实际预测效果在实际研究过程中,12 月份的电影上映前均使用“深思”系统预测了首周(7 天)的 电影票房,预测结果发布在一位团队成员的微博上。预测效果如下,在已经预 测的 9 部电影中,前 4 部大片的预测票房与真实票房很接近,比我们的预期还 要略好一点。大数据时代大数据时代,数据分析师数据分析师,数据挖掘培训数据挖掘培训,互联网数据分析师互联网数据分析师,就选光环 大数据培训机构!光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/为什么大家选择为什么大家选择光环大数据光环大数据!大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。【报名方式、详情咨询报名方式、详情咨询】光环大数据官方网站报名:光环大数据官方网站报名:http:/hadoop.au

      《光环大数据培训_大数据到底如何搞定电影票房预测》由会员gua****an分享,可在线阅读,更多相关《光环大数据培训_大数据到底如何搞定电影票房预测》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
    点击查看更多
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.