您所在位置：网站首页 > 办公文档 > 总结/报告 > 大数据下的人工智能与传媒新发展中AI合成主播“抢下”媒体人的话筒研究

大数据下的人工智能与传媒新发展中AI合成主播“抢下”媒体人的话筒研究.docx

12页

卖家[上传人]：wd****9

文档编号：261547120

上传时间：2022-03-03

文档格式：DOCX

文档大小：50.38KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

11金贝

下载

/ 12 举报版权申诉马上下载

文本预览

下载提示

常见问题

大数据下的人工智能与传媒新发展中AI合成主播“抢下”媒体人的话筒研究一．AI合成主播的发展变迁我国最早的虚拟主播叫“小龙”，2004年在《光影周刊》栏目初次亮相，但由于技术的限制，小龙只是达到了虚拟主播的技术标准，其播报与主持工作需要在人力支持下才能完成；2013年，安徽卫视在《黄金年代》节目中首创360度无死角舞台和无主播的综艺，启用机器模拟人声Mr.golden主持；2015年，东方卫视的人工智能主播微软小冰出现，在节目中，微软小冰实现了利用大数据推送热点新闻、收集并筛选网友评论、通过线上视频采访网友等功能；2018年11月7日，搜狗联合新华社在第五届世界互联网大会发布全球首个全仿真智能AI主持人2019年第二代AI合成主播主播（具有较为丰富的表情能力）出现，搜狗与新华社联合推出全球首个AI合成女主播——新小萌；2月19日，搜狗公司与新华社新媒体中心联合发布了首个站立式AI合成主播，新的AI合成主播从过去的“坐着播新闻”升级成结合肢体动作的“站立式播报”，标志着“搜狗分身”技术再次取得突破同年6月，新华社、俄罗斯塔斯社和搜狗公司联合推出了全球首个俄语AI合成主播，该主播在未来将被应用于塔斯社的新闻报道中。

2019年9月，搜狗与平安惠普联合推出全球首个AI合成客服，并发布第五代AI主播，是全球首个AI气象主播，具有大角度、大幅度动作的能力近几年来，AI技术在传媒业的运用越来越广泛，AI合成主播的形态与功能也日趋完善AI主播不仅拥有和真人主播同样的播报能力，还能24小时不间断播报，这样的AI合成主播无疑会在突发事件报道、应急事件处理方面提高报道的时效性通过对AI合成主播发展变迁历程的梳理，我们不难发现，这样的合成主播在传媒业的运用正朝着更加“逼真化”的方向发展，它们将越来越具有真实新闻主播的形态特征，这不禁让我们怀疑：AI合成主播在未来是否能够替代真人主播，实现在传媒业的广泛使用？它又是否存在运用的局限性？想要弄清这些问题，我们得先深入了解AI合成主播背后蕴含的技术原理二．AI合成主播的实现方式与技术原理当下，搜狗、百度、科大讯飞等机构都在着力打造AI合成主播，促进AI技术与传媒业的融合，并且其中多款主播已经正式上岗接下来我们就来深入分析AI主播的实现方式以及技术原理通过线下采访上海长阳创谷产业园区百度分部负责人和科大讯飞技术讲解员，我们对AI主播的生产流程有了相对清晰的认识同时在查阅了部分资料后，我们整理出如下技术原理。

AI主播的生成首先利用到了分身技术，用户只需输入任意文本就能生成真人主播的分身视频接着通过人脸关键点检测和三维人脸建模，分身能够从少量录制好的视频中深度学习语音、人脸表情和动作等信息，再利用语音合成、表情建模和形象合成等技术，生成视频所需的所有特征最后，建出的模型会联合音视频，实现语音、唇形和表情的“同步”，输出逼真的多模态视频一）三维重建三维重建从广义上来讲，就是构建现实社会的三维模型，通俗点来讲就是现实社会的“复刻”目前三维重建的方法包括手工建模、仪器采集和基于图像的建模，AI主播的建构便主要采用扫描仪来完成真人主播主动参与，扫描仪对其进行三维数据采集，最终完成建模二）表情合成人的脸部三维模型可以剥离为表情、形状、纹路等维度，由于AI主播在特定场景内的脸部形状和纹路不会发生太大改变，因而表情的合成成为研究的重点表情合成是建立在人脸三维重建基础之上的，它通过调整各个表情基向量的系数实现表情改变三）唇形合成唇形合成相较于表情合成来讲，对精确度的要求更高，因而当AI主播在播送消息时，如果唇形无法匹配语音，那么将会造成很大的割裂感唇形合成的前提是“唇读”，计算机唇读利用口型模型和分析运动参数，定量处理唇动信息。

唇读之后计算机合成唇部模型，并且与语音系统进行匹配四）语音合成AI主播语音合成大致分为三个流程首先是建立数据集，这需要录制真人主播的部分语音作为语音库，并且录入的语音数据要尽可能覆盖语音中的元音、辅音以及不同的音调搜狗AI交互技术中心图像工程师樊博说：“我们想要制作一个AI合成主播的话，我们会准备几百句话，让主持人去念其次是音素序列的合成，这一步主要利用NLP技术对输入文本进行语言学分析，例如“今天天气晴朗”在进行分析后会变为“今天天气晴朗”最后一步便是声音的合成，实现这一步需要一些“机器模型”，例如Char2Wav模型将文本转化为声学参数，再利用声码器进行输出这三个步骤完成之后，语音合成便实现了五）多模态合成技术当我们进行完三维重建、表情合成、唇形合成和语音合成等系一列步骤之后，我们得考虑如何将声音、唇形、表情三者实现匹配，这就需要运用多模态合成技术多模态合成技术需要运用深度学习算法，通过大量的案例模拟学习，最终实现声音、唇形、表情的同步AI合成主播是人工智能技术在传媒领域的外化和跨界融合表现，它的发展势头迅猛，背后其实反映了AI技术的迅速发展那么当下的AI技术运用到了哪些领域？愈加成熟的AI技术又是否能够给AI主播带来新的变化？对此我们小组将目光从AI合成主播上暂时转移，追本溯源，对AI技术的运用进行了实地调查。

三．相关人工智能现状调查结合资料查询与实地调研，我们发现，人工智能在推动AI主播发展中起到了至关重要的作用因此，我们深入考察了以百度为代表的人工智能产品，并在此基础上得出相关人工智能发展现状的结论以百度AI产品“小度”为例这是一台服务型机器人，服务系统主要依靠于百度语音识别系统，整体风格偏向轻松小度机器人可以通过算法对用户进行个性化推荐，实现智能化推送每日新闻除此之外，百度团队负责人向我们介绍道：“小度还有导购、人脸识别、人类体征追踪等技术，我们已经在努力提供个性化服务，以后还会结合VR技术通过深度学习，AI机器人对服务对象的认知能够实时更新，从而变得越来越聪明今天和明天的它就不会一样，同一个问题过了一天再问，它的回答也是不一样的可见，小度机器人作为一款服务型AI产品，正朝着个性化服务、深度学习的方向发展再以百度无人驾驶汽车“阿波罗车”为例阿波罗车是百度首批量产的L4级别无人车（L0到L5是无人车的一个划分级别），达到这个级别的无人车已经拥有了深度学习能力举个例子，阿波罗车可以自己依托百度地图系统，通过在现实环境试跑，了解各个地点的人流量和新出现的障碍物这是它的自我学习，不是我手动输入信息告诉它的。

你可以把它理解为一个类人机器人，有学习和处理的能力，这就是L4级别该负责人这样介绍道特斯拉同样推出无人驾驶汽车，但从它发布的信息显示，该无人驾驶车型只是L3级别它在预先划定的轨迹里跟车，只能完成减速和停止等指令，但是很难实现超车等拟人类操作相较于特斯拉，百度已经拥有了无人驾驶的深度学习技术，而且已经达成了量产使用现在这辆车在很多地方如海淀公园、同里古镇，已经开始投放使用总而言之，深度学习是AI技术的发展趋势深度学习模式通过学习样本数据的内在规律和表示层次，在学习过程中获得大量数据信息，这对文字、图像和声音等数据的解释有很大的帮助深度学习的最终目标是让机器能够像人一样具有分析学习的能力，它是一个复杂的机器学习算法，在语音和图像识别等方面具有重大影响力想要考察人工智能对媒介环境的影响，具体了解人工智能的未来发展方向必不可少通过对该百度团队负责人的深访，我们能够了解到，业内已达成共识——“人工智能的未来在于深度学习”，而深度学习又为AI用户个性化体验提供可能综合考量，在大数据发展的背景下，用户个性化服务也将渗透到新闻推送的各个方面不管是曾经还是未来，服务都会是新闻推送的第一要义然而我们不难发现，从2018年到2020年，从我们立项至今，AI主播在新闻传播领域的不断更新换代更多停留于“外在形象”方面，追求声音、外貌、言行举止的“拟人化”。

随着人工智能的不断发展，越发“拟人化”的主播形象已经能够呈现在大众面前，但是它承担的职责却似乎没有太大的改变，那便是“新闻播报”AI主播的发展似乎没有跟上人工智能技术深度学习、个性化服务的步伐，难道AI合成主播的定位就在于此，没有必要融入深度学习技术吗？或者是在发展过程中遇到了某种限制与束缚？它的未来发展方向会有何新的变化吗？这些问题接踵而至，我们的调查任务遇到了难题在调查一度陷入僵局之后，我们逐步意识到判断一个事物的优劣与否并不是看它是否融入了最新的科技，而是应该看它在具体使用情况下的表现因而我们通过对百度、科大讯飞工作人员的深入访谈以及资料查阅，对AI合成主播在投入使用后的优缺点进行了分析四．AI合成主播的优缺点分析总的来说，AI主播的发展，促使人工智能在传媒领域擦出新的火花AI合成主播作为人工智能与播音主持融合的技术产品，其功能的发挥，在一定程度上不仅将真实的播音员主持人从繁重的劳动中解脱出来，也满足了受众的收视需求但是，AI主播的功用目前只是停留在有稿播音层面，其在未来的发展中还存在很大的空间根据目前的技术发展，AI主播相对于普通主播来说，具备以下优势一）随时在岗，分担劳动量AI主播随时在岗是它的一大优势，它可以全天候24小时为官方网络以及社交媒体平台工作，对于夜间的新闻播报也能够以积极的状态进行，在一定程度上分化了真实播音员的劳动，极大地减轻了真实主持人的工作任务，并且很少出现发布信息不及时等问题。

AI合成主播能够进行新闻播报是建立在数据库的基础之上的例如，新华社AI合成主播“新小浩”正是通过多项人工智能技术，将真实主持人邱浩“复制”出来，呈现出AI合成主播与真实播音员的语音和形象极度相似的新闻播出效果此外，新华社客户端配有“AI主播”专栏，仅仅在4月22日当天就发布了14条快讯当媒体人向AI合成主播输入所需播报的文本数据，AI合成主播即可实时完成新闻信息的播报并生成视频，极大地提升了电视新闻的制作效率，使新闻时效性更强、信息传递也更及时准确二）对外传播方便，具有多语种传播功能AI语音背景下，AI合成主播、虚拟主持人、智能机器主持人等新兴传播载体的诞生及应用，推动中国电视传媒产业在数字化信息交互平台的发展，极大地丰富了电视节目的传播手段尤其是信息传播技术的飞速发展，信息资源的全球性流通与共享，促使中国电视传媒产业实现全球性的传播与发展2019年期间，由科大讯飞推出的全球首个人工智能多语种虚拟主播“小晴”上岗，依托机器翻译技术进行多国语言翻译，可以使用中、英、韩、日等多语种进行新闻报道，实现一个声音多语种播报同时，多语种AI虚拟主播“小晴”的多语种播报，更是在第一时间将中国期间的新闻信息对外传递，加大了信息世界化的传播力度，加强了中国电视对外传播的交流力度。

在高科技竞争日益激烈的情况下，AI合成主播的频繁使用与不断优化升级，意味着中国电视的传播媒介取得了新的进展，这也是全球传播大发展中，中国电视新闻信息传播的新机遇三）程序化输出，省却人力劳动人工智能技术在传媒领域所应用的功能，是属于程序性的、无需人发挥的信息传输功能，其语音输出及视频输出是基于大数据的输入由数据库自动生成的AI技术当下在广播电视领域主要应用于广播电视节目中较为规整的、无变化的、简单的播音主持创作活动AI合成主播是基于人工智能技术而产生的一种新的电视节目传播载体，是完全依赖于技术的“电视播音员”，其语音输出、面部表情、肢体动作等都是按照人所设定的程序及发出的指令行事AI合成主播主要应用于新闻播报，属于较为简单、规整的新闻稿件的语音及图像输出，它在接收到新闻稿件的文本數据后即可程序性的输出音频和视频数据，无需人的发挥从某种意义上来说，AI合成主播是一种把人们从繁重的劳动中解脱出来的工具四）呈现效率高，运营成本低由于AI主播是基于人工智能技术开发而成的，初期可能投入资金较多，但当技术。

点击阅读更多内容