电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

嵌入式语音识别系统课件

42页
  • 卖家[上传人]:F****n
  • 文档编号:88151747
  • 上传时间:2019-04-20
  • 文档格式:PPT
  • 文档大小:2.79MB
  • / 42 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、2019/4/20,1,嵌入式语音识别系统,洪青阳博士 厦门大学人工智能研究所 2009,2019/4/20,2,主要内容,嵌入式系统 语音压缩编码 语音识别模块 典型应用语音玩具 典型应用语音家电,2019/4/20,3,嵌入式系统,嵌入式就是将一个东西,嵌入到另一个中间,这包含两层意思: 一个是硬件的嵌入式:将一个硬件嵌入到另一个中间,使得原本没有智能的产品变得智能; 一个是软件的嵌入式:将一个软件嵌入带另外一个软件里面,一般这个软件是一个应用软件,而对象是操作系统。 因此,很多东西都会被称为嵌入式,而不仅仅是ARM等32位平台,还包括DSP,FPGA,51,甚至4位机都是可以的。,2019/4/20,4,嵌入式平台,Sunplus(16bit):凌阳SPCE061A ARM(32bit) DSP(TI、AD),2019/4/20,5,用单片机处理语音,具有语音功能的电子产品 专用语音芯片 音质好 语音播放长度、段数等都受到限制 价格较高 利用单片机实现语音功能 音质由AD、DA精度、压缩算法等决定 语音录放长度由存储空间决定 价格有优势,2019/4/20,6,用单片机处理语音,

      2、单片机实现语音功能的条件 硬件要求 AD输入用于录音、语音识别等 DA输出用于放音 定时器/计数器用于控制采样频率 软件要求 语音编解码算法支持,2019/4/20,7,SPCE061A用于语音处理,SPCE061A单片机的性能适合数字语音处理 10位ADC和10位DAC 内置MIC放大器和自动增益功能 2个16位定时/计数器 CPU时钟最高达49MHz,16位乘法器和内积运算,有能力执行复杂压缩算法,2019/4/20,8,SPCE061A实现语音识别,硬件条件 专用MIC接口,用于实现语音录制 16位定时器/计数器用于控制采样频率 最高49MHz时钟频率,内置硬件乘法器和内积运算,保证识别算法的运行 软件条件 提供语音识别函数库,只需几条语句即可实现语音识别功能,2019/4/20,9,语音压缩编码,波形编码 直接将波形信号转变为数字代码,尽量真实地还原波形 声音质量好 压缩比低,码率通常在20Kb/s以上 适用于高保真音乐及语音场合,2019/4/20,10,语音压缩编码,参数编码 提取语音信号的特征参数进行编码,尽量保持语音信号的可懂性,而还原后的波形可能与原波形差别很大。 压

      3、缩比很高,码率可达2.4kb/s以下。 语音质量较差,自然度低 对环境噪声敏感,2019/4/20,11,语音压缩编码,混合编码 将参数编码和波形编码技术结合起来,克服了两种编码的缺点。 压缩比高,码率为416Kb/s 音质介于参数编码和波形编码之间,2019/4/20,12,凌阳语音压缩算法,对于波形编码、参数编码和混合编码,凌阳都开发了相应的压缩算法。 属于波形编码的有A2000、A1600等 属于参数编码的有S240、S200等 属于混合编码的有S480、S530等,2019/4/20,13,语音识别模块,电路板模块,硬件设计 电路图 PCB布版,TS-M001,TS-M002,TS-M005,2019/4/20,14,技术参数,工作电压(CPU) VDD 为 2.4V 5.5VDC; CPU 时钟:0.32MHz49.152MHz; 内置 32K 闪存ROM,可扩展2M, 4M, 或8M byte FLASH; 低功耗休眠时耗电仅为 2A3.6V; 音频压缩率: 歌曲:16Kbit/s、20Kbit/s、24Kbit/s 答句:4.8Kbit/s、7.2Kbit/s 答句:2.

      4、4K b/s,2019/4/20,15,预处理,语音信号数字化。 特征提取,抽取反应语音本质的特征参数,形成特征矢量序列。 语音模型库,从一个或多个讲话者多次重复讲话中提取的语音参数模板。 模式匹配,把输入语音的特征参数与语音模型库进行比较分析,得到识别结果,基本原理,2019/4/20,16,根据对说话人的依赖程度,分为: 特定人语音识别(SD) 只能辨认特定使用者的语音,训练-使用 非特定人语音识别(SI) 可辨认任何人的语音,无须训练 根据对说话方式的要求,分为: 孤立词识别 每次识别的单词之间要有停顿 连续语音识别 使用者以正常语速说话,即可识别其中的单词,分类,2019/4/20,17,特定人语音识别程序流程,2019/4/20,18,特定人语音识别程序示例,2019/4/20,19,非特定人语音识别影响因素,影响因素 口音 性别年龄 环境噪音 解决办法 采集各地语音样本 200人以上,适当偏向目标用户群 尽量在安静环境下使用,2019/4/20,20,性能指标,问话-非特定人员; 对口音要求不敏感,说普通话的或者略带口音而不影响理解的普通话用户,系统能正常识别; 用户以自然

      5、距离(15cm到1m左右)对准话筒进行语音输入对话; 系统具有一定的抗噪功能,在一般环境噪声下能进行正常语音识别。 在一定环境下,系统识别率达97%以上。,2019/4/20,21,典型应用语音玩具,语音对话娃娃 语音控制机器人 声控车、飞机,2019/4/20,22,语音玩具现状和发展动态,国外典型产品: 语音识别: SONY AIBO 采用RSC300 Tiger Super Poo-chi I-Cybie 语音合成: Harsbo Furby 采用SC-691 Leapfrog LeapPad,2019/4/20,23,语音玩具现状和发展动态,国内典型产品: 语音识别: 海尔 PCBOY RSC300 伊莱克斯 Homo RSC300 晶鑫玩具 “白雪公主“ 语音合成: 明日 学而乐 采用SC-691,2019/4/20,24,语音玩具现状和发展动态,现状归纳 语音识别玩具:国内应用远落后于国外 价格问题实际是性价比问题 厂商因商业模式(出口加工)而来的重视程度问题 技术开发供给能力问题 语音合成玩具:与国外差距不大 国人对于儿童教育的重视,2019/4/20,25,语音玩具现状

      6、和发展动态,趋势分析 语音识别玩具: 向高端发展,追求新功能、高性能。如Sony Aibo。其模式不可复制 注重成本、简化功能、侧重市场实效、逐步应用新技术。这是主要发展方向。举例:Super Poo-chi,白雪公主 语音合成玩具:与国外差距不大 低成本、效果一般的产品很长一段时间将是国内主流 欧美则对语音品质要求很高 对于儿童教育产品,长远来说,音质好,价格适中的产品是发展方向。,2019/4/20,26,语音识别应用原则 选择合适的应用对象和应用场合 合适的产品:毛绒类、卡通类、机器人/宠物类、教育类 合适的场合:室内、安静的场合 不合适的产品:高速玩具车 不适合的场合:马路、大街、嘈杂的场所 平衡原则: 大的方面:功能与成本、开发费与生产成本 技术方面:识别率与误识别、误动作与方便性、距离与抗噪,玩具中语音技术应用要点、问题及对策,2019/4/20,27,语音识别应用要点 精心设计: 造型与结构 脚本:语音命令集、流程、提示与应答 开发过程: 语音命令采样范围的选择 录音品质 具体问题具体对待,根据产品特点,找出最优参数组合,玩具中语音技术应用要点、问题及对策,2019/4/

      7、20,28,语音识别应用中问题与对策(1) 关于成本: 与其它智能化技术如图象识别、精密结构设计比,语音识别的成本(含售后成本)最低 降成本方法1:简化功能、强调实效。与复杂而无用的功能比,熟悉的背景故事、生动的造型、有趣的声音的吸引力更大。举例:CP-dog、白雪公主 降成本方法2:选择All-in-one的SOC,玩具中语音技术应用要点、问题及对策,2019/4/20,29,语音识别应用中问题与对策(2) 特定人与非特定人: 非特定人(SI)优点:无须训练,易用,更适合儿童玩具 非特定人(SI)缺点:受语种、方言限制,模板采样费用高 特定人(SD)优点:不受受语种、方言限制;无须模板采样;可以用户自定义名字和命令 特定人(SD)缺点:要训练,不易用。一般需要外加存储器存放模板,生产成本略高 对策1:不同应用不同选择 对策2:采用SI/SD双模式,SI不工作时,用SD 对策3:采用伪SI技术,玩具中语音技术应用要点、问题及对策,2019/4/20,30,语音识别应用中问题与对策(3) 识别率与误识别 严格程度加高,误识别降低,但识别率(接受率)也降低。反之亦然。 对策1:不同产品不同

      8、对待。对于玩具,识别率更重要,偶有误识别可以接受; 对策2:增加门槛级数,可有效降低误识别引起的误动作 环境噪音 限于成本及玩具使用方法,现有抗噪技术效果有限 对策:选择恰当的应用对象和使用场合 措施1:选择合适的咪头抑制噪音 措施2:好的结构设计和电路板设计 措施3:一般噪音环境下,识别率优先(即使误识别增加),玩具中语音技术应用要点、问题及对策,2019/4/20,31,语音识别应用中问题与对策(4) 识别距离 识别距离一般8米以内 距离越远,抗噪越差,误识别越多 措施1:长距离应用,语音识别应考虑加在遥控器上 措施2:不带遥控器的运动玩具,应加上自动停止的功能,以免越出有效范围 响应时间 一条语音命令在1秒左右,语音识别响应延迟在100ms-1s,都比心手反应慢很多 对策:语音识别应避免应用于高速玩具车等类似产品 措施:将一个大语音命令集分成多级多个小命令集可加快响应速度,玩具中语音技术应用要点、问题及对策,2019/4/20,32,语音合成应用要点 语音质量与芯片成本之间找一个最优平衡 识别质量与存储容量之间找一个最优平衡 录音环节是重点: 录音环境、录音设备 播音员的音色特点

      9、 采样率与采样精度 声音预处理可以改善效果或生成特效,玩具中语音技术应用要点、问题及对策,2019/4/20,33,典型应用语音家电,语音控制模块 语音识别台灯 语音识别插座,2019/4/20,34,语音控制模块,语音控制模块可以直接接受自然语音控制,并完成相应的动作。其中语音识别部分采用了最先进的语音识别技术,响应速度快,识别率高,对噪声不敏感。该控制模块还加入了可信度评估和拒识技术,对于命令以外的语音或者干扰声音可以拒识。,2019/4/20,35,技术关键与难题,基于微小芯片,实现用户不需训练的非特定人语音识别系统。 有效避免常见的强电干扰。 有效排除不正确的干扰音和语音命令。 避免使用过程中的误触发现象。 PCB板及外围器件必须合理设计,把成本降到最低。,2019/4/20,36,解决方案,非特定人语音识别系统需采集足够的语音数据(每个词或句子采集200人以上样本),训练成稳定可靠的语音模型。 语音控制程序不读取外围电路I/O的数据,直接通过设置相关变量,进行状态(开、关)的监测,并执行相应操作。 为避免误触发,采用基于触发名称的二级控制机制。 为了降低成本,可采用裸片+邦定技术,大大降低了语音识别芯片及整个模块的成本。,2019/4/20,37,特定人模式,具有进行语音命令录入功能。 用户若想使用自己的语音命令控制开关,在使用前必须录音。理论上一次录音,终身有效。 录入的语音命令能够被控制电器进行关联。 能够删除语音命令。 能够追加录音,一路开关可以由多个人用语音命令进行控制。 录音时同一个语音命令要喊两次,第二次是对第一次的确认。 断电后语音命令与设置具有记忆功能,设置结果不会丢失。,2019/4/20,38,性能指标,灵敏度:8米有效范围。可轻松用语音命令控制,执行开、关等操作,来开启或关闭电器,用户使用起来非常方便。 可靠性:24小时无误触发。对于语音家电,如果随便声音就能触发,或类似语音偶然触发,都会使用户不能接受,担心自己不在家时,台灯或其他家电自行打开,浪费电,甚至造成安全问题。,2019/4/20,39,主要技术参数,额定输入电压: 110-250V 额定输入电流: 2A 额定输出电压: 110-250V 额定输出电流: 2A 使用范围: 8 m 方向性: 任意,2019/4/20,40,语音识别台灯

      《嵌入式语音识别系统课件》由会员F****n分享,可在线阅读,更多相关《嵌入式语音识别系统课件》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.