电子游戏软件编辑去向|视频电子游戏
|新一代信息技术 信息基础设施建设 互联网+ 大数据 人工智能 高端信息技术核心产业
|高端制造 航空航天 轨道交通装备 海洋工程装备 新材料
|生物产业 生物医药 生物农业 生物能源
|绿色低碳 清洁能源汽车 新能源 节能技术 环境保护
|数字创意 数创装备 内容创新 设计创新
您的位置:首页 > 新一代信息技术 > 人工智能
智能语音快速发展需跨越三座“大山”
2019-02-21 00:02
来源:中国航空报
字体: [   ]

  谢磊

  语音是语言的物质外壳,是人类区别与其他动物从而能够主宰世界的一?#26234;?#22823;能力,是最直接、高效的信息沟通方式。在万物互联时代,随着机器学习技术的快速发展,大规模场景数据的不断积累,算力的指数级提升,语音逐渐成为人机交互的全新入口。从手机端语音助手到智能音响、智能车载设备……智能语音已经由最初消费者娱?#36136;?#30340;调侃型应用,发展到如今?#23665;?#20915;各?#36136;?#38469;问题的功能性平台。语音技术的赋能(即Speech+),为各个垂直领域开辟出了全新价值。

  数据+算法+算力

  推动智能语音技术飞速发展

  IDC(国际数据公司)最新发布的报告《2019年全球IT产业预测》中指出,AI将成为全新的用户接口,到2024年,支持AI的用户界面和流程自动化将取代?#22771;?#19977;?#31181;?#19968;基于屏幕的应用程序;到2022年, 至少30%的企业将使用会话语音技术进行客户维护工作。

  近年来智能语音技术的飞速发展背后有三个推动力,这三大因素的组合造就了人工智能和智能语音技术的发展:第一,随着互联网技术以及手机等移动终端的普及应用,大量的真实场景和用户语料资源得到积累和沉淀,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,?#27807;?#26500;建大规模语言模型和声学模型成为可能。第二,以深度学习为代表的机器学习和人工智能的发展和突破,?#27807;?#35821;音识别模型对复杂数据的挖掘和学习能力得到了空前的提升,?#27807;?#26356;大规模的海量数据的作用得以充分的发挥。第三,支持大数据和深度学习的大计算能力提升,规模计算能力为技术变革奠定了基础。

  “鲁棒性”、个性化、低资源

  智能语音深化应用需跨越三座大山

  在以上三大助力的赋能之下,智能语音在技术层面已具备根基,但若要在人机交互领域取得绝对性主导地位,抛开语义理解这个挑战不谈,?#22771;?#30340;智能语音发展还面临语音识别“鲁棒性”、个性化、低资源三大主要瓶?#20445;?在性能、成本、智能程度上仍需继续深耕。

  语音识别“鲁棒性”问题。在生物学中,有个术语叫做“鲁棒性?#20445;?#26159;指系统在扰动或不确定的情况下,仍能保持它的特征行为。这一问题在包括语音识别领域在内的众多AI领域也同样存在。

  语音识别整个过程包含语音信号处理、语音检测与增强、声学特征提取、声学建模、语言模型、解码搜索等多个?#26041;凇?#35821;音信号的多样?#38498;?#22797;杂性对每个模块都有影响,因此在真实使用场景中,语音识别的“鲁棒性?#20445;?#31283;健性)是非常重要的挑战。特别是语音交互从近讲走向远讲,场景发生了变化,语音交互跨界声学、信号处理和机器学习三个领域。声学上带来的影响众多,包括声学回波、目标移动、房间混响、各种背景噪音、干扰声源等,语音识别的准确率会大打折扣。

  个性化。基础语音识别和合成效果稳定后,下一步就是?#38750;?#24046;异化或个性化。语音服务应该为每个场景、每个用户来深度定制,提高交互服务的粘合?#21462;?#20363;如,开车导航时,男性就可能?#19981;?#29992;?#31181;?#29618;的声音,女性可能就?#19981;?#29992;岳云鹏的声音。如果语音合成只有一个声音,大家就会觉得很无?#27169;?#22240;此需要做出个性化的声音来满足大家个性化需求,这对技术也有非常大的考验。

  低资源场景的挑战。人工智能行?#30340;?#27969;传一句话:“有多少人工,就有多少智能。”智能语音作为人工智能的重要?#31181;В?#22312;数据标注、计算资源、模型自适应等方面也都需要大量的人力财力投入。如何投入更少的资源来获取更多更有效的成果,也是?#22771;?#26234;能语音技术需要探索的一大重点。

  深度学习+迁移学习+关键?#22987;?#20986;

  迎接智能语音新挑战

  瞄准智能语音技术的三大挑战, 同盾智能语音实验室做了众多探索,包括智能语音降噪、小数据迁移学习、低资源关键?#22987;?#20986;等方面,有效提高了智能语音交互的体验。

  基于深度学习的智能语音降噪。在各?#36136;?#38469;语音交互场景(比如智能?#22836;?#20013;,用户语音不可避免的带?#24615;?#22768;,噪声严重影响语音识别的准确率。传统基于统计信号处理的方法很难解决一些棘手的突发或非平?#20173;?#22768;。通过深度学习的方法,用数据驱动的思路来降噪,借助大数据有效地去学习语音?#22836;?#35821;音之间的结构关系,从而可以获得非常理想的降噪效果。此外,同盾语音团队还尝试把人的“注意力机制”引入到深度学习算法中, 更好地解决突发噪声问题。

  基于深度学习的语音识别说话人自适应。在很多时候,通用语音识别的测?#23472;?#30830;率已经较为理想,但是“千人千音?#20445;?#27599;个人的口音造成了每个人机器语音识别性能的差异。通过深度学习的方法,基于小样本迁移学习,让模型适应不同人的口音,实现通过少量目标说话人数据提升语音识别性能的目标,提升模型效率。

  低资源关键?#22987;?#20986;。关键?#22987;?#20986;是指从一段语音流中检测出关注的部分,在语音内容理解与信息挖掘中具有重要的作用。例如,在智能?#22836;?#23545;话中,通过检测一些关键词,来挖掘用户的需求,理解用户。同样的,智能音箱交互的“?#21483;?#35789;”、命令控制都是属于关键?#22987;?#20986;任务,通过比较轻量级的资源去做关键?#22987;?#20986;,并不断提升关键?#22987;?#20986;的鲁棒?#38498;?#36866;应性,来提高交互准确率。

 

本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所?#23567;?#22914;因无法联系到作者侵犯到您的权益,请与本网站联系,我们将采取?#23454;?#25514;施。

关注微信公众号:

关于我们 | 联系我们 | 广告刊例 | 订阅服务 | 版权声明

地址(Address):?#26412;?#24066;西城区广内大街315号信息大厦B座8-13层(8-13 Floor, IT Center B Block, No.315 GuangNei Street, Xicheng District, Beijing, China)

?#26102;啵?00053 传真:010-63691514 Post Code:100053 Fax:010-63691514

Copyright 中国战略新兴产业网 京ICP备09051002号-3 技术支持:wicep

电子游戏软件编辑去向 中岸水手对广岛三箭 帕尔马87一代 分分彩走势图怎么分析 淘宝快3彩票 体彩p5开奖结结果查询 美人捕鱼游戏下载 皇家贝蒂斯vs比利亚雷亚尔 乐透转轮电子游戏 体彩泳坛夺金玩法 阿尔艾因队