Actions Semiconductor
人工智能,可以说是今年最热的一个关键词,并推动着很多产品和产业的创新。而提到人工智能,目前主要的还是语音识别和图像识别,这两点也一直是上游芯片原厂和方案商想要突破和创新的技术关卡。本次的TechLife活动交流分享环节,炬芯特邀地平线语音前端处理技术负责人,南京大学声科学与工程系教授,噪声控制与通信声学研究室主任卢晶卢教授,为大家针对智能语音交互的“金耳朵”语音前端处理技术进行了深度分享。据WER统计,目前最顶尖的语音识别技术的误识率是3%,已经与人类听力的误识率持平,但是WER统计大多数针对安静场景的语音数据,在复杂环境中语音性能显著恶化。人耳能够自动屏蔽掉周围的噪音,只关注你想听到的声音;但是机器做不到,在语音识别系统看来所接收到的所有声音重要性都是一样的,无法区分噪音和声音,在复杂环境下语音识别率自然会下降。因此,智能语音技术的发展让语音前端处理的重要性日益凸显。不仅要像手机、蓝牙耳机、助听器的语音前端处理系统一样实现降噪,还要进一步还原语音,让要让机器听得懂,进而提升语音识别和说话人识别系统的实用性和识别率。卢晶卢教授表示,目前对干扰噪音的抑制有单麦克风和麦克风阵列两种方案。其中单通道方案的关键点是噪声功率谱的有效追踪和语音边界检测,也可以基于深度学习的方案提升抑制干扰噪声的能力。单通道方案优点是结构简单,硬件成本低,对平稳噪声效果明显,但弱点是对非平稳噪声处理效果不佳。麦克风阵列由一组按一定几何结构(常用线形、环形)摆放的麦克风组成,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。理论上来说,麦克风数量多多益善,但系统的实现必须考虑性价比。那么,对于开发者来说,该如何平衡语音前端硬件系统的性能和价格呢?卢晶卢教授认为,在一般应用场景,说话人距离3m以内可以采用单麦克风;复杂场景使用2颗;需要DOA估计的复杂场景则需要3-4颗甚至8颗的麦克风。熟悉炬芯的人都知道,炬芯是做音频起家的,最早做MP3,老人机、小音箱等产品。陶永耀表示,炬芯未来三到五年仍将重点聚焦以音频为主线的三大领域,并引入人工智能元素。一是无线音频和智能穿戴运动耳机;二是智能多媒体,将原来的老人机、游戏机、学习机,与人工智能结合形成跨界的产品。三是智慧计算与物联网,包括无人机、VR/AR、OTT盒子等产品。此前,炬芯科技CEO周正宇博士被采访表示,人工智能和物联网概念一样的庞大,如果人工智能像物联网一样不追求产品的落地,它将依然得不到人工智能需要追求实际的产品落地和智能化的用户体验,坚持小步快走的微智能化发展方针才是长久之计。炬芯在此次开发者大会上充分展示了智能语音全面的产品线,正是基于其小步快走的微智能化发展方针的最好实践。
栏目导航
- 永利平台
推荐产品
联系我们
- 电话:
- 手机:
- 地址: