思必驰通话降噪与语音交互解决方案

「TWS ASIA 亚洲蓝牙耳机展」是我爱音频网发起主办的一项推广蓝牙音频产业的活动，目前已经连续举办11届。

多年来我爱音频网发起主办的蓝牙音频行业峰会，获得了1000多家企业和30000多名工程师热情参与。此次大会共邀请了21位行业内的大咖，为大家分享最新的行业资讯及产品技术。

今天我爱音频网跟大家一起回顾嘉宾在活动会上的演讲内容。

演讲嘉宾：

思必驰科技股份有限公司

智能穿戴产品总监：董芳芳

演讲主题：

《思必驰通话降噪与语音交互解决方案》

思必驰是国内领先的对话式人工智能平台公司，拥有全链路的智能语音语言技术，自主研发新一代人机交互平台（DUI），和人工智能芯片（TH1520）；为车联网、IoT 及众多行业场景合作伙伴提供自然语言交互解决方案，不断丰富后端资源，满足用户多样化需求，沟通万物、打理万事。

董芳芳女士，现任智能穿戴产品负责人，全程参与智能穿戴设备的行业洞察、市场调研、算法研发与产品落地工作，从事AI语音行业5年以来，曾负责OPPO/VIVO/华为/荣耀/小米/步步高/优学派/联想/京东方等数十家头部客户的项目管理工作，拥有丰富的语音产品落地经验。

在本次演讲中，董芳芳女士分享了思必驰的产品和技术、智能穿戴领域的趋势，包括思必驰的通话降噪方案、思必驰可以为穿戴设备提供差异化能力加持，以及全链路语音交互方案等内容。

以下是演讲PPT的详细内容：

针对TWS蓝牙耳机的技术发展趋势，董芳芳总结为八个关键词，分别是高清音质、通话降噪、主动降噪、透传助听、空间音频、低延迟、健康监测和智能语音等。

1. 高清音质

因为耳机更多的时候还是听音乐，在音质上的追求更加极致，无论是声学设计，选择动圈，动铁，圈铁，还是在码率上，从之前的16k，向48k，甚至96k发展。

2. 通话降噪

通话作为耳机的TOP3功能，为了解决行业内大风噪和高噪声场景的问题，通话降噪算法开始从单麦，双麦，三麦，到现在的四麦方案。

3. 主动降噪

现在主动降噪也逐渐成为标配，搭载主动降噪的耳机价格也在逐渐下沉，但是如何平衡降噪效果与佩戴舒适度，比如半入耳耳机也降噪，如何智能识别该降噪的时候降噪，该通透的时候通透也是行业重点关注的。

4. 透传助听

其实主要是人声增强，包括在增强人声的时候噪声不要被增强的特别明显，对一些听力受损的人根据听力曲线按照分频进行动态增益。

5. 空间音频

现在都追求沉浸式体验，以前是在电影院才能体验到360度的环绕音效，现在将空间音频搬到了TWS耳机，让用户足不出户就可以体验极致的音效体验。

6. 低延时

TWS耳机的延时正常使用都是比较高的，比如一般>150ms。听音乐打电话一般不影响。但是现在在看直播，直播的时候，如果延时太大，会出现音视频不同步的问题，在游戏领域就对延时有着更高的要求。

7. 健康检测

TWS耳机因为佩戴时与人体直接接触，且佩戴时间比较长。目前，一些厂家开始考虑整合GPS，心率传感器，血氧等传感器等，使得用户可以随时记录自己的健康状况，这也使得耳机的穿戴属性更加显著。

8. 智能语音

从近两年开始，我们感受到了智能语音在TWS耳机行业越来越被关注，厂家从拒绝到接受，从基础命令到全链路对话交互的需求升级，技术也在不断迭代，思必驰作为国内专业的对话式人工智能平台公司，除了为TWS耳机厂家提供低功耗唤醒和离线命令词外，还增加了骨传导声纹、转写翻译、小语种和方言识别等技术拓展。

结合行业趋势，思必驰为穿戴设备提供4种差异化能力加持，分别为情境感知、智慧降噪、听感优化和智能语音。

情感感知：

让耳机就像我们的器官一样，可以感知我们所处的环境，感知情境的变化，从而智能的帮用户做出判断，主要支持以下四种能力，包括识别噪声等级、当前场景、本人说话的状态，以及特殊的声音事件，这些能力可以用于耳机根据情境的变化进行动态切换降噪等级，与主动降噪和通话降噪结合。

智慧降噪：

思必驰的通话降噪算法是基于传统信号处理+VDCNN深度神经网络模型相融合，结合芯片的加速核进行优化，在有限的资源下达到消除生活中的稳态、非稳态、瞬时和职业等噪声最佳的效果，保证更好的通话效果。

听感优化：

听力增强与通话降噪的差别是，通话降噪是近端收音，远端放音，即使延时200ms，远端的人是不一定感受到；而听力增强是近端收音，近端放音，如果延时大于20ms用户就会听到两个声音。思必驰实现低延时的基础上，还实现动态增益、动态降噪以及啸叫抑制三大核心算法。

智能语音：

思必驰基于行业内的主流芯片上，思必驰移植了人声检测、低功耗唤醒、骨声纹唤醒等算法，同时支持在小芯片上直接集成TTS资源，实现非固定文本的离线语音播报，耳机被语音唤醒后，可通过手机，实现方言识别、语音转写翻译、智能家居控制等功能。

思必驰对耳机为什么需要智能语音给出了答案，智能语音能够实现连接手机、人机交互，解放双手，另外语音帮助耳机从放音设备升级为数据采集设备。

思必驰提供全链路端到端的语音解决方案，已经完成芯片端，耳机端，APP端整体协议对接，基于行业主流的低功耗芯片，移植超低功耗的人声检测VAD和唤醒模型，支持骨传导声纹唤醒，另外基于芯片实现非固定文本的离线语音播报，一方面，通过HFP协议对接手机自带的语音助手，包括Siri和安卓系，另一方面也可以支持直接通过私有协议与客户自己的APP进行对接，通过调用思必驰云端能力，帮助耳机实现方言识别，实时转写翻译，角色分离，甚至智能家居控制等技能。无论是唤醒率的性能，还是资源占用与功耗的性能，思必驰的算法表现都非常优秀。

除此之外，为了满足更多的离线语音需求，思必驰还支持了1600词的固定和非固定的文本说法，满足耳机在离线场景下的大部分应用，最重要的资源占用极低，大部分平台均可适配。