车载语音合成芯片的"多功能"和"大门道"

2020-5-30 9:14:00
  • 罗姆公司高级工程师佘梦怡女士介绍,“我们的语音合成 LSI 全部由硬件组成,对主控 MCU 不会产生负荷,系统在接收到命令之后,5 毫秒内播放语音,另外,芯片中内置有通信接口、逻辑、存储器、放大器,可构建不依赖于主控 MCU 的语音输出系统,并可减少软件设计工时。”

近年来,利用 ADAS(高级驾驶辅助系统)等向行人和搭乘人员告知车辆状态和存在已经变得非常重要,汽车制造商们正在推进语音输出系统的开发,通过音效和语音来发出警告或通知,仔细观察的用户会听出不同品牌的汽车播报时长不同、声音大小也不同。如果从安全角度考虑,警报声的响应速度非常关键。通常汽车播报采用两种控制方式,一种是 MCU 控制,一种是硬件控制。但是随着车载功能的增加,主控 MCU 的负荷越来越重,方案厂商也在试图减轻 MCU 的负担。

罗姆集团旗下的蓝碧石公司最近推出一款新型车载语音合成 LSI --ML2253x 系列,将语音播报功能通过硬件控制,从而将主控 MCU 解放出来。LAPIS 于 2008 年从日本冲电气工业集团分离出来,并入了罗姆集团旗下,2011 年正式更名为蓝碧石半导体股份有限公司。LAPIS 公司有四大核心技术:低功耗技术、高频电路技术、数字模拟混载技术、存储器设计技术,提供独具特色的 LSI 产品和晶圆代工服务。LAPIS 的语音芯片经过 40 多年的发展,全球销量一年 1500 万片,在日本市场排名第一。

响应速度快,抗干扰能力强

通过 MCU 来实现语音输出需要外接主控 MCU、放大器、存储器等元器件,并且需要主控 MCU 的软件支持,而且软件设计非常复杂。主控 MCU 在进行非语音播报事件处理时,可能无法进行语音播报,或者推迟语音播报。

罗姆公司高级工程师佘梦怡女士介绍,“我们的语音合成 LSI 全部由硬件组成,对主控 MCU 不会产生负荷,系统在接收到命令之后,5 毫秒内播放语音,另外,芯片中内置有通信接口、逻辑、存储器、放大器,可构建不依赖于主控 MCU 的语音输出系统,并可减少软件设计工时。”

汽车在行驶中会面临各种噪音干扰,比如仪表盘旁边的 AM 频率干扰会影响 D 类功放,为了尽可能降低干扰,ML22Q53x 系列中配置了 AB 类功放,虽然 AB 类功放没有 D 类功放的效率高,但是抗干扰能力比 D 类功放强。另外,如果客户选用 AVAS(汽车声音警报系统)产品,芯片内置 1W 功放无法满足要求,用户可以将音频输出到外接的 10W 功放进行放大。

故障检测功能:增强系统安全性

随着自动紧急制动系统(AEBS)相关法律法规的实施,以及市场上 ADAS 警告类型增加,用户对车内语音的要求也越来越严苛。车厂不仅要确保常规的车载品质,还必须保整车系统的安全性。因此,ML2253x 系列增加了故障检测功能。

罗姆公司技术中心主管姚玲玲解释,“以前车载系统接到指令后,并无法确定播放系统是否在播,播放的内容是否正确,加入了播放音异常检测功能后,可以检测出模拟电路的异常,并反馈给主控 MCU,还可以检测出在系统端无法确认的语音播放问题,提高了应用的产品品质,随时也确保终端产品的安全性,这个功能作为规避风险预案备受瞩目。”

灵活配置Flash,通过MCU实现擦写

ML2253x 系列包括两种产品,一种内置 FLASH 的 M22Q53x 系列,Flash 大小提供 2M、4M、16M 三种可选,内部 FLASH 可擦写的次数是 100 次;另外一种是外置存储器的 ML22530 系列,最大可以扩到 128M。

佘梦怡表示,“该芯片可通过主控 MCU 进行 FLASH 的改写,可在开发中进行修改数据,即便是在终端产品上也可以通过主控 MCU 进行一个数据修改,既便捷又灵活。”

算法压缩方式独特,音效音质有保障

ML2253x 系列支持 HQ-ADPCM 的算法压缩方式,据介绍,这一算法是由蓝碧石半导体公司联合日本九州工业大学共同开发,可以保持高音质和音效的同时,进行一个高压缩率的算法。相对 ADPCM 算法、非线性 PCM 以及 PCM 算法,它的压缩率可以对比原文压缩到五分之一的大小,用户更加节省存储空间,从而节省成本。

佘梦怡解释,“我们的芯片采样频率是从 6.4K 到 48K,其中 48K 可以媲美 CD 的音质,而且每一段语音都可以设置不同的采样频率。同样是 6.4K 的采样频率,采用 HQ-ADPCM 算法的最长播放时间在 128M 时可以达到 6541 秒,内置 2M Flash 也可以达到 90 秒。采用 HQ-ADPCM 方式还原后,很多硬件可以进行算法补充,在实际播放时存在 FLASH 的容量最多达到 40 倍的数据量,比如 5 个字节的数据可以扩展到 200 个字节,数据量越多,语音表现越好。”

为了满足音频输出需求,芯片设有 SPI 和 I2C 两种接口,每个通道同时支持四通道混音后从一通道输出,可以在不同的通道选择不同的语音,比如音乐、语音可以从不同的通道播放。在进行播放输出时虽然只有一通道输出,但音源可以选择两通道混音、四通道混音、有背景音乐等不同的选项单独播放。

一站式解决方案

关于实际应用,佘梦怡认为,“ML22Q53x 和 ML22530 适用于快速发声场合,对于汽车的定位或者类型没有特殊要求。区别是带 Q 的有内置 FLASH,不带 Q 的客户可以外接 FLASH,比较灵活。目前,在日本本土已经有一些知名厂商在评估、测试阶段,国内有一些客户开始做前期测试,我们的产品 4 月份出样品,在 8 月会量产。”

在客户进行开发时,罗姆可以提供整套开发套件,开发套件的硬件部分包含声音控制板、SDCB3 板,不同型号对应不同的烧写板,两块板子连起来后,用户可以连接电脑、连接扬声器等一些硬件进行播放,同时罗姆提供一个自主研发的软件 Speech LSI Utility,可以进行波形编辑、短语编辑试听,生成工程文件、烧写芯片等研发必备功能。

『本文转载自网络,版权归原作者所有,如有侵权请联系删除』