车载语音合成芯片的"多功能"和"大门道"-114ic电子网

车载语音合成芯片的"多功能"和"大门道"

2020-5-30 9:14:00

罗姆公司高级工程师佘梦怡女士介绍，“我们的语音合成 LSI 全部由硬件组成，对主控 MCU 不会产生负荷，系统在接收到命令之后，5 毫秒内播放语音，另外，芯片中内置有通信接口、逻辑、存储器、放大器，可构建不依赖于主控 MCU 的语音输出系统，并可减少软件设计工时。”

近年来，利用 ADAS（高级驾驶辅助系统）等向行人和搭乘人员告知车辆状态和存在已经变得非常重要，汽车制造商们正在推进语音输出系统的开发，通过音效和语音来发出警告或通知，仔细观察的用户会听出不同品牌的汽车播报时长不同、声音大小也不同。如果从安全角度考虑，警报声的响应速度非常关键。通常汽车播报采用两种控制方式，一种是 MCU 控制，一种是硬件控制。但是随着车载功能的增加，主控 MCU 的负荷越来越重，方案厂商也在试图减轻 MCU 的负担。

罗姆集团旗下的蓝碧石公司最近推出一款新型车载语音合成 LSI --ML2253x 系列，将语音播报功能通过硬件控制，从而将主控 MCU 解放出来。LAPIS 于 2008 年从日本冲电气工业集团分离出来，并入了罗姆集团旗下，2011 年正式更名为蓝碧石半导体股份有限公司。LAPIS 公司有四大核心技术：低功耗技术、高频电路技术、数字模拟混载技术、存储器设计技术，提供独具特色的 LSI 产品和晶圆代工服务。LAPIS 的语音芯片经过 40 多年的发展，全球销量一年 1500 万片，在日本市场排名第一。

响应速度快，抗干扰能力强

通过 MCU 来实现语音输出需要外接主控 MCU、放大器、存储器等元器件，并且需要主控 MCU 的软件支持，而且软件设计非常复杂。主控 MCU 在进行非语音播报事件处理时，可能无法进行语音播报，或者推迟语音播报。

罗姆公司高级工程师佘梦怡女士介绍，“我们的语音合成 LSI 全部由硬件组成，对主控 MCU 不会产生负荷，系统在接收到命令之后，5 毫秒内播放语音，另外，芯片中内置有通信接口、逻辑、存储器、放大器，可构建不依赖于主控 MCU 的语音输出系统，并可减少软件设计工时。”

汽车在行驶中会面临各种噪音干扰，比如仪表盘旁边的 AM 频率干扰会影响 D 类功放，为了尽可能降低干扰，ML22Q53x 系列中配置了 AB 类功放，虽然 AB 类功放没有 D 类功放的效率高，但是抗干扰能力比 D 类功放强。另外，如果客户选用 AVAS(汽车声音警报系统)产品，芯片内置 1W 功放无法满足要求，用户可以将音频输出到外接的 10W 功放进行放大。

故障检测功能：增强系统安全性

随着自动紧急制动系统（AEBS）相关法律法规的实施，以及市场上 ADAS 警告类型增加，用户对车内语音的要求也越来越严苛。车厂不仅要确保常规的车载品质，还必须保整车系统的安全性。因此，ML2253x 系列增加了故障检测功能。

罗姆公司技术中心主管姚玲玲解释，“以前车载系统接到指令后，并无法确定播放系统是否在播，播放的内容是否正确，加入了播放音异常检测功能后，可以检测出模拟电路的异常，并反馈给主控 MCU，还可以检测出在系统端无法确认的语音播放问题，提高了应用的产品品质，随时也确保终端产品的安全性，这个功能作为规避风险预案备受瞩目。”

灵活配置Flash，通过MCU实现擦写

ML2253x 系列包括两种产品，一种内置 FLASH 的 M22Q53x 系列，Flash 大小提供 2M、4M、16M 三种可选，内部 FLASH 可擦写的次数是 100 次；另外一种是外置存储器的 ML22530 系列，最大可以扩到 128M。

佘梦怡表示，“该芯片可通过主控 MCU 进行 FLASH 的改写，可在开发中进行修改数据，即便是在终端产品上也可以通过主控 MCU 进行一个数据修改，既便捷又灵活。”

算法压缩方式独特，音效音质有保障

ML2253x 系列支持 HQ-ADPCM 的算法压缩方式，据介绍，这一算法是由蓝碧石半导体公司联合日本九州工业大学共同开发，可以保持高音质和音效的同时，进行一个高压缩率的算法。相对 ADPCM 算法、非线性 PCM 以及 PCM 算法，它的压缩率可以对比原文压缩到五分之一的大小，用户更加节省存储空间，从而节省成本。

佘梦怡解释，“我们的芯片采样频率是从 6.4K 到 48K，其中 48K 可以媲美 CD 的音质，而且每一段语音都可以设置不同的采样频率。同样是 6.4K 的采样频率，采用 HQ-ADPCM 算法的最长播放时间在 128M 时可以达到 6541 秒，内置 2M Flash 也可以达到 90 秒。采用 HQ-ADPCM 方式还原后，很多硬件可以进行算法补充，在实际播放时存在 FLASH 的容量最多达到 40 倍的数据量，比如 5 个字节的数据可以扩展到 200 个字节，数据量越多，语音表现越好。”

为了满足音频输出需求，芯片设有 SPI 和 I2C 两种接口，每个通道同时支持四通道混音后从一通道输出，可以在不同的通道选择不同的语音，比如音乐、语音可以从不同的通道播放。在进行播放输出时虽然只有一通道输出，但音源可以选择两通道混音、四通道混音、有背景音乐等不同的选项单独播放。

一站式解决方案

关于实际应用，佘梦怡认为，“ML22Q53x 和 ML22530 适用于快速发声场合，对于汽车的定位或者类型没有特殊要求。区别是带 Q 的有内置 FLASH，不带 Q 的客户可以外接 FLASH，比较灵活。目前，在日本本土已经有一些知名厂商在评估、测试阶段，国内有一些客户开始做前期测试，我们的产品 4 月份出样品，在 8 月会量产。”

在客户进行开发时，罗姆可以提供整套开发套件，开发套件的硬件部分包含声音控制板、SDCB3 板，不同型号对应不同的烧写板，两块板子连起来后，用户可以连接电脑、连接扬声器等一些硬件进行播放，同时罗姆提供一个自主研发的软件 Speech LSI Utility，可以进行波形编辑、短语编辑试听，生成工程文件、烧写芯片等研发必备功能。

『本文转载自网络，版权归原作者所有，如有侵权请联系删除』

车载语音合成芯片的"多功能"和"大门道"

行业新闻

企业新闻

经营管理

行业标准