VOI611 离线语音模块测试规范

本标准规定了VOI611语音模组识别效果及性能测试的术语、定义、测试相关说明（包括测试技术要求、测试指标、测试项目、测试内容、测试设备和测试环境）、测试方法、步骤、以及测试结果报告。

1.测试内容

2.测试要求

2.1 约束与限制

VOI611语音模组默认语音输入满足以下准则:

输入语音为普通话
语音输入为120字/min~300字/min, 单次语音输入时长不超过30s
发音单元的持续时间大于或等于0.2s, 发音单元间隔时间不超1s,如果停顿时间超过1s,则认为一次语音输入结果

2.2 测试语料要求

语料库中发音人的选择应该在符合系统对发音人限制的条件下，选择具有代表性和统计分布规律的发音人，应该考虑不同性别、不同语速、不同教育背景、不同发音韵律等因素。且必须满足如下基本要求：

普通话唤醒词语料至少包括男女各50名及以上发音人
普通话识别率测试语料至少包括男女各30名及以上发音人
中文标准普通话要求在二级乙等及以上

这部分语音，我们称为基本样本集。
选择测试语音后，所有待测的语音需要进行音量标准化处理。

2.3 测试设备要求

2.3.1 测试房间的要求

房间大小：(6.8±1.0)m * (4.1±0.5)m * (2.6±0.3)m
混响时间：0.2s<混响时间<0.7s (频率125Hz~8kHz)
底噪：<30dBSPL(A)

2.3.1 音频采样设备的要求

图1 - 音频采样设备要求 module_a

图2 - 传声器的参数要求 module_a

图3 - 音频回放设备的要求 module_a

图4- 声压计的要求 module_a

2.4 测试场景设计

如产品需求中对场景无特殊要求，根据产品的应该场景可按如下的典型环境噪声进行测试环境的布置

2.4.1 家居环境

家居环境包含卧室环境、客厅环境、厨房环境、卫浴环境、阳台环境等

噪声
测试场景采用真实家居环境噪声或模拟家居的环境噪声，分为低噪和高噪环境，要求噪音频谱保持稳定且噪声与命令词无类似发音

图5- 典型的家居环境噪声 module_a

远近场距离要求

近场： 1 米及以下
远场：默认为 3 米

2.4.2 车载环境

车载环境为车内空间，包含车辆行驶和熄火状态、开窗及关闭状态等

噪声

图7- 典型的车载环境噪声 module_a

距离要求

若产品安于顶灯位置，拾音与声源距离应为 40cm
若产品安于中控台，拾音与声源距离为 70cm
若产品安于其它位置，根据需求来确定距离

2.5 其它特定的环境

其它环境下的测试如下表所示。根据产品需要，可适当进行裁剪

图8- 其它场景 module_a

2.6 测试方法

2.6.1 基于语料库的自动测试方法

根据测试要求，构建不同的测试场景，通过人工嘴把测试集中的语音输出到被测设备, 电脑根据识别结果自动进行结果分析和统计, 在测试前需要注意以下内容:

测试设备的摆放

播放语音的人工嘴根据测试要求放置于测试房间的相应位置
播放噪声的音响放置于被测设备前方 1m 斜 135 度

图9- 测试场景示意图 module_a

被测设备的 MIC 正对着位于 90 度的播放语音的音响方向
需要注意：

人工嘴或音响四周与墙面的距离均>=0.5m
被测语音模块四周与墙面的距离均>=0.5m

测量和调节环境声压

使用声压计的方法：选择声压计的"slow"/"A"档位，手持声压计，将声压计的探头靠近被测设备的麦克风阵列的中心处进行测试。读取底噪或稳态噪声声压时，声压计的读数稳定至少需要 10s 及以上。读取语音声压时，声压计的读数取播放这段语音时的最大值
调节人工嘴/音响播放的声压：确保测试环境内无其它音源。令电脑系统音量为最小值，设置音响音量控制为最大值的 75%，设置电脑上播放器音量为最大。之后播放音频文件，调节电脑音量直到声压计读数达到预期值。记录电脑系统的音量值

2.6.2 语音唤醒及命令词识别率测试

据测试场景搭建测试环境后，将被测试设备调至待命状态，使用人工嘴、音响在相应距离下播放测试语音和噪声。根据被测试设备串口的输出信息，记录不同噪声环境下是否能给出正确响应，分别统计低噪环境和高噪环境下唤醒正确率

图10- 典型安静环境下唤醒识别测试示意图 module_a

2.6.3 误唤醒频度测试

放置音响于被测设备前方斜 45 度 1m 处。根据被测试设备串口的输出信息，记录 8 小时静音、 8 小时播放电视、 8 小时连续的人声负样本情况下板卡是否有响应信息，统计 24 小时被测设备被唤醒的次数，得到误唤醒频度值。

2.6.4 响应时间及实时系数测试

放置人工嘴于被测设备正前方 1m，在被测设备旁放置并开启录音设备。
在安静和噪声环境下，使用人工嘴唤醒词条和命令词各播放 10 条语音。

图11- 响应时间及实时系数测试环境示意图 module_a

分析录音设备录制的文件，记录一次识别过程中的发音时间 Ts、发音结束时间 Te、识别结果时间 Tr。如下图。计算各个词的响应时间= Tr-Te, 平均实时系数= (Tr-Ts)/(Te-Ts)

图12- 实时系数计算示意图 module_a

2.6.4 现场口呼的测试

现场口呼测试的结果包括唤醒率、命令词识别率、平均意见得分。
测试要求：

选择 6 个发音人，要求：标准普通话， 18-60 岁之间，男女各一半。
在测试环境中进行测试。
每个测试发音人需要朗读所有的唤醒词和命令词至少 2 遍。
需要 2 个以上识别结果记录者，记录被测设备对当前发音的输出结果。 (记录表包括发音人、记录人、操作人、监督人、发音内容、语音识别结果等)
全部发音人测试结束后，统一按照运行过程流畅性进行主观的指标评估。 (评估至少有 2人以上参与)

2.7 测试结果要求

2.7.1 包含的内容

测试报告中应包括下述指标的测试结果

语音唤醒正确率
语音唤醒误唤醒频度
命令词识别率
离线平均响应系数
口呼测试中对识别结果和运行过程流畅性的平均意见得分(满分 5 分)

2.7.2 语音识别指标要求

如果在产品需求中无特殊说明，应满足如下要求：

家居类产品语音识别要求:

远场低噪家居环境下，唤醒成功率应大于或等于 95%，误唤醒频度应小于或等于 0.2 次/h,命令词识别正确率应大于或等于 90%
远场高噪家居环境下，唤醒成功率应大于或等于 90%，误唤醒频度应小于或等于 0.2 次/h,命令词识别正确率应大于或等于 85%
响应时间小于 2s 且实时系数不大于 1.5
语音识别产品的主观平均意见得分(总分 5 分)不小于 3.5 分。
1m 距离下，信噪比>20db 的条件下唤醒率应不低于 98%，误唤醒频度不应高于 0.1 次/h，命令词识别正确率大于或等于 95%

车载识别结果要求：

场景一的唤醒率应不低于 95%，误唤醒频度不应高于 0.5 次/h，命令词识别正确率大于或等于 90%
场景二的唤醒率应不低于 92%，误唤醒频度不应高于 0.5 次/h，命令词识别正确率大于或等于 88%
场景三的唤醒率应不低于 90%，误唤醒频度不应高于 0.5 次/h，命令词识别正确率大于或等于 85%
响应时间小于 2s 且实时系数不大于 1.5
语音识别产品的主观平均意见得分(总分 5 分)不小于 3.5 分。
1m 距离下，信噪比>20db 的条件下唤醒率应不低于 98%，误唤醒频度不应高于 0.5 次/h，命令词识别正确率大于或等于 95%

其它环境下识别结果要求(针对在 2.5 章节的环境下进行的测试)：

唤醒率应不低于 90%，误唤醒频度不应高于 0.5 次/h，命令词识别正确率大于或等于 85%
响应时间小于 2s 且实时系数不大于 1.5
语音识别产品的主观平均意见得分(总分 5 分)不小于 3.5 分。

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search