VOI611 离线语音模块测试规范
本标准规定了VOI611语音模组识别效果及性能测试的术语、定义、测试相关说明(包括测试技术要求、测试指标、测试项目、测试内容、测试设备和测试环境)、测试方法、步骤、以及测试结果报告。
1.测试内容
2.测试要求
2.1 约束与限制
VOI611语音模组默认语音输入满足以下准则:
- 输入语音为普通话
- 语音输入为120字/min~300字/min, 单次语音输入时长不超过30s
- 发音单元的持续时间大于或等于0.2s, 发音单元间隔时间不超1s,如果停顿时间超过1s,则认为一次语音输入结果
2.2 测试语料要求
语料库中发音人的选择应该在符合系统对发音人限制的条件下,选择具有代表性和统计分布规律的发音人,应该考虑不同性别、不同语速、不同教育背景、不同发音韵律等因素。且必须满足如下基本要求:
- 普通话唤醒词语料至少包括男女各50名及以上发音人
- 普通话识别率测试语料至少包括男女各30名及以上发音人
- 中文标准普通话要求在二级乙等及以上
这部分语音,我们称为基本样本集。
选择测试语音后,所有待测的语音需要进行音量标准化处理。
2.3 测试设备要求
2.3.1 测试房间的要求
- 房间大小:(6.8±1.0)m * (4.1±0.5)m * (2.6±0.3)m
- 混响时间:0.2s<混响时间<0.7s (频率125Hz~8kHz)
- 底噪:<30dBSPL(A)
2.3.1 音频采样设备的要求
2.4 测试场景设计
如产品需求中对场景无特殊要求, 根据产品的应该场景可按如下的典型环境噪声进行测试环境的布置
2.4.1 家居环境
家居环境包含卧室环境、 客厅环境、 厨房环境、 卫浴环境、 阳台环境等
噪声
测试场景采用真实家居环境噪声或模拟家居的环境噪声, 分为低噪和高噪环境, 要求噪音频谱保持稳定且噪声与命令词无类似发音
远近场距离要求
- 近场: 1 米及以下
- 远场: 默认为 3 米
2.4.2 车载环境
车载环境为车内空间, 包含车辆行驶和熄火状态、 开窗及关闭状态等
噪声
距离要求
- 若产品安于顶灯位置, 拾音与声源距离应为 40cm
- 若产品安于中控台, 拾音与声源距离为 70cm
- 若产品安于其它位置, 根据需求来确定距离
2.5 其它特定的环境
其它环境下的测试如下表所示。 根据产品需要, 可适当进行裁剪
2.6 测试方法
2.6.1 基于语料库的自动测试方法
根据测试要求, 构建不同的测试场景, 通过人工嘴把测试集中的语音输出到被测设备, 电脑根据识别结果自动进行结果分析和统计, 在测试前需要注意以下内容:
测试设备的摆放
- 播放语音的人工嘴根据测试要求放置于测试房间的相应位置
- 播放噪声的音响放置于被测设备前方 1m 斜 135 度
被测设备的 MIC 正对着位于 90 度的播放语音的音响方向
需要注意:
- 人工嘴或音响四周与墙面的距离均>=0.5m
- 被测语音模块四周与墙面的距离均>=0.5m
测量和调节环境声压
- 使用声压计的方法: 选择声压计的"slow"/"A"档位, 手持声压计, 将声压计的探头靠近被测设备的麦克风阵列的中心处进行测试。 读取底噪或稳态噪声声压时, 声压计的读数稳定至少需要 10s 及以上。 读取语音声压时, 声压计的读数取播放这段语音时的最大值
- 调节人工嘴/音响播放的声压: 确保测试环境内无其它音源。 令电脑系统音量为最小值, 设置音响音量控制为最大值的 75%, 设置电脑上播放器音量为最大。 之后播放音频文件,调节电脑音量直到声压计读数达到预期值。 记录电脑系统的音量值
2.6.2 语音唤醒及命令词识别率测试
据测试场景搭建测试环境后, 将被测试设备调至待命状态, 使用人工嘴、 音响在相应距离下播放测试语音和噪声。 根据被测试设备串口的输出信息, 记录不同噪声环境下是否能给出正确响应, 分别统计低噪环境和高噪环境下唤醒正确率
2.6.3 误唤醒频度测试
放置音响于被测设备前方斜 45 度 1m 处。 根据被测试设备串口的输出信息, 记录 8 小时静音、 8 小时播放电视、 8 小时连续的人声负样本情况下板卡是否有响应信息, 统计 24 小时被测设备被唤醒的次数, 得到误唤醒频度值。
2.6.4 响应时间及实时系数测试
放置人工嘴于被测设备正前方 1m, 在被测设备旁放置并开启录音设备。
在安静和噪声环境下, 使用人工嘴唤醒词条和命令词各播放 10 条语音。
分析录音设备录制的文件, 记录一次识别过程中的发音时间 Ts、 发音结束时间 Te、 识别结果时间 Tr。 如下图。 计算各个词的响应时间= Tr-Te, 平均实时系数= (Tr-Ts)/(Te-Ts)
2.6.4 现场口呼的测试
现场口呼测试的结果包括唤醒率、 命令词识别率、 平均意见得分。
测试要求:
- 选择 6 个发音人, 要求: 标准普通话, 18-60 岁之间, 男女各一半。
- 在测试环境中进行测试。
- 每个测试发音人需要朗读所有的唤醒词和命令词至少 2 遍。
- 需要 2 个以上识别结果记录者, 记录被测设备对当前发音的输出结果。 (记录表包括发音人、 记录人、 操作人、 监督人、 发音内容、 语音识别结果等)
- 全部发音人测试结束后, 统一按照运行过程流畅性进行主观的指标评估。 (评估至少有 2人以上参与)
2.7 测试结果要求
2.7.1 包含的内容
测试报告中应包括下述指标的测试结果
- 语音唤醒正确率
- 语音唤醒误唤醒频度
- 命令词识别率
- 离线平均响应系数
- 口呼测试中对识别结果和运行过程流畅性的平均意见得分(满分 5 分)
2.7.2 语音识别指标要求
如果在产品需求中无特殊说明, 应满足如下要求:
家居类产品语音识别要求:
- 远场低噪家居环境下, 唤醒成功率应大于或等于 95%, 误唤醒频度应小于或等于 0.2 次/h,命令词识别正确率应大于或等于 90%
- 远场高噪家居环境下, 唤醒成功率应大于或等于 90%, 误唤醒频度应小于或等于 0.2 次/h,命令词识别正确率应大于或等于 85%
- 响应时间小于 2s 且实时系数不大于 1.5
- 语音识别产品的主观平均意见得分(总分 5 分)不小于 3.5 分。
- 1m 距离下, 信噪比>20db 的条件下唤醒率应不低于 98%, 误唤醒频度不应高于 0.1 次/h, 命令词识别正确率大于或等于 95%
车载识别结果要求:
- 场景一的唤醒率应不低于 95%, 误唤醒频度不应高于 0.5 次/h, 命令词识别正确率大于或等于 90%
- 场景二的唤醒率应不低于 92%, 误唤醒频度不应高于 0.5 次/h, 命令词识别正确率大于或等于 88%
- 场景三的唤醒率应不低于 90%, 误唤醒频度不应高于 0.5 次/h, 命令词识别正确率大于或等于 85%
- 响应时间小于 2s 且实时系数不大于 1.5
- 语音识别产品的主观平均意见得分(总分 5 分)不小于 3.5 分。
- 1m 距离下, 信噪比>20db 的条件下唤醒率应不低于 98%, 误唤醒频度不应高于 0.5 次/h, 命令词识别正确率大于或等于 95%
其它环境下识别结果要求(针对在 2.5 章节的环境下进行的测试):
- 唤醒率应不低于 90%, 误唤醒频度不应高于 0.5 次/h, 命令词识别正确率大于或等于 85%
- 响应时间小于 2s 且实时系数不大于 1.5
- 语音识别产品的主观平均意见得分(总分 5 分)不小于 3.5 分。