VOI611 离线语音模块测试规范

本标准规定了VOI611语音模组识别效果及性能测试的术语、定义、测试相关说明(包括测试技术要求、测试指标、测试项目、测试内容、测试设备和测试环境)、测试方法、步骤、以及测试结果报告。


1.测试内容



module_a

2.测试要求


2.1 约束与限制

VOI611语音模组默认语音输入满足以下准则:

  • 输入语音为普通话
  • 语音输入为120字/min~300字/min, 单次语音输入时长不超过30s
  • 发音单元的持续时间大于或等于0.2s, 发音单元间隔时间不超1s,如果停顿时间超过1s,则认为一次语音输入结果

2.2 测试语料要求

语料库中发音人的选择应该在符合系统对发音人限制的条件下,选择具有代表性和统计分布规律的发音人,应该考虑不同性别、不同语速、不同教育背景、不同发音韵律等因素。且必须满足如下基本要求:

  • 普通话唤醒词语料至少包括男女各50名及以上发音人
  • 普通话识别率测试语料至少包括男女各30名及以上发音人
  • 中文标准普通话要求在二级乙等及以上

这部分语音,我们称为基本样本集。
选择测试语音后,所有待测的语音需要进行音量标准化处理。

2.3 测试设备要求

2.3.1 测试房间的要求

  • 房间大小:(6.8±1.0)m * (4.1±0.5)m * (2.6±0.3)m
  • 混响时间:0.2s<混响时间<0.7s (频率125Hz~8kHz)
  • 底噪:<30dBSPL(A)

2.3.1 音频采样设备的要求

图1 - 音频采样设备要求
module_a

图2 - 传声器的参数要求
module_a

图3 - 音频回放设备的要求
module_a

图4- 声压计的要求
module_a

2.4 测试场景设计

如产品需求中对场景无特殊要求, 根据产品的应该场景可按如下的典型环境噪声进行测试环境的布置

2.4.1 家居环境

家居环境包含卧室环境、 客厅环境、 厨房环境、 卫浴环境、 阳台环境等

噪声
测试场景采用真实家居环境噪声或模拟家居的环境噪声, 分为低噪和高噪环境, 要求噪音频谱保持稳定且噪声与命令词无类似发音

图5- 典型的家居环境噪声
module_a

远近场距离要求

  • 近场: 1 米及以下
  • 远场: 默认为 3 米

2.4.2 车载环境

车载环境为车内空间, 包含车辆行驶和熄火状态、 开窗及关闭状态等

噪声

图7- 典型的车载环境噪声
module_a

距离要求

  • 若产品安于顶灯位置, 拾音与声源距离应为 40cm
  • 若产品安于中控台, 拾音与声源距离为 70cm
  • 若产品安于其它位置, 根据需求来确定距离

2.5 其它特定的环境

其它环境下的测试如下表所示。 根据产品需要, 可适当进行裁剪

图8- 其它场景
module_a

2.6 测试方法

2.6.1 基于语料库的自动测试方法

根据测试要求, 构建不同的测试场景, 通过人工嘴把测试集中的语音输出到被测设备, 电脑根据识别结果自动进行结果分析和统计, 在测试前需要注意以下内容:

测试设备的摆放

  • 播放语音的人工嘴根据测试要求放置于测试房间的相应位置
  • 播放噪声的音响放置于被测设备前方 1m 斜 135 度

图9- 测试场景示意图
module_a

被测设备的 MIC 正对着位于 90 度的播放语音的音响方向
需要注意:

  • 人工嘴或音响四周与墙面的距离均>=0.5m
  • 被测语音模块四周与墙面的距离均>=0.5m

测量和调节环境声压

  • 使用声压计的方法: 选择声压计的"slow"/"A"档位, 手持声压计, 将声压计的探头靠近被测设备的麦克风阵列的中心处进行测试。 读取底噪或稳态噪声声压时, 声压计的读数稳定至少需要 10s 及以上。 读取语音声压时, 声压计的读数取播放这段语音时的最大值
  • 调节人工嘴/音响播放的声压: 确保测试环境内无其它音源。 令电脑系统音量为最小值, 设置音响音量控制为最大值的 75%, 设置电脑上播放器音量为最大。 之后播放音频文件,调节电脑音量直到声压计读数达到预期值。 记录电脑系统的音量值

2.6.2 语音唤醒及命令词识别率测试

据测试场景搭建测试环境后, 将被测试设备调至待命状态, 使用人工嘴、 音响在相应距离下播放测试语音和噪声。 根据被测试设备串口的输出信息, 记录不同噪声环境下是否能给出正确响应, 分别统计低噪环境和高噪环境下唤醒正确率

图10- 典型安静环境下唤醒识别测试示意图
module_a

2.6.3 误唤醒频度测试

放置音响于被测设备前方斜 45 度 1m 处。 根据被测试设备串口的输出信息, 记录 8 小时静音、 8 小时播放电视、 8 小时连续的人声负样本情况下板卡是否有响应信息, 统计 24 小时被测设备被唤醒的次数, 得到误唤醒频度值。

2.6.4 响应时间及实时系数测试

放置人工嘴于被测设备正前方 1m, 在被测设备旁放置并开启录音设备。
在安静和噪声环境下, 使用人工嘴唤醒词条和命令词各播放 10 条语音。

图11- 响应时间及实时系数测试环境示意图
module_a

分析录音设备录制的文件, 记录一次识别过程中的发音时间 Ts、 发音结束时间 Te、 识别结果时间 Tr。 如下图。 计算各个词的响应时间= Tr-Te, 平均实时系数= (Tr-Ts)/(Te-Ts)

图12- 实时系数计算示意图
module_a

2.6.4 现场口呼的测试

现场口呼测试的结果包括唤醒率、 命令词识别率、 平均意见得分。
测试要求:

  • 选择 6 个发音人, 要求: 标准普通话, 18-60 岁之间, 男女各一半。
  • 在测试环境中进行测试。
  • 每个测试发音人需要朗读所有的唤醒词和命令词至少 2 遍。
  • 需要 2 个以上识别结果记录者, 记录被测设备对当前发音的输出结果。 (记录表包括发音人、 记录人、 操作人、 监督人、 发音内容、 语音识别结果等)
  • 全部发音人测试结束后, 统一按照运行过程流畅性进行主观的指标评估。 (评估至少有 2人以上参与)

2.7 测试结果要求

2.7.1 包含的内容

测试报告中应包括下述指标的测试结果

  • 语音唤醒正确率
  • 语音唤醒误唤醒频度
  • 命令词识别率
  • 离线平均响应系数
  • 口呼测试中对识别结果和运行过程流畅性的平均意见得分(满分 5 分)

2.7.2 语音识别指标要求

如果在产品需求中无特殊说明, 应满足如下要求:

家居类产品语音识别要求:

  • 远场低噪家居环境下, 唤醒成功率应大于或等于 95%, 误唤醒频度应小于或等于 0.2 次/h,命令词识别正确率应大于或等于 90%
  • 远场高噪家居环境下, 唤醒成功率应大于或等于 90%, 误唤醒频度应小于或等于 0.2 次/h,命令词识别正确率应大于或等于 85%
  • 响应时间小于 2s 且实时系数不大于 1.5
  • 语音识别产品的主观平均意见得分(总分 5 分)不小于 3.5 分。
  • 1m 距离下, 信噪比>20db 的条件下唤醒率应不低于 98%, 误唤醒频度不应高于 0.1 次/h, 命令词识别正确率大于或等于 95%

车载识别结果要求:

  • 场景一的唤醒率应不低于 95%, 误唤醒频度不应高于 0.5 次/h, 命令词识别正确率大于或等于 90%
  • 场景二的唤醒率应不低于 92%, 误唤醒频度不应高于 0.5 次/h, 命令词识别正确率大于或等于 88%
  • 场景三的唤醒率应不低于 90%, 误唤醒频度不应高于 0.5 次/h, 命令词识别正确率大于或等于 85%
  • 响应时间小于 2s 且实时系数不大于 1.5
  • 语音识别产品的主观平均意见得分(总分 5 分)不小于 3.5 分。
  • 1m 距离下, 信噪比>20db 的条件下唤醒率应不低于 98%, 误唤醒频度不应高于 0.5 次/h, 命令词识别正确率大于或等于 95%

其它环境下识别结果要求(针对在 2.5 章节的环境下进行的测试):

  • 唤醒率应不低于 90%, 误唤醒频度不应高于 0.5 次/h, 命令词识别正确率大于或等于 85%
  • 响应时间小于 2s 且实时系数不大于 1.5
  • 语音识别产品的主观平均意见得分(总分 5 分)不小于 3.5 分。