2020AIIA智能语音评测结果解读.pdf

AIIA智能语音评估工作和结果解读李荪中国信息通信研究院云大所人工智能部高级项目主管目录智能语音语义技术产业现状 AIIA语音规范标准体系介绍 2 0 2 0 语音评测结果解读智能语音可信评估开展情况 T I T L E 1 2019 中文语音合成首轮评测腾讯、阿里、思必驰、同盾科技首轮评测结果公开发布 2019年11月2日颁布证书人工智能开发者大会AIDC（杭州） 2020 中文语音合成第二轮评测中文语音识别首轮评测腾讯、马上消费金融、思必驰 2020年评测结果公开发布 9月28日颁布证书人工智能开发者大会AIDC（北京首钢科技园）语音合成测试结果 T I T L E 1 质量基准度 Standard 合成质量基准分=发音准确度×20%+音节清晰度×20%+语言自然度×60% 10 9.1 9.5 9.1 9 8 7 7.5 6.9 7.4 8.5 7.9 7.9 7.3 7.1 7.2 6.4 10 7.8 7.7 7 9 8 7 6 6 5 5 4 4 3 3 2 2 1 1 0 0 参评单位1 参评单位2 发音准确度语音自然度参评单位3 音节清晰度合成质量基准分首轮评测结果（2019年）参评单位4 9.7 9.4 9.3 7.9 7.2 8.5 7.8 6.5 参评单位1 发音准确度语音自然度参评单位2 音节清晰度合成质量基准分第二轮评测结果（ 2020年）语音合成测试结果 T I T L E 1 质量基准度 Standard——发音准确度多音字、数字、符号、声调各15句多音字、数字、符号、声调、中英文和易错姓氏各15句 13 14 12 13 11 12 11 11 11 8 7 14 13 12 12 9 10 8 15 16 16 12 10 9 12 12 10 15 10 10 14 15 15 15 12 10 8 8 6 6 4 4 2 2 0 0 参评单位1 参评单位1 参评单位2 多音字数字参评单位3 符号参评单位4 声调首轮评测结果（2019年）多音字声调参评单位2 数字中英文符号易错姓氏第二轮评测结果（ 2020年）语音合成测试结果 T I T L E 1 质量基准度 Standard——发音准确度专家意见：主要的问题是多音字不能完全区别出来；“一”、“不”加去声字时应读作阳平，但大多读作阴平和去声；存在少量轻声、部分儿化音、数字和符号不能正确读出来；停顿不当，声调问题，原声的发音不够清晰标准。发音易错点测试子项测试文本通过标准多音字他的事业遭受重创，他不得不重创一番新事业。前:zhòng chuāng 后:chóng chuàng 数字虽然他只是1/3651，他也要尽自己最大努力。三千六百五十一分之一符号这是小明＆小红的婚礼。 &和声调虽然是芝麻官儿，也要努力做事。儿化音易错姓氏解女士十分富有。解 xiè 测试结果语音合成测试结果 T I T L E 1 质量基准度 Standard——音节准确度音节清晰度无语义关联的单个字、词，共5句（5个测试点）专家意见：存在噪音杂音等现象、停顿混乱问题，本身读音没有问题 10 9.5 9.76 9.56 9.08 9.28 9.4 9.14 10 9.52 9.8 9.12 9.09 9 8.5 8.5 8.2 8.16 9.84 9.68 9.56 9.6 9.4 8 9.2 7.5 9 9.44 9.2 9.28 8.8 7 参评单位1 参评单位2 专家均分参评单位3 非专家均分参评单位4 综合均分首轮评测结果（2019年）参评单位1 专家均分参评单位2 非专家均分综合均分第二轮评测结果（ 2020年）语音合成测试结果 T I T L E 1 质量基准度 Standard——语音自然度 • 存在语速过快、停连不当、感情不足等问题发音标准度发音标准度拟人舒适度 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 流畅清晰度情绪饱满度首轮评测结果（2019年）拟人舒适度参评单位1 参评单位2 参评单位3 参评单位4 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 流畅清晰度参评单位1 情绪饱满度参评单位2 第二轮评测结果（ 2020年）语音合成测试结果 T I T L E 1 质量基准度 Standard——语音自然度 Sample 尊重孩子，意味着不能事事包办，越俎代庖；尊重孩子，就需要多遵循孩子的意愿；尊重孩子，有时即使心里一万个不允许，最后还是选择答应。在孩子自有的意愿上，告诉孩子会有的后果，然后尊重孩子的想法，从中让孩子学会了选择，学会了承担后果。如果说生命是一条大路，父母就是指路明灯，在被尊重的环境下，孩子的生命得到舒展，他可以自由的选择生命挚爱的东西。 10 9 8 7 6 5 4 3 2 1 0 8.6 8.3 6.25 6.7 6.4 参评单位1 6.25 6.9 参评单位2 7.4 7.7 参评单位3 8.5 7.6 7.9 参评单位4 专家均分非专家均分综合均分首轮评测结果（2019年） 10 9 8 7 6 5 4 3 2 1 0 8.6 7.2 6.15 7.6 8.1 6.675 参评单位1 参评单位2 专家均分非专家均分综合均分第二轮评测结果（ 2020年）语音合成测试结果 T I T L E 1 定制相似度 Similarity 普遍认为，真人和合成音基本一致，但是细节还不到位 7.36 8 6.8 5.94 6 7.56 5.8 5.38 专家均分 4 非专家均分 2 综合均分 0 小样本合成大样本合成粗样本合成 10 8 7.48 6.1 7 6.6 5.2 6 参评单位1 5.42 6.3 专家均分 4 非专家均分 2 综合均分 0 小样本合成大样本合成 6.63 6.84 6.735 6.42 5.15 5.785 专家均分非专家均分综合均分小样本合成大样本合成参评单位1 8 7.92 5.8 8 7 6 5 4 3 2 1 0 粗样本合成首轮评测结果（2019年）参评单位2 6 5.68 6.06 5.87 专家均分 4 非专家均分 2 综合均分 0 小样本合成参评单位2 第二轮评测结果（ 2020年）语音合成测试结果 T I T L E 1 场景表现力 Scene 两轮评测共参评六大场景，金融服务、新闻播报、车载驾驶、电信业务、语言教育、家居服务发音标准度发音标准度拟人舒适度 1 0.8 0.6 0.4 0.2 0 金融服务流畅清晰度拟人舒适度 1 0.8 0.6 0.4 0.2 0 发音标准度家居服务流畅清晰度拟人舒适度 1 0.8 0.6 0.4 0.2 0 新闻播报流畅清晰度情绪饱满度情绪饱满度第一轮测试第二轮测试情绪饱满度发音标准度发音标准度拟人舒适度 1 0.8 0.6 0.4 0.2 0 情绪饱满度车载驾驶流畅清晰度拟人舒适度 1 0.8 0.6 0.4 0.2 0 情绪饱满度发音标准度电信业务流畅清晰度拟人舒适度 1 0.8 0.6 0.4 0.2 0 情绪饱满度语言教育流畅清晰度智能语音可信评估开展情况 T I T L E 1 专家意见汇总 ①字词划分不正确，导致停顿不正确，加强识别字词能力，加强某些字词的吐字清晰度; ②原声的发音不够标准和规范，少部分韵母音发音位置和发音方法有问题; ③加强能识别句子中重读的字词，能识别轻重音; ④建议语速适当，所有的合成音都语速过快，没有在适合的地方停顿; ⑤合成音语气语调生硬不自然，机械且情绪不饱满，不能很好地表达句子所包含的情绪，加强这方面建设，更加人性化。语音识别测试结果 T I T L E 1 通用基础识别依据国家标准《GB+21023-2007中文语音识别系统通用技术规范》规定，文字输入类系统的字准确率应大于或等于85% 测试项参评单位1 参评单位2 参评单位3 文字输入类 89.96% 90.80% 93.88% 一级标签二级标签分布情况长度时间/字节数一般领域25字以内场景医疗健康/语言教育/新闻播报/文娱体育/金融服务/法律庭审涵盖两个场景以上环境无背景噪声/办公特定环境背景噪声无背景噪声80%，办公室背景噪声占20% 语言特征儿化音/数字/时间/特殊符号/成语谚语等 10% 句式结构陈述句/疑问句/感叹句陈述句75%、疑问句15%、感叹句10% 采音设备移动设备采样率 16KHz采样语速慢速30%、中速50%、快速20% 信噪比低噪70%、中噪20%、高噪10% 声道单声道发音人人数30，男女比例1:1，小孩10%、老年10%、一般80% 口音普通话67%，方言普通话33% 距离近场60%，3米10%，5米10% 情感喜/怒/哀/惧/平静无情感文本结构篇章 100% 声学特征语音识别测试结果 T I T L E 1 测试项远场识别环境适应识别噪音环境特定发音识别不同语速识别参评单位1 参评单位2 参评单位3 1米 91.77% 94.67% 93.89% 3米 92.18% 94.01% 96.09% 5米 83.70% 82.04% 94.90% 办公环境 89.10% 95.88% 96.37% 家居环境 84.72% 94.83% 95.28% 车载环境 89.04% 93.84% 93.38% 交通环境 85.30% 91.34% 92.91% 测试项参评单位1 参评单位2 参评单位3 低幼 92.34% 94.89% 96.37% 轻口音 91.59% 95.04% 94.82% 测试项参评单位1 参评单位2 参评单位3 慢速 94.49% 94.49% 95.46% 正常速度 95.62% 96.77% 97.00% 快速 91.41% 89.53% 93.88% →1米和3米结果接近 →交通和车载环境复杂，对识别率影响较大 →不同发音人适配性好 →语速正常识别率高语音识别测试结果 T I T L E 1 场景内容识别 包含应用场景中问候语、情景对话、人名、地名、专业术语等内容场景参评单位1 参评单位2 参评单位3 金融服务 92.93% 94.64% 95.59% 电信业务 / 86.27% 95.45% 车载驾驶 / 94.30% / 医疗健康 / 93.84% / 语言教育 / 93.67% / 新闻播报 / 89.74% 96.23% 文娱体育 / 93.23% 93.95% 下一步测试数据构建，考法律庭审 / 86.20% / 虑对于不同场景的环境要家居服务 / 93.82% / 素，如典型噪声、混响等备注：“/”代表未参与该项测试。 发音人中青年、普通话二级乙等以上，男女1：1 无环境背景噪声 还有少量中英文和数字语音识别测试结果 T I T L E 1 符号数字识别测试项参评单位1 参评单位2 参评单位3 中英文 / 88.82% 97.48% 特殊符号 / 81.75% 78.23% 标点符号 / 79.93% 94.46% 数字 / 88.12% 95.21% 符号标点识别是难点中英文：句子中仅仅含有中文和英文，如“找找Gucci最新款的包。” 特殊符号：包括“%”、“‰”、“@”、 “+”、“-”等标点符号：包括“，”“。”“？”“！”等数字：阿拉伯数字，中文数字，罗马数字等采样率支持采样率参评单位1 参评单位2 参评单位3 16KHz / 92.61% 93.07% 8KHz / 86.26% 91.34% 电话信道通常音频为8KHZ，适配性还有待提高快速定制功能、错误纠正功能测试项参评单位1 参评单位2 参评单位3 快速定制功能 / 支持支持错误纠正功能 / / 支持语音识别→语音理解，真实场景需要NLU助力停顿、拖音、重复、吞字备注：“/”代表未参与该项测试。下一步工作方向深耕场景，充分考虑应用场景实际业务环境规范制定，继续完善智能语音评估测试体系优化迭代，依据技术产业发展实时优化规范数据服务，依据需求调整更新评测数据结构电信业务金融服务车载驾驶法律庭审新闻播报医疗健康语言教育文娱体育家居服务 THANKS