PDF文库 - 千万精品文档,你想要的都能搜到,下载即用。

2020AIIA智能语音评测结果解读.pdf

百毒不侵。18 页 1.509 MB下载文档
2020AIIA智能语音评测结果解读.pdf2020AIIA智能语音评测结果解读.pdf2020AIIA智能语音评测结果解读.pdf2020AIIA智能语音评测结果解读.pdf2020AIIA智能语音评测结果解读.pdf2020AIIA智能语音评测结果解读.pdf
当前文档共18页 2.88
下载后继续阅读

2020AIIA智能语音评测结果解读.pdf

AIIA智能语音评估工作和结果解读 李荪 中国信息通信研究院云大所人工智能部高级项目主管 目录 智 能 语 音 语 义 技 术 产 业 现 状 AIIA语音规范标准体系介绍 2 0 2 0 语 音 评 测 结 果 解 读 智 能 语 音 可 信 评 估 开 展 情 况 T I T L E 1 2019 中文语音合成首轮评测 腾讯、阿里、思必驰、同盾科技 首轮评测结果公开发布 2019年11月2日 颁布证书 人工智能开发者大会AIDC(杭州) 2020 中文语音合成第二轮评测 中文语音识别首轮评测 腾讯、马上消费金融、思必驰 2020年评测结果公开发布 9月28日 颁布证书 人工智能开发者大会AIDC(北京首钢科技园) 语 音 合 成 测 试 结 果 T I T L E 1 质量基准度 Standard 合成质量基准分=发音准确度×20%+音节清晰度×20%+语言自然度×60% 10 9.1 9.5 9.1 9 8 7 7.5 6.9 7.4 8.5 7.9 7.9 7.3 7.1 7.2 6.4 10 7.8 7.7 7 9 8 7 6 6 5 5 4 4 3 3 2 2 1 1 0 0 参评单位1 参评单位2 发音准确度 语音自然度 参评单位3 音节清晰度 合成质量基准分 首轮评测结果(2019年) 参评单位4 9.7 9.4 9.3 7.9 7.2 8.5 7.8 6.5 参评单位1 发音准确度 语音自然度 参评单位2 音节清晰度 合成质量基准分 第二轮评测结果( 2020年) 语 音 合 成 测 试 结 果 T I T L E 1 质量基准度 Standard——发音准确度 多音字、数字、符号、声调各15句 多音字、数字、符号、声调、中英文和易错姓氏各15句 13 14 12 13 11 12 11 11 11 8 7 14 13 12 12 9 10 8 15 16 16 12 10 9 12 12 10 15 10 10 14 15 15 15 12 10 8 8 6 6 4 4 2 2 0 0 参评单位1 参评单位1 参评单位2 多音字 数字 参评单位3 符号 参评单位4 声调 首轮评测结果(2019年) 多音字 声调 参评单位2 数字 中英文 符号 易错姓氏 第二轮评测结果( 2020年) 语 音 合 成 测 试 结 果 T I T L E 1 质量基准度 Standard——发音准确度 专家意见:主要的问题是多音字不能完全区别出来;“一”、“不”加去声字时应读作阳平,但大多读 作阴平和去声;存在少量轻声、部分儿化音、数字和符号不能正确读出来;停顿不当,声调问题,原声 的发音不够清晰标准。 发音易错点 测试子项 测试文本 通过标准 多音字 他的事业遭受重创,他不得不重创一番新事业。 前:zhòng chuāng 后:chóng chuàng 数字 虽然他只是1/3651,他也要尽自己最大努力。 三千六百五十一分之一 符号 这是小明&小红的婚礼。 &和 声调 虽然是芝麻官儿,也要努力做事。 儿化音 易错姓氏 解女士十分富有。 解 xiè 测试结果 语 音 合 成 测 试 结 果 T I T L E 1 质量基准度 Standard——音节准确度 音节清晰度 无语义关联的单个字、词,共5句(5个测试点) 专家意见:存在噪音杂音等现象、停顿混乱问题,本身读音没有问题 10 9.5 9.76 9.56 9.08 9.28 9.4 9.14 10 9.52 9.8 9.12 9.09 9 8.5 8.5 8.2 8.16 9.84 9.68 9.56 9.6 9.4 8 9.2 7.5 9 9.44 9.2 9.28 8.8 7 参评单位1 参评单位2 专家均分 参评单位3 非专家均分 参评单位4 综合均分 首轮评测结果(2019年) 参评单位1 专家均分 参评单位2 非专家均分 综合均分 第二轮评测结果( 2020年) 语 音 合 成 测 试 结 果 T I T L E 1 质量基准度 Standard——语音自然度 • 存在语速过快、停连不当、感情不足等问题 发音标准度 发音标准度 拟人舒适度 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 流畅清晰度 情绪饱满度 首轮评测结果(2019年) 拟人舒适度 参评单位1 参评单位2 参评单位3 参评单位4 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 流畅清晰度 参评单位1 情绪饱满度 参评单位2 第二轮评测结果( 2020年) 语 音 合 成 测 试 结 果 T I T L E 1 质量基准度 Standard——语音自然度 Sample 尊重孩子,意味着不能事事包办,越俎代庖;尊重孩子,就需要多遵循孩子的意愿;尊重孩子,有时即使心里一万个不允许,最后还是选择 答应。在孩子自有的意愿上,告诉孩子会有的后果,然后尊重孩子的想法,从中让孩子学会了选择,学会了承担后果。如果说生命是一条大 路,父母就是指路明灯,在被尊重的环境下,孩子的生命得到舒展,他可以自由的选择生命挚爱的东西。 10 9 8 7 6 5 4 3 2 1 0 8.6 8.3 6.25 6.7 6.4 参评单位1 6.25 6.9 参评单位2 7.4 7.7 参评单位3 8.5 7.6 7.9 参评单位4 专家均分 非专家均分 综合均分 首轮评测结果(2019年) 10 9 8 7 6 5 4 3 2 1 0 8.6 7.2 6.15 7.6 8.1 6.675 参评单位1 参评单位2 专家均分 非专家均分 综合均分 第二轮评测结果( 2020年) 语 音 合 成 测 试 结 果 T I T L E 1 定制相似度 Similarity 普遍认为,真人和合成音基本一致,但是细节还不到位 7.36 8 6.8 5.94 6 7.56 5.8 5.38 专家均分 4 非专家均分 2 综合均分 0 小样本合成 大样本合成 粗样本合成 10 8 7.48 6.1 7 6.6 5.2 6 参评单位1 5.42 6.3 专家均分 4 非专家均分 2 综合均分 0 小样本合成 大样本合成 6.63 6.84 6.735 6.42 5.15 5.785 专家均分 非专家均分 综合均分 小样本合成 大样本合成 参评单位1 8 7.92 5.8 8 7 6 5 4 3 2 1 0 粗样本合成 首轮评测结果(2019年) 参评单位2 6 5.68 6.06 5.87 专家均分 4 非专家均分 2 综合均分 0 小样本合成 参评单位2 第二轮评测结果( 2020年) 语 音 合 成 测 试 结 果 T I T L E 1 场景表现力 Scene 两轮评测共参评六大场景,金融服务、新闻播报、车载驾驶、电信业务、语言教育、家居服务 发音标准度 发音标准度 拟人舒适度 1 0.8 0.6 0.4 0.2 0 金融服务 流畅清晰度 拟人舒适度 1 0.8 0.6 0.4 0.2 0 发音标准度 家居服务 流畅清晰度 拟人舒适度 1 0.8 0.6 0.4 0.2 0 新闻播报 流畅清晰度 情绪饱满度 情绪饱满度 第一轮测试 第二轮测试 情绪饱满度 发音标准度 发音标准度 拟人舒适度 1 0.8 0.6 0.4 0.2 0 情绪饱满度 车载驾驶 流畅清晰度 拟人舒适度 1 0.8 0.6 0.4 0.2 0 情绪饱满度 发音标准度 电信业务 流畅清晰度 拟人舒适度 1 0.8 0.6 0.4 0.2 0 情绪饱满度 语言教育 流畅清晰度 智 能 语 音 可 信 评 估 开 展 情 况 T I T L E 1 专家意见汇总 ①字词划分不正确,导致停顿不正确,加强识别字词能力,加强某些字词的吐字清晰度; ②原声的发音不够标准和规范,少部分韵母音发音位置和发音方法有问题; ③加强能识别句子中重读的字词,能识别轻重音; ④建议语速适当,所有的合成音都语速过快,没有在适合的地方停顿; ⑤合成音语气语调生硬不自然,机械且情绪不饱满,不能很好地表达句子所包含的情绪,加强这方 面建设,更加人性化。 语 音 识 别 测 试 结 果 T I T L E 1 通用基础识别 依据国家标准《GB+21023-2007中文语音识别系统通用技术规范》规定,文字输入类系统的字准确率 应大于或等于85% 测试项 参评单位1 参评单位2 参评单位3 文字输入类 89.96% 90.80% 93.88% 一级标签 二级标签 分布情况 长度 时间/字节数 一般领域25字以内 场景 医疗健康/语言教育/新闻播报/文娱体育/金融服务/法律庭审 涵盖两个场景以上 环境 无背景噪声/办公特定环境背景噪声 无背景噪声80%,办公室背景噪声占20% 语言特征 儿化音/数字/时间/特殊符号/成语谚语等 10% 句式结构 陈述句/疑问句/感叹句 陈述句75%、疑问句15%、感叹句10% 采音设备 移动设备 采样率 16KHz采样 语速 慢速30%、中速50%、快速20% 信噪比 低噪70%、中噪20%、高噪10% 声道 单声道 发音人 人数30,男女比例1:1,小孩10%、老年10%、一般80% 口音 普通话67%,方言普通话33% 距离 近场60%,3米10%,5米10% 情感 喜/怒/哀/惧/平静 无情感 文本结构 篇章 100% 声学特征 语 音 识 别 测 试 结 果 T I T L E 1 测试项 远场识别 环境适应 识别 噪音环境 特定发音 识别 不同语速 识别 参评单位1 参评单位2 参评单位3 1米 91.77% 94.67% 93.89% 3米 92.18% 94.01% 96.09% 5米 83.70% 82.04% 94.90% 办公环境 89.10% 95.88% 96.37% 家居环境 84.72% 94.83% 95.28% 车载环境 89.04% 93.84% 93.38% 交通环境 85.30% 91.34% 92.91% 测试项 参评单位1 参评单位2 参评单位3 低幼 92.34% 94.89% 96.37% 轻口音 91.59% 95.04% 94.82% 测试项 参评单位1 参评单位2 参评单位3 慢速 94.49% 94.49% 95.46% 正常速度 95.62% 96.77% 97.00% 快速 91.41% 89.53% 93.88% →1米和3米结果接近 →交通和车载环境复杂, 对识别率影响较大 →不同发音人适配性好 →语速正常识别率高 语 音 识 别 测 试 结 果 T I T L E 1 场景内容识别 包含应用场景中问候语、情 景对话、人名、地名、专业 术语等内容 场景 参评单位1 参评单位2 参评单位3 金融服务 92.93% 94.64% 95.59% 电信业务 / 86.27% 95.45% 车载驾驶 / 94.30% / 医疗健康 / 93.84% / 语言教育 / 93.67% / 新闻播报 / 89.74% 96.23% 文娱体育 / 93.23% 93.95% 下一步测试数据构建 ,考 法律庭审 / 86.20% / 虑对于不同场景的环境要 家居服务 / 93.82% / 素,如典型噪声、混响等 备注:“/”代表未参与该项测试。 发音人中青年、普通话二级 乙等以上,男女1:1 无环境背景噪声 还有少量中英文和数字 语 音 识 别 测 试 结 果 T I T L E 1 符号数字识别 测试项 参评单位1 参评单位2 参评单位3 中英文 / 88.82% 97.48% 特殊符号 / 81.75% 78.23% 标点符号 / 79.93% 94.46% 数字 / 88.12% 95.21% 符号标点识别是难点 中英文:句子中仅仅含有中文和英文,如“找 找Gucci最新款的包。” 特殊符号:包括“%”、“‰”、“@”、 “+”、“-”等 标点符号:包括“,”“。”“?”“!”等 数字:阿拉伯数字,中文数字,罗马数字等 采样率支持 采样率 参评单位1 参评单位2 参评单位3 16KHz / 92.61% 93.07% 8KHz / 86.26% 91.34% 电话信道通常音频为8KHZ, 适配性还有待提高 快速定制功能、错误纠正功能 测试项 参评单位1 参评单位2 参评单位3 快速定制功能 / 支持 支持 错误纠正功能 / / 支持 语音识别→语音理解,真实场景需要NLU助力 停顿、拖音、重复、吞字 备注:“/”代表未参与该项测试。 下一步工作方向 深耕场景,充分考虑应用场景实际业务环境 规范制定,继续完善智能语音评估测试体系 优化迭代,依据技术产业发展实时优化规范 数据服务,依据需求调整更新评测数据结构 电信业务 金融服务 车载驾驶 法律庭审 新闻播报 医疗健康 语言教育 文娱体育 家居服务 THANKS

相关文章