PDF文库 - 千万精品文档,你想要的都能搜到,下载即用。

黄艺驰-20170906-NCMMSC2017-最终版.pdf

My people5 页 1.082 MB下载文档
黄艺驰-20170906-NCMMSC2017-最终版.pdf黄艺驰-20170906-NCMMSC2017-最终版.pdf黄艺驰-20170906-NCMMSC2017-最终版.pdf黄艺驰-20170906-NCMMSC2017-最终版.pdf黄艺驰-20170906-NCMMSC2017-最终版.pdf
当前文档共5页 2.88
下载后继续阅读

黄艺驰-20170906-NCMMSC2017-最终版.pdf

NCMMSC2017 中国连云港 2017 年 10 月 面向智能手机信道的中文说话人识别数据库 MTDSR 黄艺驰 1,邹月娴 1,柳俊宏 1 (1. 北京大学 信息工程学院 现代信号与数据处理实验室&智能多媒体与虚拟现实重点实验室, 深圳 518055) 文 摘:本文在对现有主流说话人识别语音数据库进行分析和对比的基础上,提出并建立第一个免费且开源的面向智 能手机信道下文本相关的用于说话人识别研究的中文普通话语料库 MTDSR(Mandarin corpus for Text Dependent Speaker Recognition) 。该数据库的特点是:包含 181 个说话人;每位录音者的录音语料包括 20 句 8 位随机字符串、 15 句古诗词、15 句新闻句子、20-30 句短语和日常对话、2 首歌词;录音总时长约 70 小时,在 4 种不同型号智能手 机信道下录制。本文最后对 MTDSR 进行了 GMM-UBM 和 i-vector 说话人确认算法的基线实验。 关键词: 语音数据库;说话人识别;文本相关;智能手机设备 中图分类号: TN912.34 语音数据库是说话人识别研究的基础和对象, 近几十年来,正是由于标准公开数据集的建立,才 使得我们在说话人识别领域的研究取得了显著的 成果。鉴于语音数据库对推动说话人确认技术的研 究和实际应用具有重要意义,国际上各著名的研究 机构、大学和公司都非常重视说话人识别数据库的 建设,如美国的 LDC(Linguistic Data Consortium) 、 OGI(Oregon Graduate Institute)、欧洲的 ELRA (European Language Resources Association) 、新加坡 2 的 I R(Institute for Infocomm Research) 、北京大学 信息科学中心听觉研究室、清华大学语音和语言技 术中心(CSLT)都是长期致力于语音相关技术研究 资源的大规模开发和共享的主要组织和机构。但随 着研究的深入,许多研究团队根据研究目的和实际 应用需要设计并建立了用于不同场景、不同信道下 的说话人识别数据库,如浙江大学计算机学院录制 的面向移动环境的 SRMC [1]和厦门大学信息科学与 技术学院录制的跨信道说话人语音识别库 XMU-MultiChannel [2]。 随着移动互联网技术的飞速发展和广泛应用, 智能手机快速普及,基于智能手机的说话人识别应 用场景越来越多,而传统的基于固定电话信道和麦 克风信道进行语音采集的说话人识别数据库已经 不能满足最新的研究需要。因此,面向移动互联网 环境的智能手机信道下中文普通话说话人识别数 据库的建立意义重大。 1 说话人识别语音库现状 说话人识别数据库的分析和评价,一般考虑 以下因素:1)说话人的数量和差异性;2)说话 人录音的次数及录音间隔;3)语料的类型(固定 短语、带提示的数字、朗读句子、对话语音等) ; [3] 4)录音设备,录制环境,传输信道等 。 目前国际上用于说话人识别研究的公开数 据库很多,主流的公开数据库信息如表 1 所示。 我们对表 1 所列的说话人识别数据库进行分析和 比较后发现, 这些数据库有两个共同的特点: (1) 在这些主流的说话人识别数据库中,绝大多数都 是英文语料,个别数据库为法语和德语语料,而 用于中文说话人识别研究的中文普通话数据库很 少,这使得中文普通话的说话人识别研究的工作 推进非常困难; (2)目前绝大多数用于说话人识 别的语音数据库还停留在固定电话和麦克风两种 录音方式上,然而随着智能手机的快速普及,基 于智能手机的说话人识别应用场景越来越多,传 统的固定电话和麦克风等已经不再是语音接入的 主流设备,并且少数使用移动设备录音的数据库 也存在录音设备陈旧的问题。 因此,面向移动互联网环境的智能手机信道 下中文普通话说话人识别数据库的建立意义重 大,考虑到实际应用场景中操作尽可能简单、方 便,并且确保开展说话人识别研究所需的数据尽 量充足,我们针对文本相关的说话人识别模式开 展语音数据库的录制工作,提出并建立了第一个 免费且开源的用于智能手机信道下文本相关的说 话 人 识 别 研 究 的 中 文 普 通 话 语 料 库 MTDSR (Mandarin corpus for Text Dependent Speaker Recognition),下面进行详细介绍。 2 表1 现有主流说话人识别语音数据库的信息 录音间 数据库 时间 人数 男 女 语种 录音信道 录音环境 YOHO 1995 138 106 32 英语 电话信道 安静 3天 PolyVAR 1997 143 85 58 英语 电话信道 安静 数月 OGI SR 1998 91 43 48 英语 电话信道 XM2VTS 1999 295 158 137 英语 电话信道 安静 数月 Ahumada 2000 104 104 0 西班牙语 麦克风、电话 安静 >11 天 PolyCOST 2000 134 74 60 电话信道 安静 3天 北大 2001 82 26 56 普通话 麦克风、电话 安静 1周 SmartKom 2002 45 20 25 德语 麦克风 安静 同一天 BANCA 2003 208 104 104 BIOMET 2003 91 45 46 SRMC 2003 303 212 91 Valid 2005 106 76 CCC-VPR2C2005-1000 2006 1000 MIT-MDSVC 2006 RSR2015 XMU-MultiChannel 英语、欧洲国家语 言 英语、法语、意大 利语、西班牙语 麦克风 安静、噪 声 安静、噪 声 隔 数月 - 法语 麦克风 普通话、方言、英 麦克风、PDA、 语 电话、手机 30 英语 麦克风 - - 普通话 88 49 39 英语 麦克风 2012 300 157 143 英语 智能手机 安静 同一天 2015 100 60 40 普通话 麦克风、电话 安静 同一天 MTDSR 说话人识别数据库的建设 MTDSR 是北京大学现代信号与数据处理实 验室(Advanced Data and Signal Processing Laboratory, ADSPLab)自建的说话人识别数据库, 是面向智能手机信道下中文普通话的文本相关说 话人识别研究而录制的,数据库已经在 Github 上 开源(https://mtdsr-2015.github.io/MTDSR2015) , 供研究人员免费下载获取。目前 MTDSR 开放 1.0 的版本,本节将对此数据库进行详细介绍。 2.1 录音设备与环境 信道失配问题是说话人识别技术在实际应 用中亟需解决的问题,为了方便研究人员对智能 手机信道下的信道失配问题开展研究,我们根据 2015 年第三季度中国智能手机市场份额占有率 的调研报告,采用了目前中国市场占有率最高的 4 种不同型号的智能手机作为录音设备,在安静 环境下进行语音录制,每个智能手机的录音内容 和录音环境均相同,不同手机录制的语音数据只 GSM 移动手机、 电话 安静 数月 安静 同一天 安静 数周 安静 - 安静、噪 声 数天 存在信道差异,不存在其他任何差异;录制手机 的型号及其所占市场份额如图 1 所示。 2.2 录音人员的年龄分布与地域分布 在 MTDSR 的 1.0 版本中,参与语音录制的 总人数为 181 人,其中男 102 人,女 79 人。参与 MTDSR 语音数据库录制的录音人员年龄分布如 图 2 所示,录音人员的年龄段为 22~51 岁,整体 上看年龄从大到小基本呈一个金字塔分布,年龄 偏大的人群较少,而 22~35 岁之间的人数较多, 这也基本符合目前中国市场智能手机的用户群体 主要为年轻人的现状。此外,地域因素也是构建 说话人识别数据库需要考虑的关键因素,中国共 有 34 个省级行政区, 不同地区的人讲普通话的风 格不尽相同,为了尽可能涵盖不同地区的说话风 格,我们在录音前期面向全国各地召集录音志愿 者,MTDSR 数据库的录音人员来自全国各个地 区,覆盖了 28 个省、直辖市和自治区,而且这些 地区的人基本使用普通话作为日常用语;其他个 别地区由于并不是以普通话作为日常的交流用 Fig. 1. MTDSR 录音设备信息 Fig. 2. MTDSR 录音人员年龄金字塔 语,因此在录制的时候没有考虑。录音人员的地 域分布如图 3 所示。从图 3 可以看出,全国主要 的使用普通话的地区已经基本覆盖到,而且分布 较为均匀;其中华北和华中地区人数较多,华南 地区尤其广东地区人数比例较高。 2.3 录音内容 每位录音者的录音语料由 5 部分组成: (1) 20 句 8 位随机数字串;(2)15 句古诗词; (3)15 句新闻句子; (4)20-30 句短语和日常对话; (5) 2 首歌词。其中,采用 8 位随机数字串跟读的模 式是为了对抗文本提示说话人确认系统的录音攻 击。在上述的 5 部分数据中, (1)主要用于目标 说话人的注册和测试,其余 4 部分数据主要用于 训练通用背景模型和全局差异矩阵等。 2.4 标注与存储 为方便研究人员的使用,我们对采集到的语 音数据进行后处理。语音库一级目录下有四个文 件夹包含在此信道下的所有语音文件:iPhone 5C、HWmate7、Samsung Note2、XM4。每个信 道下的语音文件按照录音内容分为 5 部分,每部 分包含所有录音者所有录音文件夹,文件夹以说 话人编号命名。语音文件为 wav 格式,16bit 采样, 命名规则为:spkXXX_YY.wav,表示第编号为 XXX 的说话人的第 YY 句话。 标注信息包括: (1) 录音特性:录音地点、录音通道; (2)说话人信 息:说话人标签、性别、籍贯; (3)数据相关信 息:采样频率、数据量化数。 3 MTDSR 说话人确认基线实验与结果分析 目前,GMM-UBM [4]和 i-vector [5]是国际上 公认的两大主流说话人确认技术。本节将探究说 话人确认基线系统 GMM-UBM 和 i-vector 在 MTDSR 数据库上的性能。实验条件分别为信道 匹配和信道失配。信道匹配是指注册语音和测试 语音来自同一信道(本文中指注册语音和测试语 音基于同一型号的手机采集) ; 信道失配指的是注 册信道和测试信道不相同(本文中指注册语音和 Fig. 3. MTDSR 录音人员地区分布图 测试语音基于不同型号的手机采集) 。 3.1 实验设置 本实验使用 MTDSR 第(1)部分的 8 位随机 数字串作为目标说话人的注册和测试数据。UBM 的训练和 T 矩阵的训练使用的数据包括:1) MTDSR 其余 4 部分数据;2)THCHS-30 [6];3) King-ASR-L-018。其中,THCHS-30 是清华大学 CSLT 发布的用于语音识别研究的汉语公开数据 库;King-ASR-L-018 是海天瑞声公司发布的商业 普通话语音数据库。这些训练数据同时也被用作 训练 WCCN、NAP 和 LDA。表 2 总结了本实验 需要训练的模型及所使用到的的数据库。 表2 训练不同模型所使用的语音数据库 模型 MTDSR THCHS-30 UBM √ √ T √ √ King-ASR-L-018 √ 首先,我们对原始语音进行预处理,包括采 样与量化、预加重处理和分帧加窗;其中,预加 重系数为 0.97,分帧加窗采用哈明窗(hamming window) ,窗长为 20ms,重叠 10ms,采样率为 16KHz;使用的声学特征是 MFCC,维数是 60, 包含一阶差分参数和二阶差分参数;使用基于能 量的语音检测方法去除非语音帧。 在基于 GMM-UBM 的说话人确认实验中, UBM 包含的单高斯混元数量为 1024,在 MAP 自适应的过程中,只更新均值向量,不更新参数 和协方差矩阵;考虑到本文实验数据量有限,因 此本实验不分 UBM 模型不分男女训练,而是使 用同一的 UBM。在 MTDSR 数据库下进行实验 时,所有说话人的第(1)部分的前 10 句、第(2) 部分和第(3)部分用于训练 UBM,训练 UBM 的语音数据采集自 4 部智能手机,涵盖了 4 种手 机信道;第(1)部分剩余 10 句中随机选择 8 句 用于目标说话人注册,剩余 2 句用于测试。 在基于 i-vector 的说话人确认实验中,UBM 参数设置和训练与 GMM-UBM 说话人确认实验 表3 信道匹配条件下 GMM-UBM 和 i-vector 说话人确认系统在 MTDSR 数据库上的 EER 和 minDCF 数据库 MTDSR 训练(注册)信道 - 测试信道 GMM-UBM i-vector EER minDCF EER minDCF HUAWEI mate7 – HUAWEI mate7 1.13% 0.0121 1.67% 0.0173 XM4 – XM4 1.78% 0.0187 2.06% 0.0211 Samsung Note3 - Samsung Note3 1.74% 0.0185 1.89% 0.0192 iPhone 5C - iPhone 5C 1.46% 0.0152 2.03% 0.0206 表 4 信道失配条件下 GMM-UBM 和 i-vector 说话人确认系统在 MTDSR 数据库上的 EER 和 minDCF 数据库 MTDSR 训练(注册)信道 - 测试信道 GMM-UBM i-vector EER minDCF EER minDCF HUAWEI mate7 – XM4 15.78% 0.1581 3.46% 0.0351 HUAWEI mate7 – Samsung Note3 14.63% 0.1466 3.79% 0.0383 HUAWEI mate7 - iPhone 5C 15.34% 0.1537 4.15% 0.0419 XM4 - HUAWEI mate7 13.77% 0.1381 3.36% 0.0341 XM4 - Samsung Note3 13.98% 0.1401 3.85% 0.0392 XM4 - iPhone 5C 14.76% 0.1479 4.66% 0.0468 Samsung Note3 - HUAWEI mate7 15.11% 0.1512 3.27% 0.0334 Samsung Note3 - XM4 14.89% 0.1493 3.61% 0.0365 Samsung Note3 - iPhone 5C 15.23% 0.1527 4.13% 0.0421 iPhone 5C - HUAWEI mate7 13,81% 0.1383 4.08% 0.0417 iPhone 5C - XM4 13.67% 0.1361 3.89% 0.0394 iPhone 5C - Samsung Note3 14.06% 0.1419 4.55% 0.0461 相同;全局差异矩阵 T 维数是 400×400,i-vector 的维数是 400;目标说话人的注册语音和测试语 音与 GMM-UBM 说话人确认实验相同;使用的 得分方法是余弦距离(cosine distance,CDS) 。 实验评价指标采用 NIST 说话人确认比赛 (SRE)通用评价标准:等错误率(EER)和最 小检测代价函数(minDCF),实验采用开源说话 人确认工具包 ALIZE [7]。 3.2 MTDSR 信道匹配条件下实验结果与分析 信道匹配条件下 GMM-UBM 说话人确认系 统和 i-vector 说话人确认系统在 MTDSR 数据库 上的实验结果如表 3 所示。通过比较 EER 和 minDCF 我们可以发现,在 GMM-UBM 说话人确 认系统中,EER 最高为 1.78%,注册信道和测试 信道是“XM4” ,EER 最低为 1.13%,注册信道 和测试信道是“HUAWEI mate7” ;在 i-vector 说 话人确认系统中,EER 最高和最低分别为 2.06% 和 1.67%,对应的注册信道和测试信道分别也是 “XM4”和“HUAWEI mate7”;在所有信道下, GMM-UBM 说话人确认系统性能均优于 i-vector 说话人确认系统。由此,本实验的结论是,在 MTDSR 第(1)部分的 8 位随机数字串数据集上, 信道匹配条件下,GMM-UBM 说话人确认系统的 性能优于 i-vector 说话人确认系统。 3.3 MTDSR 信道失配条件下实验结果与分析 信道失配条件下 GMM-UBM 说话人确认系 统和 i-vector 说话人确认系统在 MTDSR 数据库 上的实验结果如表 4 所示。通过比较 EER 和 minDCF 我们可以发现,在 GMM-UBM 说话人确 认系统中,EER 最高为 15.78%,注册信道和测试 信道是“HUAWEI mate7 – XM4” ,EER 最低为 13.67%,注册信道和测试信道是“iPhone 5C – XM4”,在所有的 12 种注册信道-测试信道失配条 件下,GMM-UBM 说话人确认系统的 EER 在 13%~16%之间;在 i-vector 说话人确认系统中, EER 最高是 4.66%,注册信道和测试信道是 “XM4 – iPhone 5C” ,EER 最低是 3.27%,注册信道和测 试信道是“Samsung Note3 – HUAWEI mate7” , 在所有的 12 种注册信道-测试信道失配条件下, i-vector 说话人确认系统的 EER 在 5%以内。由此, 本实验的结论是,在 MTDSR 第(1)部分的 8 位随机数字串数据集上,信道失配条件下, i-vector 说话人确认系统的性能优于 GMM-UBM 说话人确认系统。 4 大语音技术研究工作者提供一个良好的研究对象 和素材。 总结 本文首先对国内外主流的说话人识别数据 库进行了总结与分析,针对目前现有的说话人识 别数据库存在的中文普通话数据库不足、录音方 式陈旧和不能很好地适应基于智能手机的说话人 识别应用场景等问题,提出并建立了第一个免费 且开源的用于智能手机信道下文本相关的说话人 确 认 研 究 型 的 中 文 普 通 话 数 据 库 MTDSR (Mandarin corpus for Text Dependent Speaker Recognition) ,该数据库库包含 181 个说话人,4 种智能手机信道,录音人员涵盖 28 个省、直辖市 和自治区,年龄段为 22~51 岁。为验证 MTDSR 在在说话人确认任务上的性能,我们在 MTDSR 上分别采用国际上公认的两大主流基线说话人确 认技术 GMM-UBM 和 i-vector 进行实验,实验结 果显示,在信道匹配条件下,GMM-UBM 说话人 确认系统的性能优于 i-vector;然而在信道失配条 件下,GMM-UBM 说话人确认系统性能下降明 显 , i-vector 说 话 人 确 认 系 统 性 能 优 于 GMM-UBM。本数据库对面向移动互联网环境的 智能手机信道下中文普通话说话人识别数据库的 研究有重大意义。我们下一步的工作将集中在提 高在噪声环境和信道失配环境下的中文普通话说 话人识别系统性能,我们也希望 MTDSR 能给广 5 致谢 该项研究获得深圳市科创委基础研究项目 (No: JCYJ20170306165153653)以及深圳市智能 多 媒 体 与 虚 拟 现 实 重 点 实 验 室 项 目 (ZDSYS201703031405467)支持。 参 考 文 献 [1] 杨莹春, 颜时锋, 吴朝晖,等. 面向移动互联环境的说话人识别语音 库 SRMC[C]. 全国人机语音通讯学术会议. 2003. [2] 李琳, 万丽虹, 黄玲,等. 跨信道说话人识别语音库的设计与研究 [C]. 全国人机语音通讯学术会议. 2015. [3] Campbell J P, Reynolds D A. Corpora for the evaluation of speaker recognition systems[C]. International Conference on Acoustics Speech and Signal Processing (ICASSP), 1999: 829-832. [4] Reynolds D A, Quatieri T F, Dunn R B, et al. Speaker Verification Using Adapted Gaussian Mixture Models[J]. Digital Signal Processing, 2000, 10(1): 19-41. [5] Dehak N, Kenny P, Dehak R, et al. Front-End Factor Analysis for Speaker Verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(4): 788-798. [6] D. Wang and X. Zhang, "THCHS-30: A Free Chinese Speech Corpus." [7] Bonastre J F, Wils F, Meignier S, et al. ALIZE, a free toolkit for speaker recognition[C]. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2005: 737-740. Mandarin Speaker Recognition corpus MTDSR for Smartphone channels Yichi Huang1 , Yuexian Zou1 ,Junhong Liu1 1. Peking University, School of Electronic and Computer Engineering, Advanced Data & Signal Processing Laboratory & Shenzhen Key Laboratory for Intelligent Multimedia and Virtual Reality, Shenzhen 518055, China Abstract: Based on the analysis and comparison of the existing mainstream speaker recognition databases, this article proposed and built up a Mandarin corpus MTDSR, which is the first public and free Mandarin database recorded by smartphones for text-dependent speaker recognition research. The features of this database are: contains 181 speakers; the recording content of each speaker consists of five parts: twenty random 8-digit sequences, fifteen poems, fifteen news sentences, twenty to thirty phrases and daily expressions unequally, two lyrics; the total duration of all speech files is about 70 hours, the speech files are recorded under four different smartphone channels. Finally, the experiments of GMM-UBM and i-vector speaker verification baseline approaches were conducted on MTDSR. Key words: speech database;speaker recognition;text-dependent;smartphone devices

相关文章