基于原始波形的端到端DNN中避免说话人过拟合的文本无关说话人验证

Avoiding Speaker Overfitting in End-to-End DNNs using Raw Waveform for Text-Independent Speaker Verification

基于原始波形的端到端DNN中避免说话人过拟合的文本无关说话人验证

Avoiding Speaker Overfitting in End-to-End DNNs using Raw Waveform for Text-Independent Speaker Verification

摘要

在本研究中，我们提出一种新的原始波形端到端DNN，用于与文字无关的说话人验证。对于说话人识别，许多研究都采用说话人嵌入方案，将深层神经网络训练为说话人识别器，提取说话人特征。然而，该方案具有固有的局限性，其中训练成只对已知说话人进行分类的讲话人特征需要表示未知说话人的想法。由于这种失配，说话人称谓系统倾向于从已知说话人那里向看不见的话语推广，但是适合于已知说话人。这种现象被称为扬声器过拟合。本文从减少说话人过拟合的角度出发，研究了正则化技术、多步训练方案和与汇聚层的剩余连接，这导致了显著的性能改进。使用VoxCeleb数据集对来自各种非控制环境的1200多名扬声器进行技术效果评估。据我们所知，我们是第一个验证端到端DNN是否成功直接使用文本无关场景中的原始波形。其等错误率为7.4%，低于i-向量/概率线性判别不定性分析和使用谱图的端到端DNN。

关键词：扬声器过拟合，扬声器嵌入，原始波形，端到端，说话人确认

1、引言

随着近年来深层学习的成功，用深层神经网络（DNN）代替单个子任务的研究在各种音频领域[1，2，3，4，5，6]中高度流行。这种趋势也适用于说话人确认。说话人验证的三个主要子任务（即原始波形预处理、说话人特征提取和后端分类）分别被基于DNN的方法取代。我们使用一种扬声器嵌入方案，它训练DNN作为扬声器标识符，并使用选择的隐藏层作为扬声器特征[7，8]。对原始波形处理和后端分类也进行了研究[3, 6, 9 ]。个体DNNs集成为端到端DNNs〔1, 3, 10，11, 12, 13〕。

虽然基于DNN的方法已经成功地用于说话人验证，但是说话人和音频域之间存在差异。在说话人嵌入方案中，训练任务（说话人识别）和实际任务（说话人验证）之间存在任务不匹配。因为说话人识别只对预定义的说话人进行，所以在说话人验证中，说话人识别符不能推广到未知说话人。在本研究中，我们讨论了这种现象，我们称之为说话人过拟合，其中说话人嵌入方案的说话人特征很好地代表了来自已知说话人的看不见的话语，但是却对已知说话人过拟合。扬声器过拟合的一个例子如图1所示，并在第3节中进一步说明。

我们一直在构建原始波形DNN，并研究各种技术来减轻扬声器过拟合。

正则化方法〔14, 15, 16〕及近期进展

学习技巧〔17, 18, 19，20, 21〕多步训练方案〔10〕

池化的重要性，这是第6节中描述的改进性能的关键之一。

采用多种技术，我们提出了一个原始波形端到端系统，其性能优于i-向量/概率线性判别分析（PLDA）系统和频谱端到端系统。

本文的其余部分整理如下。第2部分论述了前人的研究成果。第3节分析说话人过度拟合。在第4节中，提供了系统描述。在第5节中介绍了减轻说话人过度拟合的关键方法。SEC - 6描述了实验和结果。本文在第7节结束

2、相关作品

以往对DNN中原始波形处理的研究、扬声器层叠方案和端到端DNN为本研究提供了三个基础。许多研究已经进行直接处理原始波形与DNNS〔1, 3, 4，6, 22〕。其中，Cel-LoBr等的曲折褶皱感受野。[22 ]在这里使用。

本文还使用了一种将DNN训练为说话人识别符的说话人嵌入方案[7]。在该方案中，选择隐藏层的线性激活作为说话人特征。自提出以来，说话人嵌入方案在基于DNN的说话人特征提取中得到了广泛的应用[8，12，23，24]。

端到端DNNs正在积极地研究许多任务[11, 25, 26 ]。对于说话人验证，从Heigold等人的工作开始，已经提出了许多端到端DNN[11，12，13]。本文使用输入原始波形并输出验证结果的端到端DNN[6]。

3、扬声器过拟合

在说话人验证中，广泛使用从说话人标识符隐藏层提取说话人特征的说话人嵌入方案。在该方案中，训练任务、说话人识别和实际任务（说话人验证）之间存在任务不匹配。然而，许多成功的使用说话人嵌入方案[7，8，12，23]的系统表明它在任务不匹配条件下工作。

说话人特征应该能够表示未知说话人的身份，以便进行说话人验证。然而，在说话人识别中，所有的说话人都是预先定义的，不存在未知的说话人。因此，扬声器嵌入方案中的扬声器特征可以针对已知的扬声器进行重装，这很可能引起性能下降。

我们把说话人特征只能代表已知说话人的情况称为说话人过拟合。我们认为，这是扬声器嵌入方案中性能退化的主要原因之一。

图1描绘了揭示这种现象的实验结果。这里，数据集被分成三个子集：训练集，包括已知说话者的话语；验证集，包括已知说话者的不可见话语；以及评估，包括未知说话者的不可见话语。火车组用于训练说话人标识符。该模型在两点上进行评价。首先，使用训练集和验证集中的说话人识别丢失来评估已知说话人未看到话语的概括（图1（a））。其次，使用验证和评估集的等错误率（EER）评估未知说话人的泛化性能和任务失配条件（图1（b））。结果表明，由于验证集的EER随着验证损失的减小而减小，因此任务失配条件的推广是成功的。然而，对于未知说话人的泛化并不成功，因为EER在验证和评估上的差距扩大了。因此，即使在端到端DNN中不存在任务不匹配，因为训练任务也是说话人验证，但是说话人过拟合也可能发生。

4、系统描述

在实验中，我们使用原始波形作为输入来分析说话人过度拟合。这样，说话人验证任务完全基于可训练的参数而不是人为驱动的技术来执行。这允许我们更仔细地观察减轻说话人过拟合的技术的有效性。

4.1说话人嵌入模型

两个说话人嵌入模型，一个卷积神经网络（CNN）和一个CNN-长短期记忆（LSTM）模型，用于我们的系统（见图2）。原始波形CNN（RWCNN）模型利用卷积层和汇聚层直接从原始波形中嵌入说话人特征。RWCNN-LSTM模型使用卷积层和汇聚层从输入的原始波形中提取特征图。然后，利用广泛使用的用于处理序列数据的递归层[27，28]LSTM层进行序列建模并嵌入说话人特征。两种模型都从原始波形中提取说话人特征。然而，在RWCNN-LSTM模型中，时变序列建模由LSTM层进行，而在RWCNN模型中，池层完全进行时变序列建模。RWCNN-LSTM模型是RWCNN模型的扩展（详见第5.2节）。

4.2端到端模型

原始波形端到端(RWE2E)模型是RWCNN-LSTM架构的扩展版本，使用b-向量方案[9]。该模型以两个原始波形为输入，利用RWCNN-LSTM模型的两个说话人特征，通过逐元运算合成b矢量。元素操作期望表示两个说话人特征之间的关系。通过几个完全连接的层来传播b向量，以对两个语音是否来自同一个说话者进行分类。RWE2E模型的总体结构如图3所示。

5、减轻说话人过度拟合

5.1.正规化

各种正则化技术(例如，L2正则化和批量正规化)是DNN最近成功的关键[16，14，29]。然而，我们认为规则化技术在减轻说话人过拟合方面的重要性更大。在任务不匹配条件下，我们假设规则化训练任务可以提高实际任务的泛化性能。因此，期望通过规范说话人标识符来减轻说话人过度拟合。在说话者标识符训练期间，通过简单的L2规则化来提高说话者验证性能也支持这种说法。

5.2.多阶段训练

深度网络常常利用预训练方案来证明改进的泛化性能。一个这样的方案是由HEO等人介绍的。〔10〕。该方案将DNN训练到多个阶段，每个阶段使用预处理DNN的参数作为初始化。只有扩展层才被初始化。RWCNN-LSTM模型中LSTM层之前的层使用RWCNN模型的权重进行初始化。RWE2E模型以相同的方式使用RWCNN-LSTM模型的权值初始化。这一步一步的训练方案称为多步训练。在HEO等人的工作中，多步训练用于端到端DNS的快速收敛。在本文中，多步训练有效地减轻说话人过度拟合。第6.3节中所示的经验结果支持多步训练是减轻说话人过拟合的关键。

5.3.剩余连接和池合并层

剩余连接[17，18]是最近提出的用于训练非常深层体系结构的技术，在许多先前的研究中显示了更好的泛化性能。有了残余连接，隐藏层可以学习参考输入的残差函数。典型的剩余块可以写成等式1，其中x和y分别是块的输入和输出。W是块内隐藏层的权重，F（x，w）是残差函数。

在具有剩余连接的DNN中，通常用卷积层替换汇聚层。Springberg等人的工作[30]等研究表明，用大步长的卷积层替换汇聚层可以提高DNN的性能。然而，在减轻说话人过拟合方面，池层的使用被认为是关键之一。

在发生说话人过拟合的任务不匹配情况下，由于汇聚层仅用固定权重减少信息，而卷积层使用训练数据训练，因此汇聚层在泛化上更有效。随着训练的继续，卷积层被训练以更好地识别给定的说话者，因此可能被过度训练。

相反，汇集层可以独立于火车集来减少特征地图大小。此外，在符号处理中，最大池可以是用于进行更平滑的下采样的上包络函数，期望其显示更好的泛化性能[31]。汇聚层还可以通过显著减少参数的数量来减轻扬声器过拟合[29]。

6、实验

1.1.数据集

我们使用VoxErravb（13）数据集进行说话人确认实验。VoxCeleb是用于说话人识别的公共数据集，包括1211个说话人（320小时）作为训练集，40个说话人（10小时）作为评价集。因此，在一个与文本无关的场景中，对原始波形的端到端DNN进行了探索。数据集分区和试用组合与Voxceleb的指导方针相同，这使得我们的系统性能直接与[13]相当，如表3所示。

2.2.实验设置

所有系统使用原始波形的长度为59049（＝310）（3.69秒）作为输入。预加重嵌入，使用具有一个长度为2的核的卷积层和跨步卷积层实现预加重。预加重嵌入的两个参数初始化为-0.97和1，跨卷积层的核长度和步长均为3。

采用随机梯度下降作为优化器，学习速率为10_3，动量为0.9。采用10×4的L2正则化。在全局平均汇聚层之后，RWCNN模型只使用了50%的辍学率。在每个模型的每一层都应用了批处理归一化。RWCNN和RWCNN-LSTM模型采用余弦相似性评分作为后端分类器。

RWCNN模型由九个卷积块和两个完全连接层组成。RWCNN模型采用“原始卷积块”作为卷积块，残差RWCNN模型采用“残差卷积块”。在RWCNN模型上，对各种技术的有效性进行了比较，包括L2规则化和残差连接。在RWCNN-LSTM模型中，使用一个具有512个单元的LSTM层，接着使用具有1024个节点的两个全连接层和一个输出层。采用两种初始化方法对RWCNN-LSTM模型进行训练，比较多步训练的效果。一个使用RWCNN的参数，另一个使用随机初始化。

在RWE2E模型中，利用两个1024维说话人特征的逐元素加、减和多重复制，组成3072维的b矢量。五个完全连接的隐藏层与1024个节点被使用。输出层有两个节点，每个节点指示两个话语是否来自同一个说话者。使用两种初始化方法训练RWE2E模型：一种使用RWCNN-LSTM的参数，另一种使用随机初始化。

3.3结果

从说话人过拟合的角度描述了正则化技术、多步训练和剩余连接与合并的有效性。RWE2E-残差模型，包括用于减轻说话人过拟合的所有技术，与其他最新的系统进行了比较。在表格中，“SID ACC”表示验证集的说话人识别的准确性，“SV EER”表示说话人验证的EER。当说话人验证的性能得到改进时，特别是当在验证集上没有相应的说话人识别性能改进时，一种技术被判断为能有效地减轻说话人过拟合。

L2正则化（即权重衰减）〔16〕有助于减轻说话人过度拟合。通过简单地对所有隐藏层采用权重衰减，获得了20%的相对性能改进。结果如表1所示。

多阶段训练的有效性见表2.在RWCNN-LSTM模型中，多步训练降低了验证集上的说话人识别精度，提高了说话人验证性能。结果表明，在任务失配条件下，多步训练有助于减轻说话人过拟合。多步训练也减轻了说话人过度拟合的端到端DNNs。

剩余连接和池化层的实验结果如表1和表2所示。表1显示了AP无连接池的剩余连接减少了性能。与汇聚层的残余连接成功减轻了扬声器过拟合，支持我们5.3节的假设。此外，还测试了“Inception-res-v2模型”，该模型显示了图像识别中的最新性能[21]，但是在原始波形模型中似乎没有效果。

本文的系统性能直接可与[13]中的结果相比较，因为数据集的配置和试验是相同的。结果在表3中进行了比较，表明我们提出的RWE2E模型具有L2正则化、与池的剩余连接以及多步训练，其性能优于i-./PLDA系统和以频谱图为输入的端到端系统。

7、结论与未来工作

在本文中，我们解释了一个被定义为说话人过拟合的现象，其中从嵌入模型中提取的说话人特征被过拟合到训练集中的说话人。剩余连接的成功采用是通过使用池层，在剩余网络中经常替换池层。在减轻说话人过拟合方面，还研究了其他技术，从而显著提高了性能。此外，首次验证了原始波形端到端DNN在文本无关场景中的有效性。此外，所提出的原始波形端到端DNN比使用VoxCeleb数据集的基于i-./PLDA和基于频谱的端到端DNN具有更好的性能。

然而，诸如改变目标函数或消除说话人过拟合的新方案等直接的基本解决方案尚未被发现。我们未来的工作将致力于寻找这些解决方案。

基于原始波形的端到端DNN中避免说话人过拟合的文本无关说话人验证

猜你喜欢