前段时间有好几位同学询问如何用Alize实现说话人识别的问题,由于寒假前赶Paper,来不及详细解答,更没时间写Demo。 开学后不久抽时间写了一个Demo,并上传到了GitHub:VoicePrintReco-branch-master. 现在新版的 Alize 3.0 已经提供了更多的官方 demo,我也将 GitHub 的源码升级了 VPR2.0, 其中的Demos文件夹有Alize官方的4个demo和我自己写的这个demo。

基本流程

下面将利用Alize+SPro进行简单的GMM-Based的说话人识别的基本流程总结如下:

1.Features extraction 特征提取

sfbcep.exe(MFCC)或slpcep.exe(LPCC)

2.Silence removal 静音检测和去除

NormFeat.exe 先能量规整
EnergyDetector.exe 基于能量检测的静音去除

3.Features Normalization 特征规整

NormFeat.exe 再使用这个工具进行特征规整

4.World model training

TrainWorld.exe 训练UBM

5.Target model training

TrainTarget.exe 在训练好UBM的基础上训练training set的GMM

6.Testing

ComputeTest.exe 将testing set在training set的GMM上进行测试和打分

7.Score Normalization

ComputeNorm.exe 将得分进行规整

8. Compute EER 计算等错误率

你可以查查计算EER的matlab代码,NIST SRE的官网上有下载DETware_v2.1.tar.gz 。_

获取帮助

关于各步骤中参数的问题,可以在命令行“工具 -help”来查看该工具个参数的具体含义,另外还可参考Alize源码中各个工具的test目录中提供的实例, 而关于每个工具的作用及理论知识则需要查看相关论文。

常见问题及解答: Frequently asked questions - by alize

更多问题请在 Google Groups 提出,大家一起讨论!

另外,还可以通过 QQ 群:二⑦九⑥四④零⑤柒 进行Real-Time的交流与讨论,加群请注明学校姓名,以防广告。

推荐资料

[1] ALIZE - User Manual: userguide_alize.001.pdf
[2] LIA_SPKDET Package documentation: userguide_LIA_SpkDet.002.pdf
[3] Reference System based on speech modality ALIZE/LIA RAL
[4] Jean-Francois Bonastre, etc. ALIZE/SpkDet: a state-of-the-art open source software for speaker recognition
[5] TOMMIE GANNERT. A Speaker Veri?cation System Under The Scope: Alize
[6] Alize Wiki

Original Link: http://ibillxia.github.io/blog/2013/04/26/building-speaker-recognition-system-using-alize-etc/
Attribution - NON-Commercial - ShareAlike - Copyright © Bill Xia