武汉大学联合中国移动九天人工智能团队开源音视频说话人识别数据集 VoxBlink2

武汉大学联合中国移动九天人工智能团队和昆山杜克大学基于YouTube数据开源了超过11万小时的音视频说话人识别数据集VoxBlink2。该数据集包含9904382个高质量音频片段及其相应的视频片段,来自YouTube上的111284名用户,是目前最大的公开可用的音视频说话人识别数据集。数据集的发布旨在丰富开源语音语料库,支持训练声纹大模型。

武汉大学联合中国移动九天人工智能团队开源音视频说话人识别数据集 VoxBlink2

VoxBlink2数据集通过以下步骤进行数据挖掘:

候选人准备:收集多语种关键词列表,检索用户视频,选取前一分钟视频用于处理。

人脸提取&检测:高帧率抽取视频帧,使用MobileNet检测人脸,确保视频轨仅含单个说话人。

人脸识别:预训练人脸识别器逐帧识别,确保音视频片段来源于同一人。

活动说话人检测:利用唇动序列和音频,通过多模态活动说话人检测器输出发声片段,混叠检测去除多说话人片段。

为提高数据准确率,还引入了集内人脸识别器的旁路步骤,通过粗略人脸提取、人脸验证、人脸采样和训练,将准确率从72%提高到92%。

VoxBlink2还开源了不同大小的声纹模型,包括基于ResNet的2D卷积模型和基于ECAPA-TDNN的时序模型,以及基于Simple Attention Module的超大模型ResNet293。这些模型在Vox1-O数据集上经过后处理后可达0.17%的EER和0.006%的minDCF。

数据集网站:https://VoxBlink2.github.io

数据集下载方式:https://github.com/VoxBlink2/ScriptsForVoxBlink2

元文件和模型:https://drive.google.com/drive/folders/1lzumPsnl5yEaMP9g2bFbSKINLZ-QRJVP

论文地址:https://arxiv.org/abs/2407.11510

 

声明:内容均采集自公开的网站等各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

谷歌Gemini重大更新:多语言支持、性能提升、面向青少年开放

2024-7-26 9:35:41

资讯

Stability AI发布单一视频转换多视图视频的生成模型:Stable Video 4D

2024-7-26 9:37:55

搜索