声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进
Scalable Data Annotation Pipeline for High-Quality Large Speech Datasets Development
本文是数据公司Appen在2021.09.01更新的文章,主要工作是开源了一套高效高质量的数据标注流程和语音数据集,具体的文章链接
https://arxiv.org/pdf/2109.01164.pdf
本文标注流程使用的系统
https://github.com/Appen/UHV-OTS-Speech
数据申请
https://appen.com/off-the-shelf-datasets/
(强烈推荐本文,该文章不仅授人以鱼而且授人以渔)
1 研究背景
AI的发展促进了语音领域的高速发展,即使已经开源了如下几个数据集,但用于训练和测试的语音数据依然不能满足算法的发展脚步,因此本文提出了一套高效率高质量的语音标注系统HITL,并开源了不断更新的语音数据集UHV-OTS (每年都更新数据为工业界和学术界使用)。
2 详细设计
本文的数据标注整个流程如图1所示分为诸多流程:
1)audio data collection: crowed clooection and web scraping
2) data pre-processing:source separation 工具 spleeter
3) data pre-filtering: synthetic speech detection
4)data pre-filtering:language & accent identification
5) Data pre-tagging: speech/non-speech audio segmentation
6) Data pre-tagging: speaker segmentation
7) Data pre-tagging: speaker clustering & identification
8) Data pre-tagging: speaker gender detection
9) Data pre-tagging: transcribe with ASR
10) Data pre-tagging: domain and topic detection
11)人工标注和质检Quality control mechanisms to ensure accurate annotation
a) Annotator selection & guideline training
b)Blind testing based quality control
c) Behavior monitoring based quality control
d) Real-time data validation & feedback
e) Final delivery quality measurement
3 总结
本文提出了一套高效率高质量的语音标注系统HITL,并开源了不断更新的语音数据集UHV-OTS