淘先锋技术网

首页 1 2 3 4 5 6 7

声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进

Scalable Data Annotation Pipeline for High-Quality Large Speech Datasets Development

本文是数据公司Appen在2021.09.01更新的文章,主要工作是开源了一套高效高质量的数据标注流程和语音数据集,具体的文章链接

https://arxiv.org/pdf/2109.01164.pdf

本文标注流程使用的系统

https://github.com/Appen/UHV-OTS-Speech

数据申请

https://appen.com/off-the-shelf-datasets/​


(强烈推荐本文,该文章不仅授人以鱼而且授人以渔)

1 研究背景

AI的发展促进了语音领域的高速发展,即使已经开源了如下几个数据集,但用于训练和测试的语音数据依然不能满足算法的发展脚步,因此本文提出了一套高效率高质量的语音标注系统HITL,并开源了​不断更新的语音数据集UHV-OTS (每年都更新数据为工业界和学术界使用)。

2  详细设计

本文的数据标注整个流程如图1所示​分为诸多流程​:


   1)audio data collection: crowed clooection and web scraping

   2)  data pre-processing:source separation 工具 spleeter

   3) data pre-filtering: synthetic speech detection 

   4)data pre-filtering:language & accent identification

  5) Data pre-tagging: speech/non-speech audio segmentation

  6) Data pre-tagging: speaker segmentation

   7) Data pre-tagging: speaker clustering & identification

8) Data pre-tagging: speaker gender detection

9) Data pre-tagging: transcribe with ASR 

10) Data pre-tagging: domain and topic detection

11)人工标注和质检Quality control mechanisms to ensure accurate annotation

        a) Annotator selection & guideline training

        b)Blind testing based quality control

        c) Behavior monitoring based quality control

        d) Real-time data validation & feedback

        e) Final delivery quality measurement

3 总结

本文提出了一套高效率高质量的语音标注系统HITL,并开源了不断更新的语音数据集UHV-OTS