語音識別開發需要多種數據集,以下是一些常用的語音識別數據集:
- Common Voice:包含26,119小時的錄音,涵蓋104種語言,提供年齡、性別、口音等人口統計元數據。
- CMU Wilderness Multilingual Speech Dataset:包含700多種不同語言的語音數據,平均每種語言提供大約20小時的句子長度轉錄。
- GigaSpeech:一個不斷發展的多域英語語音識別語料庫,包含10000小時的高質量標記音頻和40000小時的總音頻。
- MagicData-RAMC:包括351組多輪普通話對話,時長共計180小時,標注信息包括轉錄文本、語音活動時間戳等。
- Free ST Chinese Mandarin Corpus:包含855個speakers的120個話語,每個話語都經過人仔細的轉錄和核對。
這些數據集為語音識別開發提供了豐富的資源,有助于提高模型的準確性和魯棒性。選擇合適的數據集對于開發高效的語音識別系統至關重要。