Mozilla оновила набір даних Common Voice, тепер у ньому є українська

1 хв. читання

03 липня 2020

· 0 · 0

Mozilla суттєво оновила свій набір даних Common Voice. Тепер у ньому є 54 мови і 7226 годин голосових записів. 14 з цих мов нові, зокрема з'явились українська, польська, чеська та грузинська. В українському датасеті є 235 унікальних голосів, 22 з 25 годин запису вже перевірені та готові до використання.

Найбільше мовців (понад 5000) є в наборах англійською, німецькою, французькою, італійською та іспанською мовами. Загалом з 7226 годин перевірено 5591.

Кожен запис складається з MP3-файлу і текстового супроводу, щоб їх було зручно використовувати для машинного навчання і розпізнавання голосу. Також до файлів зазвичай прикріплені дані про вік, стать чи акцент, що допомагає зробити алгоритм точнішим.

Розробники Mozilla хочуть створити універсальний набір голосових даних, що був би доступний для всіх. У травні Common Voice почав збирати дані для практичного використання — і зараз розробники публікують перший цільовий сегмент. В ньому є цифри від 0 до 9, слова «так» і «ні» та активація «Hey Firefox». Загалом 120 годин (64 перевірені), озвучених 18 мовами. Ці дані допоможуть Mozilla удосконалити механізм розпізнавання голосу Deep Speech, що має відкритий вихідний код.

Помітили помилку? Повідомте автору, для цього достатньо виділити текст з помилкою та натиснути Ctrl+Enter