Google відкрив код технології, на якій базується Live Transcribe

1 хв. читання

Google відкрив код технології, на якій базується Live Transcribe — інструмент, що перетворює мовлення у текст. Ознайомитись з цим вихідним кодом можна на GitHub.

Live Transcribe вийшов у лютому цього року. Цей інструмент використовує алгоритми машинного навчання, щоб перетворити звук в текст в режимі реального часу. Його створили, передусім, для людей з вадами слуху.

Live Transcribe відрізняється від анонсованої Android функції Live Caption, тому що має повноекранний режим, використовує мікрофон (вбудований або зовнішній) і послуговується Google Cloud Speech API.

У режимі реального часу він може транскрибувати текст 70 мовами й діалектами. Це працює і навпаки — текст трансформується в аудіо. Інструмент встановлений на 1,8 млрд Android-пристроїв.

Деякі функції опублікованої на GitHub технології:

  • нескінченна потокова передача;
  • підтримка 70+ мов, є українська;
  • текст не втрачається, якщо сталися перебої в мережі, повідомлення просто затримається;
  • стійкість до серверних помилок;
  • кодування Opus, AMR-WB та FLAC легко вмикаються і налаштовуються;
  • можливість масштабування на офлайн-моделі;
  • є бібліотека форматування тексту для візуалізації;
  • ідентифікація мовця і виділення його тексту певним кольором та інші функції.

Google підкреслює, що надані бібліотеки пройшли усі тестування і вони практично такі самі, як бібліотеки застосунку Live Transcribe.

Помітили помилку? Повідомте автору, для цього достатньо виділити текст з помилкою та натиснути Ctrl+Enter
Codeguida 4.8K
Приєднався: 10 місяців тому
Коментарі (0)

    Ще немає коментарів

Щоб залишити коментар необхідно авторизуватися.

Вхід / Реєстрація