Распознавание речи — довольно сложная задача, которая становится еще сложнее, если требуется решить ее для такого домена, как телефонные разговоры на русском языке. В Интернете существует не очень много релевантных материалов на эту тему, а предобученных моделей — тем более.
Мы хотим рассказать о различных методах решения задачи Speech To Text для телефонных звонков при помощи машинного обучения. Покажем, какие модели мы попробовали в Точке, как тюнили модель конкретно под нас, как теперь вся система поживает в проде и сколько денег мы сэкономили, отказавшись от покупки проприетарных решений.
Доклад будет интересен тем, кто хочет сделать систему распознавания звонков без использования проприетарных решений, а также тем, кому просто интересны методы решения задачи Speech To Text при помощи машинного обучения.