В "Яндексе" раскрыли особенности синтеза выразительной речи для озвучки книг
Мероприятие было посвящено использованию машинного обучения в бизнесе, продуктах и прикладных науках.
Помимо сотрудников отечественного поисковика среди выступающих были ведущие ML-инженеры "Т-Банка", "Сбера", Х5, HH.ru и других компаний.
Среди тем докладов текущего года разбирались технологии синтеза выразительной речи и обучение больших языковых моделей работе с кодом.
На конференции нам удалось пообщаться со Степаном Комковым, старшим разработчиком службы синтеза речи. Он выступил с докладом на тему: "Синтез выразительной речи для аудиокниг, прошлое, настоящее и будущее - как GPT и диффузионные модели произвели революции в синтезе речи и как мы это используем".
После выступления мы задали инженеру пару вопросов.
"РГ": Сможет ли ваше продуктовое решение полностью заменить человека - оставить без работы актеров озвучки и профессиональных дикторов? Сколько, как Вы думаете, в перспективе этот процесс может занять? Что Вы можете посоветовать этим самым актерам озвучки и профессиональным дикторам, которые сейчас наблюдают за реактивным развитием вашей технологии выразительного синтеза речи?
Я искренне верю, что все-таки развитие технологии влечет за собой не замену человека, а рост его компетенции. По-настоящему профессиональных дикторов оказалось очень сложно найти. Тех, кто может читать сложнейшие предложения сходу, с учетом авторской пунктуации - их действительно единицы. Возможно, какие-то авторские YouTube-каналы, которые озвучивают книгу с качеством записи "на телефон", они потеряют какую-то часть аудитории. Мы стремимся к качеству профессиональных дикторов, мы к ним приближаемся скачками.
"РГ": Рассматривается ли внедрение технологии синтеза выразительной речи в другие продукты на перспективу - например, для озвучки игр или мультфильмов?
Об этом пока рано говорить, но когда происходят смены парадигмы по разным технологиям, они влияют на всё. Это сложно игнорировать.