В "Яндексе" раскрыли особенности синтеза выразительной речи для озвучки книг

14 сентября в Москве в пространстве "Суперметалл" прошла ежегодная конференции Practical ML Conf компании "Яндекс".

Богдан Бобров/ РГ

Мероприятие было посвящено использованию машинного обучения в бизнесе, продуктах и прикладных науках.

Помимо сотрудников отечественного поисковика среди выступающих были ведущие ML-инженеры "Т-Банка", "Сбера", Х5, HH.ru и других компаний.

Среди тем докладов текущего года разбирались технологии синтеза выразительной речи и обучение больших языковых моделей работе с кодом.

На конференции нам удалось пообщаться со Степаном Комковым, старшим разработчиком службы синтеза речи. Он выступил с докладом на тему: "Синтез выразительной речи для аудиокниг, прошлое, настоящее и будущее - как GPT и диффузионные модели произвели революции в синтезе речи и как мы это используем".

После выступления мы задали инженеру пару вопросов.

Степан Комков, старший разработчик службы синтеза речи Фото: Предоставлено компанией "Яндекс"

"РГ": Сможет ли ваше продуктовое решение полностью заменить человека - оставить без работы актеров озвучки и профессиональных дикторов? Сколько, как Вы думаете, в перспективе этот процесс может занять? Что Вы можете посоветовать этим самым актерам озвучки и профессиональным дикторам, которые сейчас наблюдают за реактивным развитием вашей технологии выразительного синтеза речи?

Я искренне верю, что все-таки развитие технологии влечет за собой не замену человека, а рост его компетенции. По-настоящему профессиональных дикторов оказалось очень сложно найти. Тех, кто может читать сложнейшие предложения сходу, с учетом авторской пунктуации - их действительно единицы. Возможно, какие-то авторские YouTube-каналы, которые озвучивают книгу с качеством записи "на телефон", они потеряют какую-то часть аудитории. Мы стремимся к качеству профессиональных дикторов, мы к ним приближаемся скачками.

"РГ": Рассматривается ли внедрение технологии синтеза выразительной речи в другие продукты на перспективу - например, для озвучки игр или мультфильмов?

Об этом пока рано говорить, но когда происходят смены парадигмы по разным технологиям, они влияют на всё. Это сложно игнорировать.

Технологии

Сервисы

Россия Яндекс сервисы нейросети книги электронные книги литература

новости

больше новостей

Видео
Игра "Гардарики" о славянской мифологии получила первый тизер