17.09.2024 14:00
Технологии

В "Яндексе" раскрыли особенности синтеза выразительной речи для озвучки книг

Текст:  Богдан Бобров
14 сентября в Москве в пространстве "Суперметалл" прошла ежегодная конференции Practical ML Conf компании "Яндекс".
/ Богдан Бобров/ РГ
Читать на сайте RG.RU

Мероприятие было посвящено использованию машинного обучения в бизнесе, продуктах и прикладных науках.

Помимо сотрудников отечественного поисковика среди выступающих были ведущие ML-инженеры "Т-Банка", "Сбера", Х5, HH.ru и других компаний.

Infinix выпустил в России новые ноутбуки INBOOK Y3H MAX и INBOOK Y4H MAX

Среди тем докладов текущего года разбирались технологии синтеза выразительной речи и обучение больших языковых моделей работе с кодом.

На конференции нам удалось пообщаться со Степаном Комковым, старшим разработчиком службы синтеза речи. Он выступил с докладом на тему: "Синтез выразительной речи для аудиокниг, прошлое, настоящее и будущее - как GPT и диффузионные модели произвели революции в синтезе речи и как мы это используем".

После выступления мы задали инженеру пару вопросов.

Степан Комков, старший разработчик службы синтеза речи / Предоставлено компанией "Яндекс"

"РГ": Сможет ли ваше продуктовое решение полностью заменить человека - оставить без работы актеров озвучки и профессиональных дикторов? Сколько, как Вы думаете, в перспективе этот процесс может занять? Что Вы можете посоветовать этим самым актерам озвучки и профессиональным дикторам, которые сейчас наблюдают за реактивным развитием вашей технологии выразительного синтеза речи?

Я искренне верю, что все-таки развитие технологии влечет за собой не замену человека, а рост его компетенции. По-настоящему профессиональных дикторов оказалось очень сложно найти. Тех, кто может читать сложнейшие предложения сходу, с учетом авторской пунктуации - их действительно единицы. Возможно, какие-то авторские YouTube-каналы, которые озвучивают книгу с качеством записи "на телефон", они потеряют какую-то часть аудитории. Мы стремимся к качеству профессиональных дикторов, мы к ним приближаемся скачками.

"РГ": Рассматривается ли внедрение технологии синтеза выразительной речи в другие продукты на перспективу - например, для озвучки игр или мультфильмов?

Об этом пока рано говорить, но когда происходят смены парадигмы по разным технологиям, они влияют на всё. Это сложно игнорировать.

В Москве прошел первый офлайн-турнир по игре Tanks Blitz
Сервисы