Создана нейросеть, которая генерирует музыку по текстовому описанию

Нейросеть Stable Diffusion приобрела широкую известность, так как умеет генерировать изображения по текстовому описанию. Но оказалось, что с ее помощью можно также создавать и музыку.

Суть идеи в том, что система продолжает работать с изображениями. Она создает аудиоспектрограммы — визуальные изображения звуковых частот в треке. После этого нужно лишь «воспроизвести» полученный звук.

Нейросеть обучили на сонограммах, которые описывают музыкальные жанры или звуки. В результате получилась Riffusion — нейросеть, способная генерировать звук из изображения, которое создается по текстовому описанию. Для вывода именно аудиодорожки используется Torchaudio.

При этом разработчики смогли заставить нейросеть генерировать такие аудиоклипы, которые могли бы плавно «перетекать» друг в друга.

Ранее стало известно о том, что художники взбунтовались против креативов, создаваемых нейросетью. Интересно, будут ли бунтовать композиторы?