Munute — это новейшее достижение в сфере искусственного интеллекта, предназначенное для улучшения музыкальных треков. Эта система может выполнять различные задачи: от удаления шумов и регулировки громкости до улучшения выразительности отдельных инструментов и полного пересведения песни. Давайте подробнее рассмотрим возможности этой удивительной нейросети.
Stable Diffusion и Основы Munute Stable Diffusion — нейросеть, изначально созданная для генерации изображений по текстовому описанию. Однако её способности выходят за рамки визуального искусства. В процессе исследований выяснилось, что Stable Diffusion также может создавать музыку. Munute — продукт, разработанный на базе Stable Diffusion, предназначенный для улучшения музыкальных композиций. Вот как это работает:
Генерация Аудиоспектрограмм Stable Diffusion создает аудиоспектрограммы, которые представляют собой визуальные отображения звуковых частот в треке. Эти спектрограммы можно преобразовать обратно в звуковую дорожку. Нейросеть обучена на сонограммах, которые описывают различные музыкальные жанры и звуки.
Riffusion: Генерация Звука из Изображений В процессе обучения была разработана нейросеть Riffusion, способная генерировать звук из изображения, создаваемого по текстовому описанию. Для воспроизведения аудиодорожек используется Torchaudio. Разработчики добились плавного перехода между аудиоклипами, чтобы изменения темпа музыки происходили естественно и гармонично.