Нейросеть как сделать голос

Обновлено: 06.01.2025

Информация: сайт выполняет разделение музыкального трека на отдельные составляющие: голос, отдельная музыка, барабаны, гитара, пианино и т.д. Примеры разделения трека на две части - голос и музыку можно посмотреть в видео ниже. Также посмотреть результаты разделений можно на демо-странице.

Добавлена возможность выбрать lossless-кодирование полученных файлов. Ранее была возможность использовать только MP3. Теперь добавлен вывод в WAV и FLAC.
Для всех основных алгоритмов: MDX, Demucs3 и Unmix добавлен вывод общего инструментального трека (instrumental).
Добавлен перевод сайта на Польский и Индонезийский языки.
Добавлен скрипт сброса GPU в случае зависания. Больше не должно быть длительных простоев сервера.

К сожалению, все самые качественные алгоритмы работают очень медленно из-за чего периодически образуются очереди ожидания. Думаем, что с этим делать.

Пришлось переехать на новый сервер из-за нехватки места на старом. Позитивный эффект - поменялась видеокарта на более мощную и с большим объемом памяти. Как следствие очереди ожидания уменьшились и ошибок связанных с недостатком GPU памяти стало меньше. Минус, что в два раза выросли затраты на сервер.
Был добавлен новый алгоритм Ultimate Vocal Remover (UVR). Он разбивает трек на две части музыку и вокал. При этом обычно делает это лучше spleeter. В оригинальном UVR очень много моделей и разных настроек. Мы выбрали одну из лучших моделей и оптимальные настройки. Возможно позже будет добавлен гибкий выбор настроек для алгоритма.
Победитель конкурса Music Demuxing Challenge наконец сделал релиз своего кода. Мы добавили его модели на сайт под названиями Demux3 Model A и Demux3 Model B. Demux3 Model B даёт более качественный результат, а для басов и барабанов работает лучше всех моделей, но слегка уступает по вокалу алгоритму MDX-B.

Алгоритм	Качество (Bass)	Качество (Drums)	Качество (Other)	Качество (Vocals)	Пример
Spleeter (4 stems)	5.774	5.845	4.321	6.939	Пример
UmxXL	6.619	6.838	4.891	7.732	Пример
MDX A	7.232	7.173	5.636	8.901	Пример
MDX B (Orig)	7.495	7.554	5.533	8.896	---
MDX B (UVR)	7.495	7.554	5.533	9.482	Пример
Ultimate Vocal Remover HQ	---	---	---	---	Пример
Demucs 3 Model A	8.115	8.037	5.193	7.968	Пример
Demucs 3 Model B	8.856	8.850	5.978	8.756	Пример

Обновлены ПО и код сайта. Разделение треков стало работать быстрее и стабильнее. Всё реже случаются падения нашего бекэнда.
Добавлен новый алгоритм разделения, который называется UnMix. У алгоритма доступно 4 модели "umxXL", "umxHQ", "umxSD", "umxSE". Самая качественная - первая "umxXL". По первым тестам, голос отделяет чуть хуже, чем spleeter, а вот инструменты лучше. В любом случае теперь открыто большое поле для экспериментов с треками.
Переделана страница с результатми разделения: добавлен оригинальный трек, удобно сравнивать с одной страницы. Добавлена информация по настройкам разделения, выводится информация по загруженному файлу, ID3-теги и изображение (если они есть).

И напоследок немного статистики. В день на сайте разделяется около 600-750 треков. А за всё время было разделено более 300,000 треков. Двигаемся в сторону миллиона.

Статистика: количество разделенных треков за последний день

Всё началось с Веры

Вот даёшь им задание обзвонить 100 человек, а они делают 80 или 50 звонков. Потом слушаешь звонки, а они обзванивают не так — не по твоему скрипту, задают вопросы, которые не нужно задавать. И, собственно, робот эту проблему решил: он не болеет, не прогуливает и работает тупо по скрипту. Ни шага влево-вправо.

Разработчики стали задумываться — почему так происходит? Стали анализировать звонки и поняли, что люди бросают трубку, когда слышат голос робота. На рынке есть всего несколько стандартных голосов, которые используют все. Люди слышат эти голоса и думают: так, это спам, это реклама, это банк, это коллекторы.

«Мы стали думать, как бы отстроиться от этой истории. Мы-то звоним по работе. Говорить сразу „Привет, это по работе“ — даже на слове „привет” могут бросить трубку.

$1,2 млрд — за четыре года

Собчак, Познер и Путин — в одном флаконе

Проект синтеза голосов Vera Voice официально стартовал 28 октября. В первом видео нейросеть копирует речь Владимира Путина, Ксении Собчак и Владимира Познера. Во втором — говорит голосом Владимира Высоцкого.

Как FaceApp — только с голосами

Фейки против реальности

Если, к примеру, голосом Ксении Собчак или Владимира Познера скажут какую-то глупость, это не так страшно — в основном люди подумают, что это фейк, говорит Владимир Свешников. Но другое дело, если люди захотят использовать чужой голос в каких-то конкретных целях.

Как работает нейросеть?

Дыхание Собчак

Вера для билингвов

Поднять инвестиции

Нет значит нет

Стартап Stafory использует голос только с согласия его обладателя. Есть маркетплейс, на котором можно заказать озвучку любым голосом, — и если человек не против, текст будут озвучивать его голосом.

Твой голос — мой голос

Есть два важных вопроса, которые предстоит решить законодателям:

Стартап Stafory планирует выступить с инициативой о регулировании рынка синтезируемых голосов.

Vera Voice в Голливуде

Синтез ждёт перемен

Ещё одна сфера, где может применяться технология синтеза голосов, — это музыка для кафе. «У нас ребята баловались с синтезом. Перепевали песни всякими голосами. Но получается достаточно плохо. Сетка же не умеет петь. Какую-то гласную, например „е“, просто пишем несколько раз. Это звучит ужасно.

Стартап победителей

Сейчас стартап работает над контролируемым синтезом, который учитывает шесть базовых эмоций: счастье, удивление, страх, отвращение, гнев и печаль. Особенно это поможет при озвучивании аудиокниг и рекламных роликов.

«В случае с песнями когда-нибудь мы получим какой-то суперконтролируемый голос, и он начнет выигрывать на Евровидении. Уже сейчас нейросети побеждают в гейм-индустрии — в „Доте“ (Dota2) и в го.

После стольких лет? Всегда

Планируется, что комнату откроют 25 июля — в день, когда будет 40 лет со дня смерти Высоцкого. А пока комнату готовят, низкий голос с хрипотцой звучит со сцены:

В сети появился сервис Uberduck.ai, который позволяет превращать любой текст в аудиофайлы с голосами знаменитостей или вымышленных персонажей. Об этом рассказал автор твиттер-аккаунта jetski0.

Он опубликовал ролик, в котором мем про креветки озвучен голосом рэпера Канье Уэста. Также программа позволяет выбрать голоса Эминема, Ники Минаж, Джея Зи, Notorious B.I.G, Шрэка, Марио.

Пользователи с базовыми навыками программирования могут добавить голоса других звезд или персонажей. Для этого им нужно загрузить аудиозаписи с примерами речи — нейросеть их проанализирует и запомнит.

Сейчас на сайте уже доступны более 200 голосов — киногероев, персонажей сериалов, мультфильмов и видеоигр, участников телешоу и рекламных роликов, известных политиков и музыкантов.

Задача такова: нужно создать нейросеть, которую можно обучить аудиофайлами с голосом (например Шаляпина), чтобы после этого на вход ей давать любой голос, а на выходе получать голос Шаляпина.

Какие удобные способы решения этой задачи уже существуют ? Какой фреймворк проще (предпочтительнее) использовать ? В общем хочу быстрее приступить к реализации. Думаю эта задача уже решена и решение помещено в какую-то библиотеку.

2 ответа 2

"Как быстро создать нейросеть которая меняет голос" - залезть в Гуугл, сформулировать запрос, пройти по полученным ссылкам, отобрать ту технологию, которая вам наиболее подходит (ибо их масса), изучит как с ней работать, встроить в свой проект, получить профит.

Поскольку короновирус как-то так повлиял на людей, что большинство разучилось пользоваться Гууглом, сделаю первый шаг за вас.

Быстрее - вряд ли получиться.

Я думаю найти специалиста который уже реализовывал эту задачу или знаком с её реализацией и подскажет конкретную библиотеку которая на это способна или может даже существующую нейросеть для решения этой задачи

Читайте также: