Нейросеть как сделать голос
Информация: сайт выполняет разделение музыкального трека на отдельные составляющие: голос, отдельная музыка, барабаны, гитара, пианино и т.д. Примеры разделения трека на две части - голос и музыку можно посмотреть в видео ниже. Также посмотреть результаты разделений можно на демо-странице.
- Добавлена возможность выбрать lossless-кодирование полученных файлов. Ранее была возможность использовать только MP3. Теперь добавлен вывод в WAV и FLAC.
- Для всех основных алгоритмов: MDX, Demucs3 и Unmix добавлен вывод общего инструментального трека (instrumental).
- Добавлен перевод сайта на Польский и Индонезийский языки.
- Добавлен скрипт сброса GPU в случае зависания. Больше не должно быть длительных простоев сервера.
К сожалению, все самые качественные алгоритмы работают очень медленно из-за чего периодически образуются очереди ожидания. Думаем, что с этим делать.
- Пришлось переехать на новый сервер из-за нехватки места на старом. Позитивный эффект - поменялась видеокарта на более мощную и с большим объемом памяти. Как следствие очереди ожидания уменьшились и ошибок связанных с недостатком GPU памяти стало меньше. Минус, что в два раза выросли затраты на сервер.
- Был добавлен новый алгоритм Ultimate Vocal Remover (UVR). Он разбивает трек на две части музыку и вокал. При этом обычно делает это лучше spleeter. В оригинальном UVR очень много моделей и разных настроек. Мы выбрали одну из лучших моделей и оптимальные настройки. Возможно позже будет добавлен гибкий выбор настроек для алгоритма.
- Победитель конкурса Music Demuxing Challenge наконец сделал релиз своего кода. Мы добавили его модели на сайт под названиями Demux3 Model A и Demux3 Model B. Demux3 Model B даёт более качественный результат, а для басов и барабанов работает лучше всех моделей, но слегка уступает по вокалу алгоритму MDX-B.
Алгоритм | Качество (Bass) | Качество (Drums) | Качество (Other) | Качество (Vocals) | Пример |
---|---|---|---|---|---|
Spleeter (4 stems) | 5.774 | 5.845 | 4.321 | 6.939 | Пример |
UmxXL | 6.619 | 6.838 | 4.891 | 7.732 | Пример |
MDX A | 7.232 | 7.173 | 5.636 | 8.901 | Пример |
MDX B (Orig) | 7.495 | 7.554 | 5.533 | 8.896 | --- |
MDX B (UVR) | 7.495 | 7.554 | 5.533 | 9.482 | Пример |
Ultimate Vocal Remover HQ | --- | --- | --- | --- | Пример |
Demucs 3 Model A | 8.115 | 8.037 | 5.193 | 7.968 | Пример |
Demucs 3 Model B | 8.856 | 8.850 | 5.978 | 8.756 | Пример |
- Обновлены ПО и код сайта. Разделение треков стало работать быстрее и стабильнее. Всё реже случаются падения нашего бекэнда.
- Добавлен новый алгоритм разделения, который называется UnMix. У алгоритма доступно 4 модели "umxXL", "umxHQ", "umxSD", "umxSE". Самая качественная - первая "umxXL". По первым тестам, голос отделяет чуть хуже, чем spleeter, а вот инструменты лучше. В любом случае теперь открыто большое поле для экспериментов с треками.
- Переделана страница с результатми разделения: добавлен оригинальный трек, удобно сравнивать с одной страницы. Добавлена информация по настройкам разделения, выводится информация по загруженному файлу, ID3-теги и изображение (если они есть).
И напоследок немного статистики. В день на сайте разделяется около 600-750 треков. А за всё время было разделено более 300,000 треков. Двигаемся в сторону миллиона.
Статистика: количество разделенных треков за последний день
Всё началось с Веры
Вот даёшь им задание обзвонить 100 человек, а они делают 80 или 50 звонков. Потом слушаешь звонки, а они обзванивают не так — не по твоему скрипту, задают вопросы, которые не нужно задавать. И, собственно, робот эту проблему решил: он не болеет, не прогуливает и работает тупо по скрипту. Ни шага влево-вправо.
Разработчики стали задумываться — почему так происходит? Стали анализировать звонки и поняли, что люди бросают трубку, когда слышат голос робота. На рынке есть всего несколько стандартных голосов, которые используют все. Люди слышат эти голоса и думают: так, это спам, это реклама, это банк, это коллекторы.
«Мы стали думать, как бы отстроиться от этой истории. Мы-то звоним по работе. Говорить сразу „Привет, это по работе“ — даже на слове „привет” могут бросить трубку.
$1,2 млрд — за четыре года
Собчак, Познер и Путин — в одном флаконе
Проект синтеза голосов Vera Voice официально стартовал 28 октября. В первом видео нейросеть копирует речь Владимира Путина, Ксении Собчак и Владимира Познера. Во втором — говорит голосом Владимира Высоцкого.
Как FaceApp — только с голосами
Фейки против реальности
Если, к примеру, голосом Ксении Собчак или Владимира Познера скажут какую-то глупость, это не так страшно — в основном люди подумают, что это фейк, говорит Владимир Свешников. Но другое дело, если люди захотят использовать чужой голос в каких-то конкретных целях.
Как работает нейросеть?
Дыхание Собчак
Вера для билингвов
Поднять инвестиции
Нет значит нет
Стартап Stafory использует голос только с согласия его обладателя. Есть маркетплейс, на котором можно заказать озвучку любым голосом, — и если человек не против, текст будут озвучивать его голосом.
Твой голос — мой голос
Есть два важных вопроса, которые предстоит решить законодателям:
Стартап Stafory планирует выступить с инициативой о регулировании рынка синтезируемых голосов.
Vera Voice в Голливуде
Синтез ждёт перемен
Ещё одна сфера, где может применяться технология синтеза голосов, — это музыка для кафе. «У нас ребята баловались с синтезом. Перепевали песни всякими голосами. Но получается достаточно плохо. Сетка же не умеет петь. Какую-то гласную, например „е“, просто пишем несколько раз. Это звучит ужасно.
Стартап победителей
Сейчас стартап работает над контролируемым синтезом, который учитывает шесть базовых эмоций: счастье, удивление, страх, отвращение, гнев и печаль. Особенно это поможет при озвучивании аудиокниг и рекламных роликов.
«В случае с песнями когда-нибудь мы получим какой-то суперконтролируемый голос, и он начнет выигрывать на Евровидении. Уже сейчас нейросети побеждают в гейм-индустрии — в „Доте“ (Dota2) и в го.
После стольких лет? Всегда
Планируется, что комнату откроют 25 июля — в день, когда будет 40 лет со дня смерти Высоцкого. А пока комнату готовят, низкий голос с хрипотцой звучит со сцены:
В сети появился сервис Uberduck.ai, который позволяет превращать любой текст в аудиофайлы с голосами знаменитостей или вымышленных персонажей. Об этом рассказал автор твиттер-аккаунта jetski0.
Он опубликовал ролик, в котором мем про креветки озвучен голосом рэпера Канье Уэста. Также программа позволяет выбрать голоса Эминема, Ники Минаж, Джея Зи, Notorious B.I.G, Шрэка, Марио.
Пользователи с базовыми навыками программирования могут добавить голоса других звезд или персонажей. Для этого им нужно загрузить аудиозаписи с примерами речи — нейросеть их проанализирует и запомнит.
Сейчас на сайте уже доступны более 200 голосов — киногероев, персонажей сериалов, мультфильмов и видеоигр, участников телешоу и рекламных роликов, известных политиков и музыкантов.
Задача такова: нужно создать нейросеть, которую можно обучить аудиофайлами с голосом (например Шаляпина), чтобы после этого на вход ей давать любой голос, а на выходе получать голос Шаляпина.
Какие удобные способы решения этой задачи уже существуют ? Какой фреймворк проще (предпочтительнее) использовать ? В общем хочу быстрее приступить к реализации. Думаю эта задача уже решена и решение помещено в какую-то библиотеку.
2 ответа 2
"Как быстро создать нейросеть которая меняет голос" - залезть в Гуугл, сформулировать запрос, пройти по полученным ссылкам, отобрать ту технологию, которая вам наиболее подходит (ибо их масса), изучит как с ней работать, встроить в свой проект, получить профит.
Поскольку короновирус как-то так повлиял на людей, что большинство разучилось пользоваться Гууглом, сделаю первый шаг за вас.
Быстрее - вряд ли получиться.
Я думаю найти специалиста который уже реализовывал эту задачу или знаком с её реализацией и подскажет конкретную библиотеку которая на это способна или может даже существующую нейросеть для решения этой задачи
Читайте также: