Как сделать свой синтезатор речи
сдесь расположены синтезаторы, работающие на платформах sapi4 и sapi5, а так же для установки в NVDA
NewFon - синтезатор русской речи работающий на платформе sapi5
Для тех, кто привык к голосу мышки Волкова
и бесплатный вариант которого в новых версиях jaws и 64 разрядных системах недоступен.
Предлагается аналог этого синтезатора, который раньше был доступен в виде аддона для NVDA.
NewFon-SAPI-V.2019.03.06
размер: 2,41 Мб.
Setup-Newfon SAPI-v2019.03.03
размер: 2,41 Мб.
При первой установке этого синтезатора появится окно для его конфигурирования,
но не все знают какие параметры нужно устанавливать для нормальной речи в этом синтезаторе.
Для тех, кто не желает самостоятельно конфигурировать голос,
предлагаю скачать и установить по пути:
c:\Program Files\Freedom Scientific\JAWS\18.0\sapi5x.ini
файл sapi5x.ini с настроенной конфигурацией (предварительно его нужно распаковать).
sapi5x
размер: 4,98 Кб.
вернуться к содержанию
acapela elan tts 5.1 nikolay - синтезатор русской речи
для работы этого синтезатора нужно установить драйвер под sapi4.
скачать его можно здесь
размер: 853 кб.
если просто установить этот голос, то будет доступен только sapi5
прослушать голос николай
Acapela-elan-tts-speechcube-5.1-rus-nicolai
размер: 12,3 Мб.
вернуться к содержанию
Катерина realspeak синтезатор русского голоса
dolphin_guide_milena - синтезатор русской речи
новая версия синтезатора с голосом милена .
улучшена регулировка скорости произношения, отклик на нажатие клавишь,
да и сам голос стал звучать приятнее. А так же исправлен баг с чтением цыфр.
единственный, на мой взгляд недостаток - это
голос конфликтует с катериной, т. Е.
будет работать или один или другой, при установке милены катерина перестанет говорить, если катерина работает на платформе sapi5.
прослушать пробный ролик голоса милена
скачать можно здесь
размер: 118 Мб.
вернуться к содержанию
алёна версия-2.20 - sapi4, sapi5 (синтезатор русского голоса)
а это всем известный синтезатор, от той же компании что и николай - алёна работающий и под sapi4 и под sapi5:
прослушать тестовый ролик с голосом алёна
скачать можно здесь - пароль 12345
размер: 176 мб.
вернуться к содержанию
синтезатор Loquendo TTS с голосами ольга и simon - русский и английский голоса
Loquendo TTS это много раз завоевавший награды метод синтеза речи
с бесподобной эмоциональной выразительностью и неподдельно, словно живыми, голосами для всех основных языков.
К сожалению не работает ни в jaws ни в NVDA в системах windows 7 и 10.
Использовать возможно только для чтения и записи книг в mp3 под балаболку.
прослушать тестовый ролик голоса ольга
скачать синтезатор с голосами Ольга и Симон
размер: 139 мб.
rh-voys - синтезатор русского голоса
ещё один синтезатор, работающий на платформе sapi5, а так же в скрин ридере NVDA.
этот синтезатор разработала ольга яковлева.
можете объяснить как самому такое сделать? наподобие того что я скинул.
Руслан Холявко пришел узнать, как сделать озвучку на халявку?
Два варианта :
Ручками прогоняешь каждую фразу через голосового помошника и вставляешь в игру.
Вариант два - пишешь скрипт чтотэто сделает за тебя.
Я в этом всём дно
там и оставайся
Ну тогда у тебя всего два варианта:
Ручками прогоняешь каждую фразу через голосового помошника и вставляешь в игру.
Вариант два - пишешь скрипт чтотэто сделает за тебя.
Ммм. А мне нравиться этот парень, ясно видно что рубит фишку !
В смысле записать в MP3? А потом что мне делать с аудио файлом?
написано в первом же абзаце:
"Локализация озвучки была создана с помощью использования синтезатора речи от Yandex, как для женского, так и для мужского голоса. В озвучки используется мужской и женский голос синтезатора."
Если ты это не смог прочитать, то начни хотя бы с азбуки.
Я смог прочитать, но как мне это реализовать, первый раз в жизни этим занимаюсь.
и не начинай, я вижу для тебя это сложно, просто вставить текст в синтезатор речи и записать это мп3.
А чтобы это сделать На каком уровне должны быть знания по программированию, просто друг программирование увлекаются, на любительском уровне.
На нулевом, достаточно просто включить логику, и пройтись по форумам, на геймермодс даже статья есть "Озвучка модов" с детальным описанием как повторить, если тебя конкретно движок бетхезды интересует для таких извращений. С играми другого калибра, без возможности перебирать движок, сложнее, особенно с теми которые свои файлы кодируют. Но иногда находятся программы для экстракции содержимого и обратной упаковки, гуглишь, вникаешь, пытаешься. А да, и прийдется освоить что некоторые вмешательства в движок игры любой, могут привести к разным последствиям, короче устанешь тестить каждый билд своей работы через неделю такого энтузиазма и бросишь, так как тебе даже лень было прогуглить и вникнуть самому в эту тему.
В этом году Selectel стал поддерживать некоммерческий проект RHVoice Lab — лабораторию по созданию новых голосов для одноименного отечественного синтезатора речи. Его особенность в том, что синтезатор разработан специально для слабовидящих и незрячих людей, для бытового использования. Руководитель проекта Артём Плаксин рассказал, как появилась идея RHVoice Lab, как воссоздать голос Артемия Лебедева при помощи сервера от Selectel и можно ли быть программистом, если ты не видишь код.
Об RHVoice
Об отечественном синтезаторе речи и его создательнице — Ольге Яковлевой — писали год назад. Если вы лишь примерно представляете, как работают синтезаторы речи, рекомендуем обратиться к этой статье.
Скринридер (Screen reader) — это программа экранного доступа. Он по кусочкам разбирает интерфейсы программ, сайтов, текст и прочее и в специализированном виде подает на брайлевский дисплей или синтезатор речи. К таким программам относятся NVDA, Jaws, Talkback, VoiceOver.
Скринридер во многом работает как поисковые системы — парсит информацию по HTML-разметке. Люди обычно не задумываются, что стоит за заголовком, кнопками, текстом и хедером на сайте — они охватывают все визуально. Для незрячих людей правильная разметка, добавление лейблов очень важны, так как это позволяет скринридеру работать эффективнее, а синтезатору речи — озвучивать так, чтобы незрячий человек мог взаимодействовать с сайтом.
RHVoice продолжает развиваться: в июле вышел релиз версии 1.4.2 (подробнее об изменениях можно узнать по ссылке). Одно из главных новшеств — замена библиотеки Sonic для ускорения голоса на собственное решение RHVoice. Незрячему человеку важно иметь гибкость в настройке синтеза речи: изменять тон, громкость, скорость воспроизведения без ущерба качеству и четкости речи. Поэтому большая часть улучшений направлена на достижение этой гибкости, замены устаревших решений на более современные.
Появление RHVoice Lab
Лаборатория RHVoice Lab появилась в 2020 года. До этого в каталоге RHVoice было четыре русскоязычных голоса, каждый из которых создала основательница проекта Ольга Яковлева.
Как отмечает Артём, изначально плана создавать целую библиотеку голосов не было. Начали с одного.
На тот момент команды, которая могла бы реализовать идею, не было. Понимания, как выстроить процесс, тоже. Зато была дружба с Бекой Гозалишвили, незрячим разработчиком, который занимался языковым модулем для грузинского языка в рамках проекта RHVoice. Он рассказал, как можно реализовать задумку, и в итоге вошел в команду лаборатории в качестве технического специалиста.
Вся команда RHVoice Lab состоит из четырех человек. Это Артём Плаксин в роли тимлида, инженер монтажа Сергей Паршаков, инженер звукозаписи Денис Шишкин и уже упомянутый программист из Грузии Бека Гозалишвили. О всех членах команды можно почитать в Instagram лаборатории.
Как синтезировали голос Артемия Лебедева
Сначала Артём Плаксин написал потенциальному диктору и предложил поучаствовать в проекте. Артемий согласился.
Языковой модуль для русского языка у RHVoice Lab уже был. Он — база для создания любого голоса для синтезатора речи. Русскоязычный модуль был собран еще в самом начале существования проекта RHVoice, на нем Ольга Яковлева создала первый голос в RHVoice — Александр.
Языковой модуль – это то, на основе чего формируется голос, — некий свод правил, инструкция. Он определяет, как будет звучать та или иная графема, или буква, в определенной позиции. По сути, это просто много описаний в текстовых файлах, специального формата, в специальном синтаксисе.
Языковой модуль — результат сложной коллаборации программистов и лингвистов. Но его достаточно разработать один раз и создавать голоса уже на базе готового модуля. Естественно, языковая модель одного языка не подойдет для другого: на модели для русского языка не запишешь голос для украинского языка.
За более десятилетнее существование RHVoice были созданы языковые модули для американского английского, украинского, киргизского, грузинского, эсперанто. В последнем релизе добавился македонский язык.
Добавление новых языков – трудная задача. Помимо программистов, нужны языковеды, лингвисты, специализирующиеся на фонетике определенного языка. Поэтому новые языки добавляются не так часто, как хотелось бы, и не те, что обычно нужны людям. Одним из факторов создания языка является грант от какой-либо организации (например, United Nations Development Programme) или запрос от коммерческой компании. Так как разработка языкового модуля — трудоемкая задача, которая может занимать до полутора лет, добавлять язык без финансовой или грантовой поддержки непросто.
Этап 1. Запись речевой базы
Что обычно делает диктор? Он должен записать от 600 до 2 500 предложений в зависимости от подобранной речевой базы. Это отдельные предложения, сформулированные так, чтобы содержать в себе все фонетическое богатство языка. В дальнейшем каждое отдельное предложение является единицей для тренировки.
Артемий Лебедев постепенно начал присылать фрагменты записей — всего он записал 1 160 предложений. Так сформировалась речевая база, пока что в сыром виде.
Время, которое уходит на запись речевой базы, зависит от диктора. Артемий Лебедев записал весь материал за 1 час 40 минут суммарно, а фактического текста вышло на 1,5 часа. То есть на монтаже лишними оказались лишь 10 минут. Обычно дикторы присылают от 1,5 до 3 часов готового материала. На запись у них уходит от 2 до 6 часов.
Этап 2. Монтаж
Далее запись в WAV-формате переходит в руки инженера монтажа — материал нужно порезать. В случае с Артемием были длинные куски по 10 минут, обычно в таких отрезках содержится порядка 200 предложений. Чтобы работать дальше, аудиофайлы нужно порезать на отдельные предложения так, чтобы один аудиофайл был равен одному предложению и длился 3-6 секунд. Количество аудиофайлов должно совпадать с количеством строк в текстово-речевой базе. Также на этом этапе убираются какие-то речевые огрехи.
Этап монтажа, в целом, не слишком длинный. Он занимает несколько суток, иногда неделю, если инженер монтажа занят. RHVoice Lab – некоммерческий проект, поэтому участники занимаются им в свободное время, когда есть время и силы.
Этап 3. Звукорежиссура
После c очищенной базой начинает работать звукорежиссер. Специалист RHVoice использует REAPER. Он корректирует амплитудно-частотные, а также спектральные характеристики записи, подбирает индивидуальное звучание диктора на основе его речевых особенностей. Это кропотливая работа: для создания качественного голоса каждый лишний звук должен быть убран, чтобы добиться стандартов дикторской речи без каких-либо шумов и посторонних звуков. Мастерство звукорежиссера важно, но также важно качество записи. Поэтому перед дикторами устанавливают достаточно высокую планку качества записи.
При записи аналогового звука в цифровой файл звук кодируется не слоями, а единым потоком. Это значит, что все звуки как бы вплетаются в полезный сигнал голоса диктора. Когда звукорежиссер вычитает какой-либо фрейм спектра из файла, страдает и полезный сигнал.
Этап 4. Тренировка
После рендеринга аудиофайлы отправляются в комплекс программ, среди которых HTS (HMM-based speech synthesis system). Здесь звуки сопоставляются буквам.
Затем самая важная и сложная часть — тренировка речевой базы. Технический специалист извлекает фундаментальную частоту диктора и преобразовывает аудиоматериал в готовый голос.
Тренировка – это длительный процесс. Вкупе он может занимать от 6 до 15 часов в зависимости от размера речевой базы. Влияет и количество вычислительных мощностей: на старом сервере процесс мог занимать до 30 часов, но благодаря инфраструктуре от Selectel скорость увеличилась в разы.
Голос Юрий
Специалисты RHVoice Lab могут воссоздать голос не только ныне живущего человека. Так, команда сделала голос Юрий. Этот модуль воспроизводит текст с интонацией и характером актера и чтеца аудиокниг Юрия Николаевича Заборовского.
Получив согласие на создание голоса от вдовы, команда RHVoice Lab начала работу. Записать новую речевую было невозможно, поэтому они работали с тем, что было. В распоряжении энтузиастов было около 1 000 аудиокниг, которые озвучил легендарный чтец за последний 40 лет.
Об аудитории
Точно сказать, сколько человек пользуются в RHVoice, сложно. Суммарно голоса из каталога скачали около 15 000 раз. Но на эту цифру ориентироваться неправильно: многие голоса можно скачать напрямую из GitHub-репозитория RHVoice, какие-то распространяются по ссылкам через файлообменники.
Порог входа для использования инструмента невысокий: человеку достаточно уметь пользоваться скринридером. Подобные программы сейчас разработаны для всех популярных операционных систем: для MacOS, Android, Windows, даже Linux. С сайта RHVoice Lab можно скачать аддоны, которые достаточно легко установить в программы экранного доступа, — они представлены в форматах для NVDA и SAPI 5.
Технологический стек проекта
Инфраструктура
Второй сервер необходим для оперативной деятельности проекта. Раньше RHVoice Lab использовала мощности виртуальной машины с довольно скромными характеристиками: 4 ядра, 8 Гб RAM и SSD на 100 Гб. Пропускная способность — 100 Мбит/c.
По словам разработчиков, на старом сервере этап тренировки голоса занимал до 30 часов, на новом — около 10 часов. Конвертация исходных данных на первом этапе раньше занимала 55 минут, на новом сервере — 6 минут. Разница колоссальная.
Инструменты и решения
Все HTS работают на Perl, это наследство 90-х годов. Сам синтезатор речи RHVoice написан на C++, но энтузиасты, создающие голоса, взаимодействуют с ним в меньшей степени. Cкрипты для запуска конвертаций, разметки, создания вопросов, тренировки и других операций написаны на Shell.
Создание голоса — это многоэтапный проект, и на каждом этапе разработчикам помогает Telegram-бот собственной разработки. Он отправляет в рабочий чат уведомления о завершенной работе, успехах и ошибках, если они появляются. Так как вся команда — незрячие люди, бот играет важную роль в контролировании порядка разработки.
Наличие облачного хранилища критично для команды. Все готовые голоса, проекты в REAPER, речевые базы весят уже более 150 Гб — все они хранятся в облаке на одном из серверов. Когда звукорежиссер рендерит речевую базу, данные прилетают на сервер и прямо с сервера отправляются на тренировку. Сейчас все работает быстро.
Об инклюзивности российского ПО
Как отмечает Артём Плаксин, отечественное ПО на 90% проигрывает в инклюзивности любому западному. Так, система 1С – полностью не доступный для незрячих и слабовидящих людей продукт. И руководство компании пока не видит причин делать его доступным. Хотя ПО нередко используют для работы колл-центров, где незрячие люди вполне могли реализоваться.
Компании задумываются об инклюзивности, как только начинают видеть в незрячих людях своих потенциальных клиентов, добавляет Артём Плаксин. Сервисы доставки готовой еды и продуктов, банки и т.д. — решения этих компаний популярны у незрячих и слабовидящих людей. Каждый инвалид получает пенсию, он может дополнительно работать. Незрячий человек — потенциальный клиент, который готов платить за качество и удобство услуг. И компаниям не стоит списывать их со счетов.
Можно ли быть незрячим программистом
Как считает руководитель RHVoice Lab, работать программистом, если ты незрячий, нетрудно. Просто нужно быть целеустремленным и не лениться. Проще всего заниматься бэкэнд-разработкой. Писать код можно в блокноте/ Vim, в IDE, многие из которых сейчас доступны, а затем просто скомпилировать код. Нет ничего невозможного.
Планы RHVoice Lab
Энтузиасты лаборатории хотят и дальше создавать новые качественные голоса не только для русского, но и для других языков. В дальнейшем планируют собрать новый языковой модуль, но для этой работы нужна безвозмездная помощь лингвистов.
Также, отмечает Артём Плаксин, команда проекта хотела бы приобрести более качественное оборудование для работы с аудиофайлами: качественные мониторы, хорошие звуковые карты, многопоточный системный блок для параллельного рендеринга проектов.
В то же время в RHVoice обдумывают замену существующего вокодера (устройства синтеза речи на основе произвольного сигнала с богатым спектром) на более производительный и добавление эквалайзера, чтобы каждый человек мог менять частоты голоса. О ходе проекта Артём рассказывает в Telegram-канале.
Технологии распознавания и синтеза речи постоянно совершенствуются. Голосовые роботы уже берут на себя большую часть рутинных задач колл-центров, а ИИ способен не только понимать человеческую речь и распознавать эмоции, но и поддерживать разговор. Теперь в процессе общения по телефону отличить робота от человека бывает очень трудно. Все это делает жизнь людей проще, но речевые технологии созданы не для развлечения. Это инструмент бизнеса, который позволяет ему работать более эффективно.
Начнем погружение в речевые технологии с синтеза речи. Рассказываем, что такое технология Text-to-Speech и как она работает.
Что такое синтез речи
Синтез речи или Text-to-Speech (TTS) — технология преобразования текста в речь. Это компьютерное моделирование человеческой речи из текстового представления при помощи методов машинного обучения. Обычно синтез речи используют разработчики для создания голосовых роботов, например, IVR (интерактивный голосовой ответ).
Синтез речи экономит время и деньги бизнеса, так как генерирует звук автоматически и этим избавляет компанию от ручной записи (и перезаписи) аудиофайлов.
Благодаря синтезу речи можно прочитать любой текст голосом, максимально похожим на естественный. Чтобы сделать синтезированную речь натуральной, необходимо отточить ее тембр, плавность звучания, расстановку ударений и пауз, интонацию и другие области.
Для этого используются два подхода:
- Конкатенативный — склейка фрагментов записанного аудио. Эта синтезированная речь имеет высокое качество, но требует большого объема данных для машинного обучения.
- Параметрический — построение вероятностной модели, которая подбирает акустические свойства звукового сигнала для данного текста. С помощью этого подхода можно создавать речь, практически не отличимую от человеческой.
Как работает Text-to-Speech
Чтобы преобразовать текст в голос, система должна пройти три этапа: преобразовать текст в слова, выполнить фонетическую транскрибацию и преобразовать транскрибацию в речь.
1. Преобразовать текст в слова
Специальный алгоритм должен подготовить текст и преобразовать его в удобный формат для чтения. Проблема в том, что исходный текст помимо слов содержит числа, сокращения, даты и пр. Такие компоненты необходимо расшифровать и записать словами. Затем алгоритм разделяет текст на отдельные фразы, которые потом система прочитает с подходящей интонацией. Для этого при создании фраз робот ориентируется на пунктуацию и устойчивые конструкции в тексте.
2. Выполнить фонетическую транскрибацию
После того, как алгоритм разбил текст на фразы, ему необходимо выполнить фонетическую транскрибацию. Каждое предложение можно произносить по-разному в зависимости от смысла и эмоциональной окраски текста. Более того, даже одно слово может читаться разными способами. Чтобы понять, как произносится каждое слово и где именно ставить ударение, система использует встроенные словари. Если необходимое слово в них отсутствует, компьютер строит транскрибацию самостоятельно, используя академические правила. Если это тоже не помогает, то алгоритм опирается на записи дикторов и определяет, на каких частях слов они делали акценты.
Затем система рассчитывает, сколько в составленной транскрибации фрагментов длиной 25 миллисекунд. Каждый фрагмент она описывает различными параметрами: частью какой фонемы он является, какое место в ней занимает, в какой слог входит эта фонема и др. После этого система воссоздает подходящую интонацию с помощью данных о фразах и предложениях.
Фонема — минимальная единица звукового строя языка.
Преобразовать транскрибацию в речь
Чтобы прочитать подготовленный текст, система использует акустическую модель. Она устанавливает связь между фонемами и звуками, придавая им верную интонацию благодаря машинному обучению. Чтобы что-то сказать, робот использует генератор звуковых волн, в который загружаются все данные о частотных характеристиках фраз, полученные от акустической модели.
Как синтез речи используется в бизнесе
Синтез речи можно применять в следующих областях:
Например, компания KFC настроила автоматическую верификацию заявок HR с помощью Voximplant. HR-департамент KFC загружает в свою CRM-систему список телефонных номеров кандидатов и текст вакансии. Voximplant делает несколько попыток дозвона. После успешного соединения робот спрашивает, интересно ли получить информацию о работе (синтез речи). Если кандидат ответил утвердительно (распознавание речи), робот рассказывает о вакансии и ставит в очередь к сотруднику колл-центра. До начала разговора сотрудник KFC получает информацию о соискателе в текстовом виде.
- Поддержка пользователей. Большинство колл-центров автоматизируют обращения. Голосовые роботы выполняют простые задачи, которые можно автоматизировать. Например, предоставить клиенту информацию об аккаунте, дать инструкцию по решению типичной проблемы и пр. Это помогает людям сконцентрироваться на более сложных проектах.
- Голосовые уведомления. Голосовые роботы могут обзванивать клиентов для того, чтобы уведомлять их о новых акциях и рекламных предложениях или проводить опросы для сбора маркетинговой информации.
Решение от Voximplant
Voximplant предоставляет API, позволяющий легко интегрировать функциональность TTS в свое приложение или веб-сайт. Компании используют TTS для обработки входящих и исходящих вызовов, а также для управления голосовыми уведомлениями, при этом не требуется никакого оборудования или сложного программирования.
Voximplant поддерживает TTS на базе таких сервисов, как Amazon Polly, Google WaveNet, Dialogflow, IBM Watson, Яндекс SpeechKit, Tinkoff VoiceKit и Microsoft Azure. WaveNet также используется онлайн-сервисами Google: Google Assistant, Google Search и Google Translate. WaveNet генерирует необработанные аудиосигналы с помощью нейронной сети, обученной на большом количестве речевых образцов. Вся необходимая информация для генерации речи хранится в параметрах модели, а тон голоса можно контролировать с помощью настроек модели.
Особенности решения от Voximplant:
- Многоязычность: широкий охват различных языков, включая американский и британский английский, китайский, арабский и другие.
- Движок WaveNet, который можно использовать для обучения бота в соответствии с потребностями бизнеса.
- Естественные голоса: мужские и женские голоса высокого качества.
Зарегистрируйтесь, чтобы получить бесплатный аккаунт разработчика, или свяжитесь с нашими специалистами
Читайте также: