Программа озвучки текста для linux
Синтез речи на сегодняшний день технология крайне востребованная. Преобразование текста в звук применимо во многих сферах: программирование, озвучка новостей, озвучивание книг, звуковое сопровождение в компьютерных программах, мобильных приложениях и т.д.
Синтез речи играет далеко не последнюю роль в создании контента для YouTube да и в целом дает возможность наладить автоматизацию производства контента.
В этой заметке я решил собрать самые популярные и качественные синтезаторы.
1. Yandex SpeechKit - технология синтеза речи от компании Яндекс. Услуга синтезирования платная, но есть демо в котором можно озвучивать небольшие куски текста.
На выбор предоставлено 8 голосов с возможностью выбора языка. Поддерживаемые языки: русский, английский и турецкий.
2. Синтез речи от ЦРТ - это реалистичный синтез русской речи на основе нейросетей.
Предоставлено на выбор 4 голоса с различной частотой. Как и у Яндекса - технология платная, но демо-версия позволяет совершенно бесплатно озвучивать небольшие объемы текста.
ЦРТ — это российская компания, которая занимается разработкой инновационных систем в сфере технологий синтезирования и распознавания речи, анализа информации, лиц, голосовой и мультимодальной биометрии.
3. Синтез речи VSrobotics - это синтезатор от компании которая занимается разработкой решений в области бизнеса и IT.
Присутствует 6 голосовых движков с различной частотой (8 и 24 кГц).
Демо-версия позволяет озвучивать 500 символов за один раз, ограничений на повтор озвучки нет.
4. Синтез речи от Tinkoff - синтез речи от Тинькофф, который был разработан для банка. Присутствует два голоса - мужской и женский. Но в демо-версии можно протестировать только женский голос.
Зато нет таких строгих ограничений по количеству текста, допускается текст до 5 000 символов.
6. Озвучка при помощи Яндекс Алисы - Алиса это голосовой помощник, который недавно наделили возможностью озвучивать веб-страницы. Функционал уже встроен в Яндекс браузер.
Устанавливаем браузер, открываем нужную страницу, выделяем текст и в контекстном меню вызываем функцию озвучить. Также можно озвучивать свой текст. Для этого в блокноте нужно напечатать текст и сохранить документ в формате html. Сохраненную веб-страницу открываем в браузере и озвучиваем текст.
7. Texttospeech - веб-ресурс с подборкой голосовых движков для разных стран мира. В базе имеется 145 голосов и она постоянно пополняется.
Поддерживаются языковые пакеты: Россия, Украина, Казахстан, США, Польша, Франция, Германия, Италия, Испания, Швеция, Португалия, Бразилия, Турция, Япония.
За один раз можно синтезировать 1000 символов, можно настраивать высоту, скорость и формат аудио.
8. ApiHost - сервис занимающийся синтезом речи на основе существующих движков, записью голоса и искажением, а также анализом текста.
TTS V1 имеет в наборе 22 голоса и поддержку четырех языков.
TTS V2 поддерживает 2 языка и 4 голоса.
TTS V5 поддерживает 15 языковых пакетов и 7 голосов.
За один раз можно синтезировать 1000 символов.
Длина текста которую можно синтезировать за раз - 2000 символов.
10. Zvukogram - сервис озвучки текста который в своих базах имеет реалистичные голоса на основе нейросетей, есть премиальные голоса, они имеют пометку *pro.
Сервис не имеет ограничений по тексту. Можно сразу озвучить большую статью. Также можно создавать диалоги разными голосами.
Но все же кое какие ограничения имеются. Звукограм - это платный сервис, но не дорогой! Платность гарантирует развитие проекта, появление новых возможностей и долгую жизнь проекта.
За каждую озвучку списываются токены. Тарифы на озвучку просты и очень доступны:
- Обычный голос 1000 символов - 1 токен.
- Pro голос 1000 символов - 5 токенов.
Изначально на балансе имеется 5 токенов, чтобы протестировать возможности сервиса. Сервис работает без регистрации тоже, но токены списываются. Думаю, что можно использовать VPN или подобные инструменты чтобы использовать его бесплатно.
11. Unitools.Tech - качественная озвучка текста онлайн, сервис очень похож на предыдущий из нашего списка. Есть поддержка 6 языков, в наличии 13 голосов, но после регистрации будет доступно больше качественных голосов.
12. OddCast - сервис синтеза речи с голосами Vocalware, а также голосами Nuance, такими как Daniel (голос MLG) и Samantha (старый голос Siri). Поддерживаются 24 языка, русского к сожалению нет.
Синтез сопровождается анимированным изображением персонажа, можно выбрать женский, мужской или облик животного.
13. NaturalReaders - сервис синтеза речи на основе голосов из Acapela, AT&T, Nuance и других, есть бесплатная пробная версия, но в ней нет PRO-версий голосов. Подойдет для озвучивания англоязычной информации.
14. Acapela-box - tts от разработчиков голосовых движков acapela. Синтезатор устаревший и главное пользоваться им можно только имея платный аккаунт. При тестировании демо-версии звук сопровождается мелодией.
15. TTSmp3 - простенький mp3 блокнот для перевода текст в звук. В базе имеется несколько десятков языковых пакетов, в том числе и русский, правда русские голоса самые простые, взятые с балаболки.
16. Google Cloud Text-to-Speech - синтез речи от компании Google, голоса используются WaveNet. Сервис платный, но демка дает возможность оценить возможности и даже озвучивать бесплатно небольшие куски текста.
Для озвучки английского текста одно из лучших решений.
17. VoiceMaker - название сервиса говорит само за себя. Инструментарий позволяет синтезировать аудио из текста и применять звуковые эффекты. В базе имеются хорошие голоса для синтеза английской речи, в том числе на основе нейросетей.
18. MelroseLabs TTS - синтезатор от компании, которая занимается решением IT задач для бизнеса.
19. IBM Watson Text to Speech - синтезатор от компании IBM, очень похожий на синтез от Google. От недавнего времени чтобы пользовать демкой нужно регистрировать аккаунт.
21. Wideo TTS - десятки голосов с поддержкой разных языков мира. Подойдет для озвучки англоязычных текстов. Поддержка русского есть, но голосовые движки устаревшие.
22. Azure TTS - синтезатор от Microsoft.
Есть еще много сайтов, но они в основном дублируют возможности выше описанных сервисов, смысла их освещать нет. В озвученных мною ресурсах многие голоса повторяются, но все же возможности настройки и ограничения у сервисов разные. Советую протестировать каждый из них, чтобы определится с наиболее подходящим под свои цели.
Если вы знаете другие качественные синтезаторы, сообщите о них в комментариях, будет интересно посмотреть.
Также знаю хорошие инструменты для синтеза на смартфонах или в браузере, в дальнейшем будут материалы и по этой части.
Если вы использовали Mac OS X или Windows Vista, то вы можете быть разочарованы, узнав, что в Linux нет синтезатора речи и приложения для преобразования текста в речь (TTS), которые устанавливаются по по умолчанию. Для тех из вас, кто не знает, что речь синтезатора, это просто компьютерная программа, которая превращает обычный текст определенного языка в звуки речи. Программы для преобразования текста в речь может быть большим подспорьем особенно для людей с ослабленным зрением и тех, кто нем.
И если вы искали бесплатный синтезатор речи для Linux, то можно рекомендовать программу под названием Festival. Как это описано на веб-сайте проекта: Festival предлагает базовую платформу для создания систем синтеза речи, а также несколько примеров различных модулей. В целом, он предлагает полный исходники для речи через ряд API. Festival является как-бы многоязычным, но русского в нем нет, только английский и испански.
Festival есть в большинстве репозиториев дистрибутивов, так что просто найдите его и установить с помощью менеджера пакетов. После установки, вы можете сразу начать работу. Вот некоторые азы Festival:
Она может читать все, что вы вводите в командной строке. Откройте терминал и введите команду:
Появится диалог. Заставьте его говорить, введя это из командной строки:
FestivalФестиваль также может быть очень полезно, если вы хотите читать целый текстовый файл. Из терминала, достаточно просто перейти туда, где находится текстовый файл, и использовать эту команду:
$ festival -tts your_text_file.txt
С дополнительной информацией по использованию Festival вы можете ознакомиться с полным руководством по ЗДЕСЬ.
KTTS имеет графический интерфейс который называется KMouth.
Пользователь может вводить слова, фразы или предложения, которые хочет услышать. KMouth также содержит историю сказанных фраз. Программа также имеет разговорник и варианты завершения слова.
Если вы затеяли ремонт, то очень рекомендуем заменить отопительную систему. А пластиковые трубы для отопления позволят создать более гибкую и надежную отопительную систему.
Человека всегда привлекала идея управлять машиной естественным языком. Возможно, это отчасти связано с желанием человека быть НАД машиной. Так сказать, чувствовать свое превосходство. Но основной посыл — это упрощение взаимодействия человека с искусственным интеллектом. Управление голосом в Linux с переменным успехом реализуется без малого уже четверть века. Давай разберемся в вопросе и попробуем сблизиться с нашей ОС настолько, насколько это только возможно.
Суть дела
Системы работы с человеческим голосом для Linux существуют давно, и их великое множество. Но не все они корректно обрабатывают русскую речь. Некоторые и вовсе заброшены разработчиками. В первой части нашего обзора мы поговорим непосредственно о системах распознавания речи и голосовых ассистентах, а во второй — рассмотрим конкретные примеры их использования на Linux-десктопе.
Следует различать собственно системы распознавания речи (перевод речи в текст или в команды), такие как, например, CMU Sphinx, Julius, а также приложения на основе этих двух движков, и голосовые ассистенты, ставшие популярными с развитием смартфонов и планшетов. Это, скорее, побочный продукт систем распознавания речи, дальнейшее их развитие и воплощение всех удачных идей распознавания голоса, применение их на практике. Для Linux-десктопов таких пока мало.
Надо понимать, что движок распознавания речи и интерфейс к нему — это разные вещи. Таков базовый принцип архитектуры Linux — разделение сложного механизма на более простые составные части. Самая сложная работа ложится на плечи движков. Обычно это скучная консольная программа, работающая незаметно для пользователя. Пользователь же взаимодействует в основном с программой-интерфейсом. Создать интерфейс несложно, поэтому основные усилия разработчики направляют именно на разработку открытых движков распознавания речи.
Что было раньше
Исторически сложилось так, что все системы работы с речью в Linux развивались не спеша и скачкообразно. Причина не в криворукости разработчиков, а в высоком уровне вхождения в среду разработки. Написание кода системы для работы с голосом требует высокой квалификации программиста. Поэтому, перед тем как начать разбираться с системами работы с речью в Linux, необходимо сделать небольшой экскурс в историю. Была когда-то в IBM такая чудесная операционная система — OS/2 Warp (Merlin). Вышла она в сентябре далекого уже 1996 года. Кроме того, что она обладала очевидными преимуществами перед всеми остальными операционками, OS/2 была укомплектована весьма продвинутой системой распознавания речи — IBM ViaVoice. Для того времени это было очень круто, учитывая, что ОС работала на системах с 486-м процессором с объемом ОЗУ от 8 Мбайт (!).
Как известно, OS/2 проиграла битву Windows, однако многие ее компоненты продолжили существовать независимо. Одним из таких компонентов стала та самая IBM ViaVoice, превратившаяся в самостоятельный продукт. Так как IBM всегда любила Linux, ViaVoice была портирована на эту ОС, что дало детищу Линуса Торвальдса самую передовую для своего времени систему распознавания речи.
К сожалению, судьба ViaVoice сложилась не так, как хотели бы линуксоиды. Сам движок распространялся бесплатно, но его исходники оставались закрытыми. В 2003 году IBM продала права на технологию канадо-американской компании Nuance. Nuance, разработавшая, пожалуй, самый успешный коммерческий продукт для распознавания речи — Dragon Naturally Speeking, здравствует и ныне. На этом бесславная история ViaVoice в Linux практически закончилась. За то короткое время, что ViaVoice была бесплатной и доступной линуксоидам, к ней разработали несколько интерфейсов, таких, например, как Xvoice. Однако проект давно заброшен и ныне практически неработоспособен.
OS/2 Warp — система, которую мы потеряли
Самое сложное звено в машинном распознавании речи — естественный человеческий язык.
Что сегодня?
Сегодня все гораздо лучше. В последние годы, после открытия исходников Google Voice API, ситуация с развитием систем распознавания речи в Linux значительно улучшилась, выросло качество распознавания. Например, проект Linux Speech Recognition на основе Google Voice API показывает очень неплохие результаты для русского языка. Все движки работают примерно одинаково: сначала звук с микрофона устройства юзера попадает в систему распознавания, после чего либо голос обрабатывается на локальном устройстве, либо запись отправляется на удаленный сервер для дальнейшей обработки. Второй вариант больше подходит для смартфонов или планшетов. Собственно, именно так и работают коммерческие движки — Siri, Google Now и Cortana.
Из всего многообразия движков для работы с человеческим голосом можно выделить несколько активных на данный момент.
WARNING
Установка многих из описанных систем распознавания речи — нетривиальная задача!
CMU Sphinx
Большая часть разработки CMU Sphinx ведется в университете Карнеги — Меллона. В разное время над проектом работали и Массачусетский технологический институт, и покойная ныне корпорация Sun Microsystems. Исходники движка распространяются под лицензией BSD и доступны как для коммерческого, так и для некоммерческого использования. Sphinx — это не пользовательское приложение, а, скорее, набор инструментов, который можно применить в разработке приложений для конечных пользователей. Sphinx сейчас — это крупнейший проект по распознаванию речи. Он состоит из нескольких частей:
- Pocketsphinx — небольшая быстрая программа, обрабатывающая звук, акустические модели, грамматики и словари;
- библиотека Sphinxbase, необходимая для работы Pocketsphinx;
- Sphinx4 — собственно библиотека распознавания;
- Sphinxtrain — программа для обучения акустическим моделям (записям человеческого голоса).
Проект развивается медленно, но верно. И главное — его можно использовать на практике. Причем не только на ПК, но и на мобильных устройствах. К тому же движок очень хорошо работает с русской речью. При наличии прямых рук и ясной головы можно настроить распознавание русской речи с помощью Sphinx для управления домашней техникой или умным домом. По сути, можно обычную квартиру превратить в умный дом, чем мы и займемся во второй части этого обзора. Реализации Sphinx имеются для Android, iOS и даже Windows Phone. В отличие от облачного способа, когда работа по распознаванию речи ложится на плечи серверов Google ASR или Яндекс SpeechKit, Sphinx работает точнее, быстрее и дешевле. И полностью локально. При желании можно научить Sphinx русской языковой модели и грамматике пользовательских запросов. Да, придется немного потрудиться при установке. Равно как и настройка голосовых моделей и библиотек Sphinx — занятие не для новичков. Так как основа CMU Sphinx — библиотека Sphinx4 — написана на Java, можно включать ее код в свои приложения для распознавания речи. Конкретные примеры использования будут описаны во второй части нашего обзора.
VoxForge
Особо выделим понятие речевого корпуса. Речевой корпус — это структурированное множество речевых фрагментов, которое обеспечено программными средствами доступа к отдельным элементам корпуса. Иными словами — это набор человеческих голосов на разных языках. Без речевого корпуса невозможна работа ни одной системы распознавания речи. В одиночку или даже небольшим коллективом создать качественный открытый речевой корпус сложно, поэтому сбором записей человеческих голосов занимается специальный проект — VoxForge.
Любой, у кого есть доступ к интернету, может поучаствовать в создании речевого корпуса, просто записав и отправив фрагмент речи. Это можно сделать даже по телефону, но удобней воспользоваться сайтом. Конечно, кроме собственно аудиозаписи, речевой корпус должен включать в себя дополнительную информацию, такую как фонетическая транскрипция. Без этого запись речи бессмысленна для системы распознавания.
VoxForge — стартовый портал для тех, кто хочет внести свой вклад в разработку открытых систем распознавания речи
HTK, Julius и Simon
HTK — Hidden Markov Model Toolkit — это инструментарий для исследования и разработки средств распознавания речи с использованием скрытых марковских моделей, разрабатывается в Кембриджском университете под патронажем Microsoft (Microsoft когда-то выкупила этот код у коммерческого предприятия Entropic Cambridge Research Laboratory Ltd, а затем вернула его Кембриджу вместе с ограничивающей лицензией). Исходники проекта доступны всем желающим, но использование кода HTK в продуктах, предназначенных для конечных пользователей, запрещено лицензией.
Однако это не означает, что HTK бесполезен для Linux-разработчиков: его можно использовать как вспомогательный инструмент при разработке открытых (и коммерческих) средств распознавания речи, что и делают разработчики открытого движка Julius, который разрабатывается в Японии. Julius лучше всего работает с японским языком. Великий и могучий тоже не обделен, ведь в качестве голосовой базы данных используется все тот же VoxForge.
Возможности HTK и Julius активно используются в приложении Simon. Проект запущен еще в 2007 году и до сих пор пребывает в перманентной бете. Движок использует библиотеки KDE, CMU Sphinx и/или Julius и акустические модели проекта VoxForge. Есть версии для Windows и Linux. Разработка Simon ведется в рамках проекта KDE в составе рабочей группы KDE Accessibility. Последняя версия Simon — 0.4.1 — вполне себе юзабельное приложение для бета-версии.
В Simon включены инструменты для создания голосовых и акустических моделей, распознавания речи и организации управления голосом. Кроме управления десктопом, Simon может использоваться для аутентификации голосом, голосового управления роботами и устройствами. Главный приоритет разработчики отдают предоставлению средств для работы на компьютере людей с ограниченными возможностями.
Помимо описанных выше, существуют и другие проекты по распознаванию речи, такие как Kaldi, наработки которого используются сейчас в других проектах. Однако в рамках данного обзора мы не будем их касаться. И дело не в том, что они не заслуживают внимания, а в том, что большинство из них скорее мертвы, чем живы. Более-менее активно развиваются лишь Sphinx и его производные, Simon, HTK и Julius. Смотри подробности на сайте Саймона.
Саймон говорит и выглядит довольно прилично
Лучшие друзья человека
Голосовые ассистенты частично воплощают мечту создателей всех систем для распознавания речи. Конечно, еще далеко до возможности полноценного общения пользователя и искусственного интеллекта машины, но уже сегодня можно искать информацию в интернете, запускать приложения, диктовать текст, прокладывать маршруты, управлять кофеваркой и холодильником, переписываться с друзьями в соцсетях и прочая, и прочая.
Условно все голосовые ассистенты можно разделить на две группы: те, которые так или иначе используют Google Voice API, и остальные. Остальные — это, например, ставшая уже знаменитой Cortana от Microsoft, которая, по слухам, скоро станет доступна для Android и iOS, что теоретически означает возможность портирования ее и на чистый Linux-десктоп. Или Siri — детище Apple, которое яблочная компания оберегает от любого стороннего использования как зеницу ока.
После открытия компанией Google своего API для работы с голосом персональные ассистенты для Linux начали появляться один за другим.
Вот правда. Именно так
Linux Speech Recognition
В начале 2013 года, после закрытого бета-тестирования был переведен в разряд свободных проект по созданию системы распознавания речевых команд на базе Google Voice API. Система позволяет через управление голосом запускать программы, выполнять операции с файлами, открывать сайты, находить ответы на произвольные вопросы, создавать электронные письма, диктовать текст документов, запускать приложения и так далее.
Вначале проект развивался независимым энтузиастом для организации речевого управления Ubuntu, но в текущем виде его код не привязан к особенностям данной системы и может быть использован в любых дистрибутивах. Код проекта написан на языке Python и открыт под лицензией GPLv3. Распознавание речи реализовано через обращение к Google Voice API, который демонстрирует достаточно неплохие результаты для русского языка. Вся дополнительная инфа тут.
Можно установить в Ubuntu и пользоваться. Удобно, быстро
Hound
Этот голосовой ассистент, хоть и создан для Android, а не для Linux, все же заслуживает упоминания в нашем обзоре. Дело в том, что в тестах на распознавание речи этот помощник обгоняет и Siri, и Google Now, справляясь с поставленными задачами значительно эффективнее и быстрее. Самое ценное в нем то, что он воспринимает фразы именно так, как пользователь их произносит, то есть тебе не придется как-то специально формулировать свои вопросы, чтобы ассистент их понял.
Пока проект находится на стадии беты и доступен только по инвайтам и только владельцам Android-девайсов, находящимся на территории США. Разработчики обещают выпустить версии для iOS после окончания бета-тестирования. Будет ли версия для десктопов, пока неизвестно. Проект развивается уже девять лет и, по словам разработчиков, достаточно стабилен для повседневного использования. Русского языка, вестимо, нет.
Как отмечает издание The Verge, Hound пока еще не может полностью заменить Google Now или Siri, из-за того что недостаточно «персонализирован».
Hound работает почти так же, как и Google Now, только лучше
Betty
Например, если ты забыл, как разархивировать файлы в терминале, тебе достаточно сказать по-английски «Betty uncompress archive.tar.gz» («Бетти, разархивируй файл archive.tar.gz»), и файл и правда разархивируется. Проверено автором этой статьи.
К сожалению, Betty пока не понимает русскую речь, да и набор команд у нее довольно ограничен, но разработка идет уже больше двух лет, и довольно активно, так что логично ожидать в будущем появление большего количества доступных команд.
Вот часть команд, которые Betty версии 0.1.8 понимает уже сейчас:
- count (подсчет, например количества символов и слов в файле);
- config (смена имени пользователя);
- datetime (вывод текущего времени и даты);
- поиск (внутри файлов);
- web (запросы, скачивание файлов, поиск информации в Сети и прочее);
- операции с папками и файлами (архивирование/разархивирование файлов, вычисление размера файлов, изменение прав доступа и другие);
- пользовательские команды (вывод имени пользователя, IP-адреса, имена залогинившихся в машину пользователей и так далее).
Список команд постоянно увеличивается. Над проектом работает уже семнадцать разработчиков из пяти стран. Полный список команд Betty ты можешь найти на странице проекта на GitHub.
Betty создана гиками для гиков. И работает, как гик
Sirius
Жемчужиной среди остальных можно назвать Sirius — новое и весьма амбициозное решение от группы разработчиков Clarity Lab из университета Мичигана. Несмотря на сходство названия с Siri, проект не имеет с ней ничего общего. Sirius уже может гораздо больше, чем его аналоги. Разработку Sirius взяли под свое крыло Google, DARPA, ARM, министерство обороны США и Американский национальный научный фонд. Исходники распространяются под лицензией BSD. Система основана на нескольких свободных проектах по распознаванию речи, таких как Sphinx, Kaldi, Protobuf, Speeded Up Robust Features (SURF, работает на базе OpenCV). Таким образом, в Sirius воплотилось все то лучшее, что было разработано в сфере распознавания речи за последние 35 лет.
Впервые Sirius продемонстрировали 14 марта 2015 года на технологической конференции в Стамбуле. Выпуск программы состоялся на следующий день. Sirius распознаёт не только речь, но и картинки и образы, а также понимает естественный язык человека. Например, программе можно показать фото любимого кафе и спросить, во сколько оно закрывается. Главное отличие программы от конкурентов заключается еще и в том, что пользователь может сделать Sirius узкоспециализированным помощником. К примеру, для выдачи академических консультаций ученому. Для реализации этого разработчики начали сотрудничество с IBM. «Фактически мы создали Linux среди умных цифровых помощников», — утверждает Марс.
Один из создателей Sirius Джейсон Марс уверен в будущем проекта
Заключение
Такова ситуация с распознаванием речи в Linux в данный момент. Во второй части этого обзора мы попробуем использовать некоторые из описанных проектов в повседневной работе на компьютере под управлением Linux. Прежде всего нас интересует работа с русским языком и голосовые команды для управления домашней электроникой. Получится ли превратить обычную квартиру в «умную» — узнаешь в следующей части.
В следующей статье мы рассмотрим eSpeak. Это о синтезатор речи для английского и других языков что мы можем использовать в Ubuntu. В следующих строках мы увидим, как установить его в Ubuntu 18.04.
Этот инструмент для командной строки принимает входные данные в виде текстовой строки, входного файла и STDIN проиграть его голосом, сгенерированным компьютером.
Установка ESpeak на Ubuntu
Мы найдем этот инструмент доступны в официальных репозиториях Ubuntu. По этой причине его установка проста из терминала (Ctrl + Alt + T). В нем нам нужно будет только начать с обновления индекса доступных пакетов, набрав:
После обновления мы готовы к установить eSpeak. Для этого нам достаточно будет написать в том же терминале:
После установки мы сможем проверьте номер версии приложения, в то же время мы также проверим, что он был правильно установлен в системе. Сделаем это, написав команду:
Используйте eSpeak для преобразования текста в аудио
С помощью утилиты eSpeak мы сможем легко прослушать определенный текст. Мы можем сделать это тремя простыми способами. Первый будет использовать следующую команду для прослушать текст, указанный в кавычках:
Мы также сможем введите следующую команду и нажмите Главная:
Теперь нам просто нужно напишите текст, который мы хотим, чтобы eSpeak читал вслух. После его написания остается только нажать Главная.
В этом случае мы можем добавить столько строк текста, сколько захотим. Для выхода из утилиты нажмите комбинацию клавиш Ctrl + C.
Один из самых полезных способов использования этого приложения - возможность прослушать содержимое текстового файла. Вам просто нужно использовать следующий синтаксис, чтобы указать текстовый файл, который вы хотите услышать вслух:
В дополнение к указанным, мы можем найти другие способы использования этого приложения. Мы можем использовать следующую команду, чтобы просмотреть справку по инструменту и сообщите нам:
Или мы также можем использовать документация которые мы найдем на сайте проекта.
Графический интерфейс под названием Gespeaker
Gespeaker - это бесплатный интерфейс GTK + для espeak, даже если мы решим установить этот интерфейс, нам не потребуется устанавливать espeak. Позволит нам воспроизвести текст на многих языках с настройками голоса, высоты звука, громкости и скорости. Прочитанный текст также можно записать в файл WAV для дальнейшего прослушивания. Этот инструмент предназначен для пользователей, которые не хотят использовать командную строку.
У нас будет возможность установить это программное обеспечение через пользовательский интерфейс Ubuntu простым способом. Для начала у нас не будет больше, чем открыть вариант программного обеспечения Ubuntu. Мы щелкнем значок увеличительного стекла, и мы написать 'говорящий'в строке поиска. Результаты покажут нам примерно следующее:
Отсюда мы сможем установить этот инструмент. Если вы хотите использовать командную строку для установки того же приложения, вам просто нужно использовать следующую команду в терминале (Ctrl + Alt + T):
После установки мы можем искать лаунчер на нашем компьютере:
Пользовательский интерфейс Gespeaker довольно прост. Не должно возникнуть проблем с тем, чтобы понять, как конвертировать наши текстовые и текстовые файлы в аудио. Чтобы получить желаемый результат, помимо элементов управления, которые мы найдем в интерфейсе программы, мы также можем настроить их свойства.
Более подробную информацию об этом проекте можно получить на сайте Ваш сайт.
Удалить eSpeak
Если вы хотите удалить eSpeak, мы можем сделать это с помощью следующей команды в терминале (Ctrl + Alt + T):
Независимо от того, являетесь ли вы пользователем терминала или предпочитаете пользовательский интерфейс, проблем быть не должно, когда дело доходит до преобразовать текст в аудиовыход благодаря eSpeak или Gespeaker.
Содержание статьи соответствует нашим принципам редакционная этика. Чтобы сообщить об ошибке, нажмите здесь.
Полный путь к статье: Убунлог » Ubuntu » eSpeak, преобразование текста в речь из терминала Ubuntu
Читайте также: