Браузер с голосовым управлением

Обновлено: 24.01.2025

Чтобы закончить общение с Алисой, нажмите мышью в любом месте экрана за пределами окна.

Беседа с Алисой хранится до следующей перезагрузки компьютера. Чтобы удалить ее принудительно, активируйте Алису и в правом верхнем углу нажмите   → Очистить историю .

Озвучивание текстов

Алиса умеет озвучивать тексты на веб-страницах. Пока Алиса читает вслух, вы можете заниматься своими делами.

Озвучить страницу
Озвучить фрагмент текста

Ограничение. Озвучивание всего текста работает на страницах, для которых доступен режим чтения.

В Умной строке нажмите значок или произнесите фразу «Алиса, прочитай страницу» .

Чтобы поставить озвучивание на паузу:

Чтобы в Умной строке скрыть значок :

В блоке Умная строка отключите опцию Показывать кнопку чтения вслух .

Примеры запросов и команд

Больше примеров команд см. в справочнике голосовых команд. Все навыки, созданные Яндексом и пользователями для Алисы, можно увидеть в Яндекс.Диалогах.

Обучение Алисы

Если Алиса неправильно распознает ваши слова, произнесите фразу громко и четко. Если это не помогло, нажмите , а затем кнопку  Моя речь не распозналась . Если Алиса отвечает невпопад, нажмите , а затем кнопку  Ответ не соответствует вопросу . Если Алиса неправильно произносит слова, нажмите , затем кнопку  Неверно озвучен текст . Иногда неправильный ответ Алисы может обидеть. Если вы столкнулись с этим, нажмите , а затем кнопку  Ответ обидный или оскорбительный .

Если вы нажали   по ошибке, нажмите кнопку Да нет, все хорошо .

","lang":>,"extra_meta":[>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>],"title":"Голосовое управление - Яндекс.Браузер для ДИТ. Справка","productName":"Яндекс.Браузер для ДИТ","extra_js":[[,"mods":,"__func137":true,"tag":"script","bem":false,"attrs":,"__func67":true>],[,"mods":,"__func137":true,"tag":"script","bem":false,"attrs":,"__func67":true>],[,"mods":,"__func137":true,"tag":"script","bem":false,"attrs":,"__func67":true>]],"extra_css":[[],[,"mods":,"__func69":true,"__func68":true,"bem":false,"tag":"link","attrs":>],[,"mods":,"__func69":true,"__func68":true,"bem":false,"tag":"link","attrs":>]],"csp":<"script-src":[]>,"lang":"ru">>>'>

Как общаться с Алисой

Ограничение. Голосовая активация Алисы доступна только в Яндекс.Браузере для Windows.

Чтобы спросить Алису о чем-то:

Разблокируйте экран компьютера, если он заблокирован.

На боковой панели браузера нажмите значок . Совет. Если вы хотите просто поговорить с Алисой, произнесите фразу «Давай поболтаем» . Алиса может поддержать беседу на разные темы, рассказать анекдот или пошутить. Импровизировать ей помогает нейросеть, обученная на огромном массиве текстов в интернете. В режиме беседы Алиса не будет выполнять ваши команды и искать нужную информацию. Чтобы выйти из режима беседы, скажите «Хватит» , «Закончить» , «Вернись» или «Выйти» .

Чтобы закончить общение с Алисой, нажмите мышью в любом месте экрана за пределами окна.

Озвучивание текстов

Алиса умеет озвучивать тексты на веб-страницах. Пока Алиса читает вслух, вы можете заниматься своими делами.

Озвучить страницу
Озвучить фрагмент текста

Ограничение. Озвучивание всего текста работает на страницах, для которых доступен режим чтения.

В Умной строке нажмите значок или произнесите фразу «Алиса, прочитай страницу» .

Чтобы закончить общение с Алисой, нажмите мышью в любом месте экрана за пределами окна.

Озвучивание текстов

Алиса умеет озвучивать тексты на веб-страницах. Пока Алиса читает вслух, вы можете заниматься своими делами.

Озвучить страницу
Озвучить фрагмент текста

Ограничение. Озвучивание всего текста работает на страницах, для которых доступен режим чтения.

В Умной строке нажмите значок или произнесите фразу «Алиса, прочитай страницу» .

Чтобы поставить озвучивание на паузу:

Чтобы в Умной строке скрыть значок :

В блоке Умная строка отключите опцию Показывать кнопку чтения вслух .

Примеры запросов и команд

Обучение Алисы

Если вы нажали   по ошибке, нажмите кнопку Да нет, все хорошо .

">,"extra_meta":[>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>,>],"title":"Голосовое управление. Справка","canonical":"https://browser.yandex.ru/help/alice/voice.html","productName":"Яндекс.Браузер","extra_js":[[],[,"mods":<>,"__func134":true,"tag":"script","bem":false,"attrs":,"__func61":true>],[,"mods":<>,"__func134":true,"tag":"script","bem":false,"attrs":,"__func61":true>]],"extra_css":[[],[,"mods":<>,"__func63":true,"__func62":true,"bem":false,"tag":"link","attrs":>],[,"mods":<>,"__func63":true,"__func62":true,"bem":false,"tag":"link","attrs":>]],"csp":<"script-src":[]>,"documentPath":"/help/alice/voice.html","isBreadcrumbsEnabled":true,"lang":"ru","params":<>>>>'>Как общаться с Алисой Ограничение. Голосовая активация Алисы доступна только в Яндекс.Браузере для Windows.

Чтобы спросить Алису о чем-то:

Разблокируйте экран компьютера, если он заблокирован.

Чтобы закончить общение с Алисой, нажмите мышью в любом месте экрана за пределами окна.

Озвучивание текстов

Алиса умеет озвучивать тексты на веб-страницах. Пока Алиса читает вслух, вы можете заниматься своими делами.

Озвучить страницу
Озвучить фрагмент текста

Ограничение. Озвучивание всего текста работает на страницах, для которых доступен режим чтения.

В Умной строке нажмите значок или произнесите фразу «Алиса, прочитай страницу» .

Алиса, Siri, Маруся - это далеко не весь список проектов в области голосовых помощников. С каждым днем проектов становиться больше, а функционал шире и кажется настал тот момент, когда всерьез можно подумать о переводе компьютера на голосовое управление.

В рамках данного цикла статей я разберу создание голосового ассистента, работающего локально на вашем компьютере и имеющего широкий функционал, начиная с "запусти музыку" и заканчивая "создай новый проект в PyCharm".

Распознавание речи

Такая популярная тема не могла остаться без огромного количества статей, но с появлением API Яндекса и Google большое количество статей начинается и заканчивается так:

Это имеет место быть, но у меня натура пытливая, да и опыт в машинном обучении у меня имеется, так почему бы не сделать распознавание самому? Потому что это огромная гора, потратив на подъем на нее кучу времени ты лишь осознаешь, что вершина очень далеко.

"И что не так с import speech_recognition?" спросили меня когда я вывел первую версию статьи на суд людской.

Конфиденциальность - Яндекс и Google могут упорно заявлять, что наши данные не куда не утекут и не будут ни где использоваться, но готовы ли вы поставить карьеру на их заявление? Вот и система безопасности любой крупной компании тоже не готова, так что при работе с гос контрактами или при доступе к секретности использование такого решения будет запрещено.

Языки - Давно вы говорили на керекском? Думаю, что вы даже не слышали как звучит этот язык, все потому, что носителей этого языка всего 2 человека в России. А теперь представим, что один из них захочет себе "Джарвиса". Конечно это крайний случай, но открытые API не всегда справляются с заявленными языками, что говорить о других?

Интернет - Недавно заезжал в прекрасное место около Рязани, птички, да поля бескрайние. Так вдохновляющие! Но Алиса не сильно оценила отсутствие интернета. Такая любовь к городской жизни объяснима, хоть она и может распознать голос любого человека говорящего на русском языке, но развернуть такую махину (Сбер недавно заявлял о Нейросети на 23 млрд параметров) на компьютере, а тем более на своем смартфоне задача не выполнимая.

Определившись со значимостью начнем по порядку.

Звук - это волна

Компьютер не дружит с волнами, но обожает цифры.

Возьмем какое-то время t (шаг дискретизации), например 1 секунда. И начнем каждое время t записывать уровень шума на микрофоне (Точки на графике ниже). После чего возьмем число A = 256. Это число будет характеризовать в сколько бит мы хотим записать точку.

Уровень максимального шума (УМШ) - максимальное значение которое может выдать микрофон
Уровень тишины (УТ) - значение которое выдает микрофон при тишине
Тогда УМШ после записи должен быть равен (А-1), то есть 255, а УТ = 0

Отсюда число ШК = (УМШ - УТ) / А
ШК - шаг квантования

Теперь каждое t секунд, мы будем брать значение с микрофона делить его ШК и полученное число записывать в файл. Записанный файл назовем "Запись 1.wav" и попробуем послушать. Ничего осознанного там мы не услышим так как мы взяли очень большой шаг дискретизации (t). Здесь появляется еще одна характеристика записи - частота дискретизации, из физики помним, что:

Возьмем часто используемую частоту 44 кГц и теперь голос на записи начал звучать. Сохраним запись в папочке Data, чтобы удобнее было с ней работать.

Мы записали 5 секунд с частотой дискретизации 44 кГц и получили 200 000 чисел, как можно заставить компьютер понять, что там сказано?

Так как звук это волна, значит, то что мы записали есть сумма разно частотных колебаний, а как доказано до меня именно в частоте скрыта информация передаваемая звуком. Здесь то мы и приходим к преобразованию Фурье (FT), а точнее его модификации Быстрое преобразование Фурье (FFT).

После преобразования Фурье мы получаем набор частот, характеризующий нашу дорожку.

На этом этапе мы можем сделать отсеивание информации. Так как мы слышим в диапазоне от 20 Гц до 20 кГц, все что выше этого диапазона нас не интересует. Мы же используем речь, чтобы общаться друг с другом, а значит кодированная информация должна лежать в слышимом диапазоне.

Мы хотели бы посимвольно распознавать речь, ведь это даст нам более гибкий инструмент. Для этого используем "окна". Возьмем первые n наносекунд и сделаем для них преобразование Фурье. Потом следующие n и так далее. Теперь у нас есть данные основываясь на которых мы можем попробовать предсказать какой символ из нашего словаря произносится в каждом "окне".

Так же мы не знаем когда именно сказана буква, может произойти так, что она попадет на конец и начало "окна", что разобьет букву на два "окна" и затруднит ее распознавание. Тогда хочется взять "окна" с данными из прошлого "окна", тем самым делая нахлест.

Проведя преобразование Фурье для всех "окон", мы получим спектрограмму .

Теперь мы можем работать с ней как с картинкой и применить алгоритмы помогающие компьютерам видеть собак или объезжать препятствия, но такой подход говорит о том, что нейронная сеть будет просто прогнозировать вероятность соответствия преобразования Фурье символу из словаря. В сказанных словах еще есть иногда и смысл, чтобы его могла использовать наша нейронная сеть используем LSTM слой.

Чтобы не расширять статью, здесь не буду рассказывать, что такое нейронная сеть.
Вот на этом канале можно послушать про основы.

Когда мы говорим о нейронных сетях, то возникает такое представление:

Да, это крутая визуализация простой нейросети, но когда мы хотим работать со смыслом текста, то нам нужен контекст, а следовательно, нейросеть должна помнить, что было до этого. Для такой памяти разработали рекуррентные нейронные сети.

Хоть и избитая, зато понятная

RNN слой имеет как и обычный слой вход X и выход Y, но при этом еще есть вход h(t-1) и выход h. Когда нейронная сеть такого типа просчитывает себя, она формирует массив Y, который идет не только на выход слоя, но и на вход следующему просчету сети.

Пример:
Хотим перевести "Привет" на английский язык.

Первый проход сети:
x = "п" в категориальном представлении x.shape = (1, 34)
h(t-1) = нулевой вектор h(t-1).shape = (1, 22)
y = w * (h & x), здесь x и h дополняют друг друга (h & x).shape = (1, 56), w.shape = (1, 56)

Второй проход сети:
x = "р" в категориальном представлении x.shape = (1, 34)
h(t-1) = y из прошлого прохода h(t-1).shape = (1, 22)
y = w * (h & x), здесь x и h дополняют друг друга (h & x).shape = (1, 56), w.shape = (1, 56)

Словарь

"В категориальном представлении", давайте теперь разберемся с тем, что я имел ввиду.

Как с волнами - компьютер, так и машинное обучение с буквами не очень дружат. Следовательно нам нужно превратить буквы в цифры. Самое простое, что можно придумать это пронумеровать символы получив словарь:

В данном режиме на выходе нейронной сети мы будем получать одно число от 0 до 37, которое не будет иметь правильного смысла так как если нейронная сеть будет думать между "а" и "я", то в ответе она вообще выдаст какое-нибудь "п". Чтобы этого не произошло давайте попросим нейросеть выдавать нам вероятность того или иного символа на этом месте. Чтобы это реализовать наш словарь должен иметь такой вид:

"а": [1, 0, 0, 0 . ],
"б": [0, 1, 0, 0 . ],
"в": [0, 0, 1, 0 . ],
"г": [0, 0, 0, 1 . ]
.
" ": [. 0, 0, 0, 1]
>

Здесь каждый символ закодирован массивом из нулей, где на месте порядкового номера стоит 1. Получив такой словарь мы можем перейти к подготовке данных для обучения.

Данные

Теперь перейдем к одному из самых интересных вопросов: "Где взять данные?".
Вообще есть два варианта:

Со "скачать" все просто, например для начального обучения я использовал этот датасет (Habr/Git)
Преобразование данных, с которым я столкнулся в этой статье, принимает на вход WAV файлы, так что преобразуем OPUS в WAV:

На данный момент обучение проходило на модулях:

Теперь наш манифест имеет такой вид:

Если внимательно пройтись по данной таблице, то можно найти огрехи по типу "ааа", "яя", но они встречаются так редко, что ~~лень искать~~ я даже не смог быстро найти для скрина.

Создать же свой датасет тоже не сильно сложно, если вас не интересует конечно объемы Open SST. Чуть позже я выпущу статью как быстро справился с этой задачей с помощью Telegram и 150 строк кода.
В общих словах вам нужно взять текст, разбить его на фразы, а после озвучить эти фразы записав 1000 WAV файлов (у меня это получилось примерно 1,5 часа данных). В своих экспериментах я взял для озвучивания "Преступление и наказание", но в ходе озвучки понял, что там попадаются слова, которые в повседневной жизни не встречаются (Спасибо, Кэп), что немного обесценивает знание контекста, к которому мы стремились выбирая LSTM. Так что думаю третьим шагом обучения будут заготовленные команды, по типу:

Алиса, как погодка?

Алиса, посмотри в Яндексе.

Открой первую ссылку

CTC loss

Ну вот мы и дошли к самому главным вопросам:

Как провести обучение без сложной разметки?

Как понять, что "орвлыарлов" не похожа на "Привет, как дела?" и как оценить степень похожести?

В 2006 году вышла статья Алекса Грейвса «Connectionist temporal classification», которая рассказывает как это можно сделать и доказывает это математикой. Так как математика точная наука и не любит приблизительных пересказов, я оставлю ее за скобками своей статьи.

Общий смысл подхода сводиться к тому, чтобы подсчитать вероятность каждого символа в каждом "окне", после чего преобразовать это в строку выбрав более вероятные символы (" " - тоже символ), а дальше подсчитать расстояние Левенштейна выдав его метрикой похожести.

Модель

Результат

Тут не все так однозначно, с одной стороны:

Такой результат я получил при обучении на своем компьютере, через 2 дня обучения.

Планы

Тут наткнулся на идею поверх прикрутить лингвистическую модель, которая бы удаляла огрехи по типу отсутствия пробелов между словами.

Так же скоро закончу кастомный датасет и отполирую им мелкие дефекты.

Выбрать файлы на которых нейронка спотыкается и проанализировать. Есть два варианта:

файл дефектный - решение: удаляем его из датасета, благо Open SST огромный

нейронка мало с ним работала - решение: добавляем его в кастомный датасет

Если вы работаете в digital-маркетинге, вам постоянно нужно взаимодействовать с текстом: записывать идеи, задачи, описывать концепции, писать статьи и многое другое. Иногда проще и быстрее надиктовать текст, чтобы не забыть важную мысль или задачу. Диктофон для этого подходит плохо: запись потом нужно будет расшифровывать и переводить в текст. А если оставлять голосовые заметки часто, то потом просто нереально быстро найти нужную информацию или бегло ее просмотреть.

Голосовой ввод текста помогает решить эту проблему. Вы диктуете — программа сразу переводит речь в текст, который вы можете сохранить как обычную заметку и дальше работать с ней спокойно работать.

В статье мы собрали подборку бесплатных сервисов голосового ввода, которые помогут вам:

быстро и удобно делать заметки, когда нет возможности или времени записывать вручную;
записывать голосом список задач;
надиктовывать черновики статей и других текстов.

Берите на вооружение сервисы из подборки и тестируйте — все они бесплатные и неплохо распознают русский язык.

5 бесплатных онлайн-сервисов для голосового ввода

1. SpeechPad

Speechpad — бесплатный сервис для голосового ввода текста. Доступен в трех форматах:

онлайн-сервис;
браузерное расширение — с его помощью можно вводить текст в любое поле для ввода;
мобильное приложение для Android и iOS.

У сервиса также есть платные функции. Их два вида:

дополнительные (расширенные). Включают в себя голосовой ввод в режиме интеграции с OS Linux и Windows, а также транскрибирование аудиофайлов длиной более 15 минут;
премиум. Пакетное транскрибирование аудио и видео (больше двух файлов).

Онлайн-сервис

Интерфейс сервиса выглядит так:

Здесь есть несколько настроек, кнопки управления и поле, в котором отображается распознаваемый текст.

Что можно сделать сделать:

настроить язык голосового ввода. Базово с списке доступно 14 языков (среди них русский, украинский, английский, немецкий). Если нужен другой язык, необходимо зарегистрироваться в сервисе. После этого в личном кабинете появится возможность добавить этот язык (если для него поддерживается распознавание речи);
активировать опцию «Включить команды». Если вы авторизованы в личном кабинете, вы можете добавлять голосовые команды и использовать их при надиктовке текста. Например, удалить последний распознанный фрагмент текста;
отключить управление заглавными буквами Google. По умолчанию в речи распознается начало предложений и автоматически проставляются заглавные буквы. Вы можете отключить эту опцию и самостоятельно редактировать предложения.

Обратите внимание! Онлайн-сервис Speechpad корректно работает только в браузере Google Chrome. Можно запускать его и в Яндекс.Браузере, но все же для корректной работы рекомендуется использовать именно Chrome.

Для начала распознавания текста нажмите кнопку «Включить запись» и предоставьте доступ к микрофону.

Затем надиктовывайте текст. Сначала распознанные слова появятся в поле справа от кнопки «Включить запись». После небольшой паузы они попадут в поле ниже (результирующее поле).

Над результирующем полем есть кнопки со знаками пунктуации. По ходу диктовки вы можете добавлять их вручную.

После того как вы закончили диктовку, просмотрите текст, исправьте ошибки (если есть). Затем скопируйте текст или скачайте в виде txt-файла.

Транскрибация

Также с помощью Speechpad можно переводить аудиозаписи разговоров в текст с помощью опции «Транскрибация».

Здесь можно будет загрузить аудио- или видеофайл, а также добавить ссылку на видео с Youtube.

После нажатия на кнопку «Включить запись» файл начнет проигрываться и система переведет речь в текст.

Расширение SpeechPad

Установите расширение из магазина расширений Google Chrome. После установки в контекстном меню в браузере (при клике правой кнопкой мыши на любой области экрана) появится пункт «SpeechPad».

Кликните правой кнопкой мыши по любому полю для ввода текста и выберите расширение из контекстного меню. Поле подсветится, и вы сможете голосом произнести фразу, которую нужно ввести в поле. Расширение распознает ее и отобразит в виде текста.

Мобильное приложение

Доступно две версии: для Android и iOS.

Приложение может работать в автономном режиме (без подключения к интернету). Так выглядит интерфейс приложения на Android:

В настройках можно управлять голосовыми командами (для расстановки знаков препинания и спецсимволов с помощью голоса):

2. VoiceNote

Для голосового ввода через VoiceNote можно использовать Live Demo или отдельное приложение для Chrome.

Как пользоваться сервисом

Откройте редактор и выберите язык, на котором нужно распознавать речь. Для этого кликните по иконке земного шара и укажите нужный язык.

Затем кликните по значку микрофона и предоставьте сервису доступ к микрофону вашего компьютера или ноутбука.

После этого система начнет запись и вы сможете надиктовывать текст. Распознанный текст появится в редакторе. Возможности:

можно проговаривать знаки препинания словами;
голосовой командой можно перевести текст на новую строчку;
с помощью панели инструментов можно вручную добавлять знаки препинания и спецсимволы прямо во время диктовки;
готовый текст можно отредактировать и сохранить в txt-файле.

3. Voice Notepad

Еще один сервис для голосового ввода текста. Как и остальные сервисы, работает только в браузере Google Chrome.

У сервиса простой интерфейс. Здесь есть:

возможность выбрать язык распознавания (сервис работает на основе движка Google Speech Recognition и может распознавать речь на более чем 100 языках);
текстовое поле — здесь будет появляться распознанный текст, который можно отформатировать: выделить полужирным, курсивом или подчеркиванием, оформить списки, добавить или убрать отступы, задать выравнивание;
кнопки управления — кнопка Start активирует распознавание речи. С помощью остальных кнопок можно копировать текст, сохранять в txt-файл, публиковать и совершать другие действия.

Сервис поддерживает голосовые команды. Например, с помощью команды можно перевести текст на новую строку, поставить тире или другие знаки препинания, спецсимволы и т. д.

Полный список поддерживаемых команд для русского языка — здесь.

Бесплатный онлайн-сервис для распознавания речи. Достаточно неплохо распознает русский язык. Всего поддерживает более 60 языков.

У SpeechTexter есть веб-версия (работает только в Google Chrome) и мобильное приложение для Android.

Для начала работы с сервисом необходимо выбрать язык распознавания и нажать кнопку Start (предоставив доступ к микрофону).

В текстовом поле есть несколько полезных функций:

счетчик слов, распознанных системой;
инструменты редактирования текста: выделение полужирным, курсивом, подчеркиванием, выравнивание текста, изменение размера шрифта. Также можно менять цвет текста, создавать нумерованные и ненумерованные списки;
можно включить ночной режим — полезно, если вы используете сервис вечером или ночью.

В правой части интерфейса размещен блок со стандартными голосовыми командами для добавления знаков препинания и нового абзаца:

На вкладке Custom можно создать свои команды, например для добавления кавычек.

После завершения диктовки текст можно отредактировать и сохранить в файле:

в txt-файле;
документом Microsoft Word.

5. TalkTyper

Простой онлайн-сервис для голосового ввода с поддержкой 37 языков.

В этом сервисе минимум функций, однако с распознаванием русского языка он справляется вполне неплохо. Для начала распознавания речи необходимо нажать на значок микрофона, разрешить его использование в браузере и начать диктовку текста.

Если сервис распознал фразу неправильно, нажмите на значок «Варианты»:

Дополнительные инструменты для голосового ввода текста

Яндекс.Клавиатура и GBoard (Google Клавиатура)

Если вы большую часть времени работаете со смартфона и хотите использовать возможность голосового ввода текста, воспользуйтесь функционалом голосового ввода, который есть в клавиатурах от Google и Яндекс:

GBoard — клавиатура от Google. Для Android и iOS;
Яндекс.Клавиатура. Для Android и iOS.

Так вы сможете надиктовывать текст в любом приложении, которое вы обычно используете для организации личных и рабочих заметок, задач и подобного (Google Keep, Notion, Trello и т. д.).

Воспользоваться голосовым вводом просто:

Откройте нужное приложение (например, Google Keep) и создайте заметку;
Откройте клавиатуру и нажмите на значок микрофона (ниже пример, как это сделать в GBoard);
Начните диктовать заметку. Система распознает речь и преобразует ее в текст.

Голосовой ввод на GBoard (клавиатуре от Google)

Google Docs

Тем, кто много работает с Google Документами, пригодится встроенная функция голосового ввода (поддерживает русский язык).

Если вы еще не знали о ней, вот как ее включить: «Инструменты» → «Голосовой ввод».

Слева появится всплывающее окошко с выпадающим списком для выбора языка речи и кнопкой с иконкой микрофона.

Выберите нужный язык, нажмите на кнопку и начните диктовать текст.