Как расшифровать mp3 файл
На днях закончил работу над журналом, который готовил к 55-летнему юбилею мамы. Основой содержимого стали интервью с её близкими и друзьями. С ними я встречался лично, записывал разговор на диктофон. Дальше начиналось самое интересное. Эти записи предстояло расшифровать в текст.
Пять лет назад подобный подарок я уже делал, подруге. В 2015-м ещё не имелось достойных сервисов, способных транскрибировать аудиофайлы в текст. Сейчас технологии достигли необходимого уровня.
Делюсь подборкой соответствующих сервисов, наиболее совершенных. Trial-версия в каждом из них даёт обработать от 30 минут до 9 часов. Как правило, этого достаточно для большинства непромышленных задач. Экспорт готовой стенограммы возможен в Word и т.п. Если звук чёткий, без посторонних шумов, а люди говорят внятно, то качество расшифровки будет близко к 100%. В полученном документе останется лишь настроить стили и разбить его на абзацы.
Здесь можно бесплатно расшифровать три файла. При этом максимальная длина каждого – до трёх часов. Итого, 1 аккаунт = 9 бесплатных часов. Если у вас больше трёх файлов, но все они суммарно меньше 9-часового лимита, просто «склейте» их предварительно в аудиоредакторе. Тогда вам будет достаточно одной учётки. В противном случае на каждые три файла придётся регистрировать новый профиль.
Примечание. Во время регистрации нужно привязать банковскую карту. Если не планируете покупать платный тариф, не забудьте после транскрибации удалить её данные в Настройках. Тогда через 7 дней деньги не спишутся. Безлимитный тариф стоит от 75$ в месяц.
На каждом из этих сайтов бесплатно можно обработать запись до 30 минут. Принцип работы, и, судя по всему, движок, один и тот же. Тарифы не совсем прозрачные. В т.ч., поэтому первый сервис удобнее.
UPD 3.02.2019
3. В комментариях ещё порекомендовали данный сервис от Google:
При регистрации в любом из сервисов Google Cloud даётся 300$ на их использование (бесплатный trial). Этого хватит для перевода около 300 часов аудио в текст.
Используйте технологии XXI века для удобства и экономии времени!
Комментарий удален по просьбе пользователя
Cloud Speech-to-Text provides fast and accurate speech recognition, converting audio, either from…60 минут через гугл и 9 часов через указанный в статье сервис. Разница очевидна.
60 минут в месяц бесплатно. 300 баксов дают при первой регистрации, тариф ($0.004 / 15 seconds), после 60 минут в месяц. И того 312.5 часов бесплатно, разница действительно очевидна. Я не эксперт, но что-то мне подсказывает, что все эти сервисы используют google,amazon,ibm и это в лучшем случаи и просто перепродают тебе. ред.
Да, действительно, вы правы. Гугл в таком случае выгоднее. Спасибо за информацию!
я правильно понял, что для того, чтобы им воспользоваться, нужно создать проект, сервисный аккаунт, учетные данные (и т. д.?)?
регистрация и добавить карту ввести данные, проверять их не будут в том плане, что высылать скан паспорта не надо , а дальше да проект получить ключ и дальше и тд. Сейчас дают 300 баксов на 3 месяца, а не на год уже.
Ага, и еще, как выяснилось, нужна программа на питоне. Я не программист, нашел такую инструкцию, сделал всё по ней, но застопорился в этом месте, такую ошибку получаю:
NameError Traceback (most recent call last)
in ()
61 storage_client = storage.Client(project_id)
62 blobs = storage_client.list_blobs(bucket_name)
—-> 63 for blob in blobs:
64 print(blob.name)
65 list_blobs(bucket_name)
NameError: name 'blobs' is not defined
When it comes to conducting user research and interviews, having a written transcript of the words…"На днях закончил работу над журналом, который готовил к 55-летнему юбилею мамы"
Это же какое ЧСВ должно быть у тебя и у твоей мамы что бы такие подарки вообще дарить
Лучший подарок для мамы - это ЖУРНАЛ, сделанный своими руками, но С ПОМОЩЬЮ бесплатной программы по переводу аудио в текст!
Капец, на дворе 21 век, а тут такое, ёперный театр!
Так, ладно, шутки шутками, но скоро 8 марта, пойду доделывать газету для мамы :))))) ред.
Классная ирония про газету)) В интернете, кстати, полно услуг по созданию именных журналов в подарок. Я делал всё сам, в т.ч. вёрстку, процесс от А до Я занял 3 недели. Если нет времени, можно отдать от 10 тыс. и выше, за вас всё сделают спец. фирмы)
Уважаемый Андрей, попробуйте сделать данный подарок своей маме, жене или сестре. Именинница оценит. Вам вовсе не обязательно заказывать тираж 5 тыс. экземпляров, чтобы распространять его через магазины посторонним лицам. Достаточно одного. Таким образом ваше ЧСВ и ЧСВ вашего близкого останется на адекватном умеренном уровне.
Я бы не оценила. Но у нас с вами разные представления о жизни и нашем месте в этом мире и жизни окружающих.
Через гугл переводчик вы можете только наговорить текст. Загрузить аудиофайл для транскрибации невозможно. ред.
Комментарий удален по просьбе пользователя ред.
Можно так завести и в системную диктовку, которая будет работать прямо в Ворде и оффлайн, если это важно (на маке точно, на Win10 вроде тоже есть подобное)
Согласна но там ограничение по символам, беда, Роман
Осталось только теперь БЕСПЛАТНО раздобыть программу по переводу 4К видео в диафильмы и привет 19 век!
Спасибо!
Не понимаю, почему с этим так тухло
Вот пара сервисов есть и хорошо
А софта оффлайн нормального нет
При том что сама технология в любом свежем андроиде есть
беда лишь в том, что андроид ненужон
Пользовался таким способом расшифровать текст: заходил в гугл переводчик, запускал распознавание текста по голосу и включал на фоне, собственно, сам файл. Там в настройках микшера немного надо повозиться, чтобы все работало, но это один из самых действенных и бесплатных способов расшифровать текст.
Кстати. Для Клауд Спич Гугл сначала нужно скачать файл, а уже после загрузить его для обработки. Если файл весит много, а интернет не самый быстрый, то скачивание, а потом заливка в Клауд Спич Гугл - слишком долго. Да и в целом довольно нерационально сначала скачивать видео из интернета, а потом его обратно туда загружать.
В Тринт можно загрузить файл по прямой ссылке. Если надо расшифровать видео с известного хостинга, например, ютуба, я делаю так:
1. Копирую url нужного видео
2. Иду на savefrom, чтобы "выдернуть" прямую ссылку на видео
3. Иду на Тринт, там выбираю функцию "добавить через url"
Готово. Существенная экономия времени.
Подскажите пожалуйста, удалось удалить карту? у меня такая же проблема
Немного про формат
MP3 расшифровывается как MPEG 1 Layer 3, т.е. MPEG версии 1, третья редакция, или как-то в этом роде. Нам важно понять, что бывает еще MPEG 2, а Layer не обязательно может быть третьим. Что такое MPEG, почему Layer 3, чем отличается MPEG1 от MPEG2, и прочие подобные вопросы я рассматривать не буду, т.к. это само по себе тянет на отдельную статью. MP3 это сжатый формат, сжатие достигается за счет убирания из исходного звука частот заведомо не слышимых человеком, ну и еще за счет алгоритма сжатия какого-нибудь (это я тоже не буду здесь рассматривать). Именно поэтому сжимать архиваторами MP3 файлы не получается (вернее получается, но результат не впечатляет), они уже сжатые. Внутри файл состоит из фреймов. Заголовка у MP3 файла нет, зато у каждого фрейма есть свой заголовок, с ним то мы и будем в основном работать. Фрейм можно рассматривать, как некий дискретный кусок звукового потока.
Помимо фреймов, в файле могут быть один или несколько ID3 тегов. ID3 – это теги специально разработанные для формата MP3, т.к. он сам не содержит никакой описательной части. Теги бывают разных версий, чаще всего это или ID3v1.x или ID3v2.x. Теги первой версии находятся в последних 128 байтах файла, начинаются с символов TAG (такой тег может занимать и более чем 128 байт, но это редко, это усовершенствованная первая версия ID3). Теги второй версии могут находиться в любой части файла, но чаще они располагаются в начале файла, и начинаются с символов ID3. Теги второй версии намного более расширенные, чем теги первой версии, в них нет ограничений на длину полей с описанием трека, количество доступных полей намного больше, можно использовать Юникод, тег может содержать в себе изображение. Длина тега второй версии не фиксированная, и определяется по заголовку тега (в отличие от MP3 файла, у ID3v2 тега есть заголовок). Наличие тегов в файле не является обязательным, и их может не быть совсем, а могут быть оба, и тег первой версии в конце файла, и второй в начале, это делается в целях совместимости с большим количеством плееров. Часто возникает проблема с русскими символами в тегах в плеерах мобильных телефонах, я думаю это связано с Java машиной в телефоне, дело в том, что она поддерживает строки в формате UTF-8, а русские теги часто имеют кодировку Win-1251. Чтобы избежать «козябриков» на этих устройствах, нужно сохранять теги в Юникоде.
Теперь немного о том, как читать теги программно. Я не буду подробно освещать эту тему здесь, скажу лишь, что существуют библиотеки, компоненты для их чтения, также в сети доступна спецификация на эти теги, так что можно и самому написать их обработку, если есть желание. Звуковые движки, например тот же BASS, тоже умеют читать теги. Они кстати умеют и все остальное, о чем я буду писать ниже, и если ваша задача – получить информацию о файле, и вам не интересно как он устроен, можете в принципе дальше не читать, так как через интерфейс движка это сделать намного легче. Если вам звук нужно еще и воспроизводить, то этот способ даже лучше, зачем ковыряться в спецификациях, если есть удобный инструмент. Но бывают случаи, когда звук воспроизводить не надо, а нужна только информация о файле, и тогда лучше подключить легкий модуль, чем таскать движок за программой.
Битрейт
В этой статье я затрону только те характеристики, которые мы будем читать из файла, остальную общую информацию об MP3 можно без проблем найти в Интернете, ее достаточно, в отличие от более специализированной информации о формате.
Как вы все, наверное, знаете, MP3 файл может иметь различный битрейт, это кол-во бит выделенных на кодирование звука в единицу времени. Понятно, что чем он выше, тем качество звука лучше, и размер файла соответственно тоже больше. Значение битрейта в MP3 может находиться в пределах от 8 до 320 кбит/с. Полный список смотрите в Рис 2. Битрейт может быть постоянным (constant) и переменным (variable), это обозначается аббревиатурами CBR и VBR соответственно. Переменный битрейт позволяет снизить размер файла, не снижая качества. Это достигается за счет того, что на участках, где это не требуется, например тишина в начале трека, используется меньшее количество бит для кодирования. На уровне структуры файла это выражается в том, что один фрейм может иметь битрейт, например 128, а следующий может иметь уже 192, и т.д. В каждом отдельном фрейме битрейт имеет значение кратное степени двойки, соответствующее спецификации (см. рисунок 2). В целом по файлу, битрейт, в случае если он постоянный, не будет отличаться от значения битрейта первого фрейма, таким образом, нам достаточно взять информацию из первого фрейма, и мы имеем информацию о файле. В случае если битрейт переменный, то все усложняется, нам недостаточно одного фрейма, чтобы делать выводы об общем битрейте файла.
Частота дискретизации
Вторая характеристика, которую мы рассмотрим, это частота дискретизации или Sample Rate. Это частота, с которой при кодировании звука снимаются замеры с источника звука. Например, если частота у нас 44100 Гц, то это значит, что столько раз в секунду снимаются и сохраняются значения оригинального, аналогового звука. По сути, оцифровка. Можно конечно и уже оцифрованный звук перегнать с другим сэмпл-рейтом, но качество можно только понизить, повысить уже вряд ли удастся. Как и в случае с битрейтом, от частоты дискретизации напрямую зависит качество звука. Частота дискретизации в MP3 не может варьироваться, и всегда постоянна для всего файла.
Длина
У любой музыкальной композиции или любой другой звуковой записи есть такая характеристика, как длина. Упоминаю я ее отдельно для того, чтобы обрадовать вас, что так как у MP3 файла общего заголовка нет, то и готовые сведения о длине нам взять в принципе неоткуда (ID3 тег не в счет, в нем может быть длина трека, а может и не быть, а может и самого тега не быть). Поэтому длину нам придется высчитывать самостоятельно. На этом с характеристиками закончим и перейдем к разбору фреймов.
Фреймы
Самый значимый для нас это 3-й байт заголовка. В нем содержится информация о битрейте, частоте дискретизации, установлен или нет Pad бит (определяет наличие добавочного байта в фрейме), все это вместе взятое позволяет нам высчитать размер этого фрейма. Размер фрейма высчитывается по формуле 1:
144 * BitRate / SampleRate + Pad; (1)
Если Pad бит равен единице то и в формулу подставляем единицу, если нулю – подставляем нуль. Битрейт и частоту подставляем в их полном виде, без округлений, битрейт в битах, а частоту в герцах. В файлах к этой статье вы найдете пример извлечения нужной информации из заголовка фрейма и реализацию этой формулы на языке Delphi. Чтобы что-то извлечь из заголовка, его нужно сначала найти, это тоже там есть. На самом деле достаточно найти первый фрейм, позицию каждого следующего мы уже будем знать, прибавляя к позиции текущего фрейма его длину.
Теперь поговорим о том, как найти переменный битрейт и длину трека. С постоянным битрейтом все ясно, он одинаковый для всего файла, и его можно взять из первого фрейма. С переменным не так. Во-первых, нигде не написано что он переменный, и чтобы это определить, нужно прочесть больше чем один фрейм. Я пошел самым простым путем, и читаю два первых фрейма. Если битрейт у них одинаковый я считаю что битрейт постоянный, если разный то переменный. Это скорее всего не точно, ведь переменным он может стать и после второго фрейма. Однозначных рекомендаций по этому вопросу я не встречал, возможно, есть соглашение, что если битрейт переменный, обязательно кодировать первые два фрейма с различным битрейтом, я бы так и сделал на месте разработчиков, но это только мои предположения. Если у вас есть более точная информация на этот счет, оставляйте комментарии к статье на сайте журнала, интересно будет почитать. Понятно, что в случае переменного битрейта необходимо как-то высчитать его среднее значение по всем фреймам. Оставлю это вам, у меня в коде в этом месте стоит заглушка, т.е. просто в случае переменного битрейта, в качестве его значения присваивается ноль.
Заключение
Теперь про длину трека. Ее можно высчитать, поделив размер файла (за вычетом тегов и прочего мусора, нужны только фреймы, не совсем ясно только, включать заголовки или нет) на битрейт, если он постоянный. Таким образом, мы получим длину трека в секундах. Если битрейт переменный, этот способ не подходит (хотя можно на усредненный битрейт поделить), тогда мы можем задействовать сэмпл-рейт, он у нас постоянный для всего файла, и представляет собой кол-во сэмплов в секунду. Если предположить что сэмпл и фрейм это одно и то же, то можно узнать количество секунд в треке, посчитав все фреймы. Я не пробовал ни тот, ни другой способ, не буду портить вам удовольствие и позволю самим попробовать высчитать длину трека. Если что интересное получится, пишите в комментариях. Опять же, можно переменный битрейт считать от обратного, найти по сэмпл- рейту длину, и потом уже одним действием найти средний битрейт.
Все исходные коды, упомянутые в статье, приложены непосредственно к журналу «ПРОграммист. Пятый выпуск».
MP3 (более точно, англ. MPEG-1/2/2.5 Layer 3 (но не MPEG-3) — третий формат кодирования звуковой дорожки MPEG) — лицензируемый формат файла для хранения аудио-информации.
На данный момент MP3 является самым известным и популярным из распространённых форматов цифрового кодирования звуковой информации с потерями. Он широко используется в файлообменных сетях для оценочной передачи музыкальных произведений. Формат может проигрываться практически в любой популярной операционной системе, на практически любом портативном аудио-плеере, а также поддерживается всеми современными моделями музыкальных центров и DVD-плееро
Цифровые фотоаппараты и мобильники часто сохраняют видеофайлы в форматах MOV или MP4.
MP3 (более точно, англ. MPEG-1/2/2.5 Layer 3 (но не MPEG-3) — третий формат кодирования звуковой дорожки MPEG) — лицензируемый формат файла для хранения аудио-информации.
MP3 разработан рабочей группой института Фраунгофера (англ. Fraunhofer Society) MPEG (англ. Moving Picture Expert Group — группа экспертов в области динамического изображения) , состоящей из Джонсона, Штолла, Деери и Карлхайнца Бранденбурга. Основой разработки MP3 послужил экспериментальный кодек ASPEC (Adaptive Spectral Perceptual Entropy Coding). Первым кодировщиком в формат MP3 стала программа L3Enc, выпущенная летом 1994 года. Спустя один год появился первый программный MP3-плеер — Winplay3.
MPEG (англ. Moving Picture Experts Group — русск. Экспертная группа по вопросам движущегося изображения) — группа специалистов в подчинении ISO, собирающаяся для выработки стандартов сжатия цифрового видео и аудио. Первое собрание происходило в 1988 году в Ганновере.
Официальное обозначение группы ISO/IEC JTC1/SC29 WG11.
MPEG (произносится, как ЭМ-пег) стандартизовала следующие стандарты сжатия и вспомогательные стандарты:
* MPEG-1: Исходный стандарт видео и аудио компрессии. Позднее использовался, как стандарт для Video CD, и включает в себя Layer 3 (MP3) формат аудио сжатия.
* MPEG-2: Транспортные, видео и аудио стандарты для широковещательного телевидения. Используется в цифровом телевидении ATSC, DVB и ISDB, цифровых спутниковых ТВ службах, таких как Dish Network, цифровом кабельном телевидении, и (с небольшими изменениями) в DVD.
* MPEG-3: Изначально разрабатывался для HDTV, но от него отказались, когда обнаружилось, что MPEG-2 (с расширениями) вполне достаточно для HDTV. (Не стоит его путать с MP3, который на самом деле MPEG-1 Layer 3.)
* MPEG-4: Расширяет MPEG-1 для поддержки видео/аудио «объектов» , 3D контента, сжатия с низким битрейтом и DRM. В него включено несколько новых высоко эффективных видео стандартов (альтернатив MPEG-2), особо отметим:
o MPEG-4 Part 2 (ASP) и
o MPEG-4 Part 10 (или AVC, или H.264). MPEG-4 Part 10 может быть использован в HD DVD и Blu-Ray дисках.
В дополнении, к рассмотренным стандартам, рассмотрим стандарты которые являются не усовершенствованием предыдущих стандартов сжатия, а описывают различные языки описания:
* MPEG-7: Формальная система для описания мультимедийного контента.
* MPEG-21: MPEG описывает стандарт, как мультимедийная среда разработки.
Транскрибация (расшифровка) – это метод перевода информации из аудио или видео в текстовый формат. Такой подход актуален для слабослышащих, при расшифровке интервью и создании субтитров (для тех, кому нужно посмотреть видеоролик или прослушать аудио без звука). Цель транскрибации – перевести речь в текстовый формат, который будет понятен любому человеку.
Для расшифровки аудио в текст сегодня используется профессиональный софт. О лучших программах для расшифровки аудио мы и поговорим в данной статье.
Google Docs
Google Docs – онлайн-сервис для работы с текстом и данными. Внутри платформы можно включить микрофон, который поможет перевести речь в письменный формат. Для его активации следует воспользоваться комбинацией клавиш Ctrl+Shift+S, затем выбрать язык и нажать на значок микрофона.
Увы, но сервис очень плохо справляется с тихой и шумной диктофонной записью, но отлично с диктовкой в микрофон. Главный недостаток – работает только в активном окне Google Docs, то есть наговорить что-то с другой вкладки или включить запись на компьютере не получится.
Плюсы:
- бесплатный продукт;
- автоматическое сохранение текста;
- возможность сразу же отредактировать материал.
Минусы:
- медленная расшифровка;
- распознает не все слова: требуется хорошая диктовка, чтобы получить качественный текст;
- не сможет распознать запись из другой вкладки браузера или плеера.
Операционная система: Web
Ссылка на сервис: Google Docs
Google Keep
Google Keep – это мобильное приложение для заметок, с помощью которого можно также переводить голосовые записи в текст. Для этого нужно нажать на значок микрофона на панели инструментов. Разговор в аудиоформате будет сохранен вместе с расшифрованным текстом.
Для длительных записей Google Keep, к сожалению, не подойдет, потому что останавливает запись после коротких пауз в диалоге. Но его можно использовать, чтобы расшифровывать уже готовые записи по кускам.
По какой‑то причине распознавание голоса в Keep работает лучше, чем в Гугл-документах: приложение даже угадывает начало новой фразы и помечает его заглавной буквой.
Плюсы:
- легко перевести голосовую запись через микрофон;
- достаточно точно расшифровывает аудио.
Минусы:
- нельзя записывать голосовые аудио с паузами;
- работает только с микрофоном.
Операционная система: Android, iOS, Web
Ссылка на скачивание: Google Keep
Speechpad
Speechpad – бесплатный онлайн-инструмент, с помощью которого можно расшифровать голосовую запись. Работает исключительно со звуком из микрофона, поэтому следует позаботиться о качестве оборудования.
Поддерживается Google Chrome, но есть приложения для iOS и Android. Также возможна интеграция в Windows, Mac и Linux, чтобы обеспечить голосовой ввод в любом текстовом поле. Четкий звук понимает достаточно хорошо, плохой – крайне посредственно.
Плюсы:
- бесплатная программа на русском языке;
- можно отредактировать текст;
- есть инструкции по работе с сервисом;
- воспринимает звуки с соседних вкладок браузера – можно работать с одного устройства.
Минусы:
- транскрибация из файла требует хорошего качества звука, в ином случае расшифровка будет неполной.
Операционная система: Web
Ссылка на сервис: Speechpad
RealSpeaker
RealSpeaker – платный сервис для перевода аудиофайлов в текстовый контент. Работает исключительно с готовыми файлами, поэтому использовать микрофон, как в предыдущих случаях, не получится.
Перевод аудио в текст бесплатен только в том случае, если запись длится не более 1.5 минут. Далее – 8 руб. за минуту, максимальная продолжительность аудио – 180 мин. Поддерживается более 40 языков, включая русский.
Для работы с сервисом достаточно выбрать язык озвучки, загрузить файл, рассчитать время расшифровки и оплатить услугу.
Плюсы:
- есть возможность работать с файлами;
- простой в использовании сервис.
Минусы:
- платный сервис;
- не позволяет надиктовать текст в микрофон;
- в течение 24 часов файл доступен всем, и его нельзя скрыть.
Операционная система: Web
Ссылка на сервис: RealSpeaker
Dictation
Dictation – бесплатный онлайн-сервис, позволяющий распознавать запись с микрофона. Понимает не только русские слова, но и десятки команд: тире, новую строку и так далее.
Из недостатков – распознает только качественную речь. Если запись была сделана на слабенький микрофон, то получить хороший результат не получится.
Плюсы:
- быстрая отправка результата на почту и в социальные сети;
- есть встроенный редактор;
- отлично и максимально точно справляется с хорошо записанной речью.
Минусы:
Операционная система: Web
Ссылка на сервис: Dictation
oTranscribe
Бесплатный веб-сервис для ручной транскрибации текста. Работает как с аудио, так и видео, в том числе с YouTube-роликами. Открывает множество форматов: WAV, MP3, MPEG, WEBM и другие. Можно назначить горячие клавиши для управления воспроизведением. Есть автосохранение, простой текстовый редактор, интерактивные метки, упрощающие навигацию.
Плюсы:
- минималистичный редактор текста;
- автоматически сохраняет документ в формате HTML;
- для удобства пользования можно настроить горячие клавиши.
Минусы:
- нет автоматизации процесса, все нужно делать вручную.
Операционная система: Web
Ссылка на сервис: oTranscribe
Transcribe
Из особенностей можно отметить поддержку множества форматов – 3GP, AAC, AIF, AIFF, AMR, CAF, DSS, FLAC, M4A, MOV, MP3, MP4, OGG, WAV, WEBM, WMA, WMV. Максимальный размер файла – 6 Гб или 420 минут.
Плюсы:
- простой в управлении сервис;
- есть редактор текста в самостоятельной расшифровке;
- поддерживает ссылки с YouTube;
- есть таймкоды;
- файлы можно загрузить как с ПК, так и с облачных сервисов;
- есть подробная инструкция;
- поддерживает большое количество языков и диалектов;
- есть горячие клавиши для быстрой работы.
Минусы:
Операционная система: Web
Ссылка на сервис: Transcribe
Dragon Dictation
Dragon Dictation – платная программа для iOS-устройств, способная распознавать продиктованный текст с микрофона. Есть тестовый период на неделю, далее необходимо оформить подписку – $14.99 в месяц или $149 единоразово.
Плюсы:
Минусы:
- нельзя расшифровать файлы или ссылки из YouTube;
- платное приложение.
Операционная система: iOS
Ссылка на скачивание: Dragon Dictation
Speechnotes
Speechnotes – онлайн-сервис для браузеров и приложение для Android. В онлайн-версии расшифровка файлов платная – $0.1 за минуту. В приложении же есть бесплатный тестовый период, после его окончания нужно приобрести подписку за 69 рублей в месяц. Также в нем можно сохранять файлы в облако, отправлять их в соцсети и по почте. Онлайн-сервис воспринимает знаки препинания, а приложение распознает еще и смайлики.
Плюсы:
- сохраняет документ в форматах doc и txt, позволяет работать с PDF;
- простой интерфейс;
- есть редактор текста;
- более 50 языков.
Минусы:
Операционная система: Web, Android
Ссылка на сервис: Speechnotes, на Android: Speechnotes
Otter
Последний в нашем списке инструмент для расшифровки аудио в текст – это Otter. Работает только с английским языком, но у сервиса есть отличительная особенность: он может запоминать голос диктора – такая возможность позволяет разделять реплики в записях с несколькими собеседниками.
Также можно загрузить аудио или видео с английской речью, в результате чего сервис выведет текст. Некоторые спорные моменты из-за произношения могут расшифровываться неправильно.
Программа будет полезна, если вы работаете с англоязычными источниками.
Плюсы:
- есть функция запоминания голоса;
- бесплатный функционал;
- легко распознает аудио или видео на английском языке.
Минусы:
Операционная система: Web, iOS
Ссылка на сервис: Otter
Заключение
Читайте также: