Для чего предназначены программы распознавания считанной сканерами информации
Оцифрованные книги, архивы, периодические издания – это преимущественно изображения. Для внесения изменений, копирования из них информации, картинки приходится превращать в редактируемые текстовые файлы. В этом помогут системы оптического распознавания текста. Разберёмся, как они работают, выявим слабые места.
Принцип функционирования
- написании студенческих работ – цитирование литературы;
- оцифровке библиотек, архивов;
- переводе материалов на иные языки;
- хранении книг, газет, журналов, документации в цифровом виде.
Текстовый документ занимает порой в десятки раз меньше места, чем его графическая версия.
Распознавание текста – это сложный многошаговый процесс. Состоит из этапов:
- Получения цифрового изображения путём сканирования или фотографирования, если нет исходного документа.
- Очистки картинки от дефектов: оптических (тени, засветы) и физических (повреждения носителя, сторонние предметы вроде пыли).
- Разделение полученного изображения на светлые области – фон и тёмные – нужно обработать.
- Определения структуры страницы: где какой тип блока расположен – буквы с цифрами, таблицы, картинки, сноски, колонки, списки.
- Разделение страницы на области и отдельные символы.
- Определение языка (-ов), шрифта (-ов).
- Анализ каждого символа и его сравнение с эталоном.
- Выбор наиболее подходящего знака, исходя из результатов сравнения.
Качество и скорость зависят от исходного материала, отточенности алгоритмов программы.
Типы анализа
- Растровый – начертания знаков последовательно накладываются на растровые эталоны. С каким меньше различий, такой символ будет в результате. Применяется при работе с качественными исходниками.
- Векторный – в начертании символов выделяются простейшие геометрические фигуры, после сравниваются с шаблонами. Выбирается знак, имеющий максимум совпадений. Алгоритм применяется для документов низкого качества.
Программы для OCR обладают десятками наборов шаблонов для разных шрифтов, самообучающимися алгоритмами и технологиями выбора эффективнейшего из них.
Экскурс в историю
Первые патенты на оптическое распознавание текста выданы в конце 20-х – начале 30-х годов XX века. В 1950 году американский военный криптоаналитик Д. Шепард создаёт машину для считывания текста с картинки. Вследствие он основал компанию по выпуску интеллектуальных машин распознания текста. Далее создавались устройства для считывания номеров кредиток, сортировки почты.С 1970 создаются решения для определения символов, напечатанных различными шрифтами, в конце 70-х выходит первая компьютерная программа для OCR. Аналогичное решение с поддержкой кириллицы появилось в 1992 г. Годом позже компания ABBYY выпустила легендарный FineReader, получивший мировое признание.
Трудности работы систем оптического распознавания цифровых документов
- Разная форма, начертание символов в зависимости от используемого шрифта. Особенно сказывается при работе с рукописными текстами и шрифтами.
- Искажение исходных символов вследствие дефектов бумаги, оптики сканера или камеры, световых эффектов (блики), повреждений носителей (пятна).
- Нарушение масштаба фрагментов картины при сканировании.
С остальными проблемами алгоритмы справляются хорошо, например, анализ структуры страницы: определение границ текстовых полей, таблиц, формул, размера букв.
В этой статье мы собрали 8 лучших программ распознавания текста с изображений и отсканированных документов. Они с легкостью переведут pdf, jpg, png или «бумажный файл» в редактируемый формат для Word и прочих офисных приложений.
Общий рейтинг Общие сведения Функции сканирования распознавания Дополнительные возможностиОбщие сведения:
Функции сканирования распознавания:
Сжатие отсканированного текста (уменьшение размера файла)Дополнительные возможности:
Способность извлекать текст из не печатных шрифтов Возможность работы с картинками фотографиями плохого качества Автоматического распознавания исходного изображения после скан.Программа ABBYY FineReader – признанный флагман отрасли и лидер по количеству и качеству задействованных технологий оптического распознавания, сжатия и перевода. Приложение работает со сканером, поддерживает формат изображений jpg, jpeg, png, gif, bmp, переводит pdf в Word, Excell и даже упаковывает свежие сканы в редактируемую ПДФ-ку, HTML страницу. У него всего два недостатка – это стоимость и системные требования. В остальном, равных Файн Ридеру просто нет.
Преимущества продукта ABBYY FineReader:
- Работа с большим количеством разнообразных источников текста;
- Практически неограниченное количество языков распознавания (больше 170);
- Встроенная проверка правописания;
- Способность сжимать оригинальные файлы изображений без видимой потери качества;
- Поддерживается распознавание многостраничных документов;
- В пробной версии полностью функциональна.
OCR CuneiForm, пожалуй, лучшая бесплатная программа – аналог FineReader. Она менее требовательна, менее сложна, но и не столь развита. Это простая, удобная утилита захвата текста с интуитивно понятным интерфейсом и приятным внешним видом. Умеет сканировать документ в Microsoft Word или другое приложение из офисного пакета, обрабатывать сразу несколько файлов форматов jpeg, tiff и т.д., проверять редактируемый текст на ошибки. Лучшего бесплатного решения для дома просто нет.
Особенности OCR CuneiForm:
- Работает как программа сканирования и распознавания текста (в любом из режимов);
- Хорошая реализация оптического распознавания символов, низкий процент брака;
- Программа поддерживает небольшое количество языков (около 20), включая русский;
- Текст сразу готов для последующего редактирования, ведь передается в офисное приложение;
- Отлично «отсеивает» текст на изображении от пятен, образовавшихся в процессе ксерокопирования.
Readiris Pro – чрезвычайно мощная, но и недешевая программа распознавания текста со сканера, документа pdf, djvu, tiff, jpeg. Единственная среди аналогов включает интеллектуальную систему распознавания отсканированного бумажного документа (рукописного текста), причем, выполняет подобную работу на качественно высоком уровне. Конечно, если вы не собираетесь «скармливать» приложению изображение текста с назначения лечащего врача. Каллиграфически верный почерк воспринимается хорошо, украинский и русский поддерживаются.
Характеристики приложения Readiris:
- Хорошее качество распознавания на 100+ языках, включая таблицы и рукописные документы;
- Возможность извлечь текст с картинки в разных форматах, из электронной книги djvu;
- Полученный текст можно экспортировать не только в Microsoft Office Word, Excel, но и PDF, OpenOffice, XPS;
- Инструмент компрессии сжимает изображения со сканера в 200 раз без потерь;
- Программа платная, но простая в использовании – все действия выполняют в 2 клика.
Freemore OCR, как и другие бесплатные программы распознавания текста, не блещет количеством функций, но и не требует от вас приобретения дорогостоящей подписки. Согласно заявленным характеристикам, технология Side-by-Side помогает приложению отлично отделять картинки от символов, чтобы не захватывать лишние блоки. Утилита сохраняет распознанные документы текстовом формате doc, txt или pdf. Разработчики особо акцентируют внимание на отсутствии необходимости установки редакторов ПДФ от Adobe, мол, все нужные функции уже включены.
Особенности Freemore OCR:
- Позволяет распознать документ, pdf, изображение почти всех поддерживаемых форматов;
- Отсутствует полноценный захват русского текста, только латиница;
- Меню программы простое и понятное, для работы не нужны знания английского;
- Заявлены полезные «бизнес» функции – шифрование пдф, добавление водяного знака;
- Программное обеспечение часто обновляется с официального сайта.
ABBYY Screenshot Reader - программа распознавания текста со скриншотов! Работает по следующему принципу: вы нажимаете комбинацию клавиш, захватываете необходимую область экрана, ждете несколько секунд и сохраняете полученный результат в виде текста из окна утилиты в любой редактор через буфер обмена. Интерфейса обмена данными здесь нет, зато есть переводчик, словарь и другие приятные фишки от ABBYY.
Преимущества и недостатки Screenshot Reader:
- Использует минимум ресурсов, срабатывает моментально;
- Не требует запуска с рабочего стола, если вы выполните необходимые настройки горячих клавиш;
- Может распознать текст с любого открытого на вашем компьютере файла или защищенной веб-страницы;
- Интегрированы функции перевода и проверки орфографии;
- Здесь не получится открыть файл – только захват области экрана в ручном режиме;
- Пакетная обработка также отсутствует, устройство считывания не подключается;
- Чтобы сохранить полученные данные в редактор, нужно скопировать их вручную.
Характеристики Adobe Acrobat Pro DC:
- Представляет собой пакет для создания и редактирования pdf;
- Включает функцию импорта с внешних устройств;
- Предлагает большое количество профильных возможностей, например, загрузку файлов в облако Creative Cloud (аналог Google Диск для продуктов Adobe);
- Утилита полностью совместима со всеми новыми версиями ОС Windows.
Scanitto Pro - программа для распознания текста с ксерокопии. Представляет собой альтернативный интерфейс сканера с опцией захвата текста для импорта в стандартный форматы редакторов. Позволяет выделять, разворачивать элементы на странице, помечать фрагменты, которые требуется распознать.
Особенности Scanitto Pro:
RiDoc, возможно, не самый функциональный продукт из представленных, но он явно лучше любого free online ocr (онлайн сервиса бесплатного распознания). У приложения много собственных интересных «фишек» - каталогизатор документов, инструментарий наложения водяных знаков, собственный виртуальный принтер, сохранение пресетов для качественного распознавания в пакетном режиме. Но в некоторых случаях возможностей РиДока явно мало.
Полезные функции RiDoc:
- Собственный интерфейс обмена с внешним считывающим устройством;
- Наложение водяных знаков, цифровой подписи, создание ключа шифрования;
- Создание одинаковых настроек распознания для неограниченного количества страниц;
- Экспорт результата в MS Word, bmp, jpeg, tiff, png и, конечно, pdf.
По результатам нашего небольшого исследования, на первое место рейтинга заслуженно претендует ABBYY FineReader. Он стоит недешево, но умеет распознавать тексты лучше конкурентов, поддерживает больше языков и все необходимые форматы – pdf, doc и распространенные расширения графических файлов.
Если сканирование, экспорт и пакетный режим вам не нужны, обратите внимание на ABBYY Screenshot Reader. Он захватит любую область экрана и переведет её в обычный текст за считаные секунды. Как и «старший брат» продукт снабжен словарем и переводчиком, но стоит в разы дешевле.
CuneiForm, бесспорно, работает лучше, чем любые другие бесплатные сервисы распознавания текста. Продукт функционально приближен к утилитам от ABBYY, но сделан немного проще. Это хороший выбор для дома.
Readiris Pro и Freemore OCR можно назвать альтернативой FineReader и CuneiForm для западного рынка. Проводя параллели, вы поймете, насколько приложения принципиально похожи. Правда, у Readiris есть большой козырь в рукаве – крутая система чтения рукописного текста!
Acrobat, как мы уже говорили, предназначен для других целей, но интегрированная функция распознавания неплохо работает, хоть и менее удобна, чем у других решений из нашей подборки.
Scanitto Pro и RiDoc сделают из документа, изображения или листа бумаги с символами читаемый текст довольно быстро. Утилиты легкие, не требовательные, но откровенно сыроваты в плане возможностей.
Программы распознавания текста позволяют работать с отсканированными изображениями. С их помощью выполняется редактирование информации, исправление ошибок, сохранение данных в нужном формате и т.д.
Как работает сканер.
Чтобы лучше понять ценность упомянутых программ разберемся с тем, как работает сканер. Механизм устройства помещен в корпус, верхняя часть которого представлена стеклом. Внутри находится яркая лампа и зеркала. Именно они отвечают за «фотографирование» источника для сканирования. При этом шрифт и изображения считываются в виде цветных, серых или черно-белых точек (в зависимости от модели устройства). А за распознавание текста и картинок отвечает драйвер сканера.
Полученное изображение является своеобразной фотографией исходного источника, будь то разворот книги, лист формата A4 или справка. Программы для распознавания текста позволяют расширить возможности пользователя, редактировать текст, исправлять ошибки.
Для наглядности рассмотрим пример. Допустим, вам нужно вставить большой кусок текста из книги в дипломную работу. Чтобы не тратить время на перепечатывание с листа, страницы можно отсканировать. Однако этого недостаточно, поскольку вы получите файлы-картинки, которые не подойдут для использования в Microsoft Word. С помощью программ для распознавания текста пользователь отредактирует полученное изображение и сможет вставить информацию в текстовый редактор.
Возможности современных программ для распознавания текста.
Если предстоит сканирование листов с четко прописанными буквами, читабельным, ярким шрифтом, то с такой задачей справится любой сканер. Куда хуже обстоит дело, если речь идет о таких носителях информации, как старые, потрепанные листы бумаги или пожелтевшие газеты. Не каждый драйвер сможет идентифицировать подобный текст, а потому возможности специальной программы придутся как нельзя кстати. С их помощью утраченные области шрифта легко восстановить, дописав на клавиатуре в рамках редактора.
Отдельные программы предоставляют даже такие эксклюзивные возможности, как правка рукописного текста. Правда, для этого нужно, чтобы разрешение картинки было не меньше 300 точек на дюйм. Кроме того, буквы в строке должны быть примерно одной высоты, одного наклона и написаны как можно аккуратнее.
Функцию распознавания рукописного текста поддерживают такие программы, как ABBYY FineReader, CuneiForm (бесплатная утилита), MyScript Stylus, SimpleOCR и другие. Помимо русских символов они идентифицируют буквы, написанные на иностранном языке. Кроме того, программы распознают таблицы и рисунки, перенося их в компьютер для последующего редактирования.
Таким образом, ни один современный пользователь ПК, имеющий сканер, не обойдется без программы распознавания текста. Выбор платных и бесплатных утилит позволит выбрать то, что отвечает именно вашим запросам с точки зрения функциональности.
Для быстрого перевода текста с бумажных носителей в электронный вид используют сканеры и программы распознавания символов .
После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.
Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов.
Наиболее широко известна и распространена такая программа отечественных производителей — ABBYY FineReader .
Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках (на 179 языках), а также для распознавания смешанных двуязычных текстов.
Возможности программы ABBYY FineReader:
- Работает с разными моделями сканеров.
- Позволяет из бумажных документов, PDF-файлов и цифровых фото сделать редактируемый текст.
- Позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (многостраничными документами) и с бланками.
- Позволяет редактировать распознанный текст и проверять его орфографию.
- Сохраняет внешний вид документа, а также его структуру, то есть, расположение слов, абзацев, таблиц, изображений, заголовков и нумерация страниц останутся такими же, как и в оригинале.
- Экспортирует тексты в Word, Excel, PowerPoint или Outlook.
Преобразование бумажного документа в электронный вид происходит в пять этапов. Каждый из этих этапов программа FineReader может выполнять как автоматически, так и под контролем пользователя. Если все этапы проводятся автоматически, то преобразование документа происходит за один прием.
Пять этапов процесса обработки документа с помощью программы ABBYY FineReader:
- Сканирование документа (кнопка Сканировать).
- Сегментация документа (кнопка Сегментировать).
- Распознавание документа (кнопка Распознать).
- Редактирование и проверка результата (кнопка Проверить).
- Сохранение документа (кнопка Сохранить).
1) На этапе сканирования производится получение изображений при помощи сканера и сохранение их в виде, удобном для последующей обработки. Чтобы начать сканирование, надо включить сканер и щелкнуть на кнопке Сканировать.
2) Второй этап работы — сегментация , разбиение страницы на блоки текста. Если страница содержит колонки, иллюстрации, врезки, подрисуночные подписи или таблицы, то порядок распознавания требует коррекции. Содержимое страницы разбивается на блоки, внутри каждого из которых распознавание осуществляется в естественном порядке. Блоки нумеруются, исходя из порядка включения их в документ. При автоматической сегментации (кнопка Сегментировать) определение границ блоков осуществляется автоматически. При этом учитываются поля документа, просветы между колонками, рамки.
3) Процесс распознавания текста после сегментации начинается с щелчка на кнопке Распознать и полностью автоматизирован.
4) Когда распознавание данной страницы завершается, полученный текстовый документ отображается в окне Текст. Заключительные этапы работы позволяют отредактировать полученный текст с помощью средств, напоминающих текстовый редактор WordPad. Провести проверку орфографии с учетом трудностей распознавания позволяет кнопка Проверить.
5) По щелчку на кнопке Сохранить запускается Мастер сохранения результатов. Он позволяет сохранить распознанный текст или передать его в другую программу (например, в Microsoft Word) для последующей обработки полученный текст можно сохранить в виде форматированного или неформатированного документа.
Технология оптического распознавания символов (OCR) умеет преобразовывать бумажные документы в доступный для чтения и редактирования формат. Также OCR упрощает рутину бухгалтеров, юристов и HR-сотрудников: может распознать документы и перенести информацию в учетные системы.
Как компьютер распознает текст
OCR (англ. optical character recognition) — технология автоматического анализа текста и превращения его в данные, которые может обработать компьютер. Человек распознает символы с помощью глаз и мозга. Компьютер использует камеру сканера, которая создает графическое изображение текстовой страницы. Для компьютера нет разницы между сканом текстового документа и фотографией: и то, и другое — набор пикселей.
Человек легко поймет, что на картинке изображен текст. Для компьютера есть два способа: распознавать символы целостно, то есть распознавать паттерн, или выделять отдельные черты, из которых состоит символ — выявлять признаки.
Метод распознавания паттерна
В 1968 году компания American Type Founders, которая с конца 19 века занималась созданием печатных шрифтов, придумала шрифт OCR-A с буквами одинаковой ширины. В основном шрифт использовали в банковских чеках, а для его чтения компьютером было создано специальное программное обеспечение.
Поскольку шрифт был стандартизирован, его распознавание стало относительно простой задачей. Программы «знали» OCR-A и могли переводить информацию с чеков в машиночитаемую форму. Однако в случае ошибки живой человек мог вмешаться в процесс и также прочитать банковский чек. Следующим шагом стало обучение программ OCR распознавать символы еще в нескольких самых распространенных шрифтах.
Выявление признаков
Этот способ еще называют интеллектуальным распознаванием символов — ICR. Программа, работающая с выявлением паттернов, не сможет определить символы, если шрифты ей неизвестны. Вместо распознавания паттерна ICR выделяет характерные индивидуальные черты, из которых состоит символ.
Большинство современных OCR-программ работают по этому принципу. Чаще всего в них используются классификаторы на основе машинного обучения, но в последнее время некоторые OCR-системы перешли на нейронные сети.
Что делать с рукописным вводом
Задачу с рукописным текстом для компьютера иногда упрощают. Например, просят писать почтовый индекс в специальном месте на конверте особым шрифтом. Формы для дальнейшей обработки компьютером имеют отдельные поля, которые просят заполнять печатными буквами.
Планшеты и смартфоны, которые поддерживают рукописный ввод, часто используют принцип выявления признаков. При написании определенной буквы экран устройства распознает, что сначала человек написал одну линию, потом вторую. Компьютеру помогает то, что все признаки появляются последовательно, в отличие от варианта, когда весь текст уже написан от руки на бумаге.
Шаги распознавания текста
Чем лучше качество исходного текста на бумаге, тем лучше качество распознавания. Первый этап — создание черно-белой или серой копии. Если все прошло без ошибок, то все черное — это символы, а все белое — фон. Хорошие OCR-программы автоматически отмечают трудные элементы: колонки, таблицы или картинки. Все OCR-программы распознают текст последовательно, символ за символом, словом за словом и строчка за строчкой.
Сначала OCR-программа объединяет пиксели в буквы, а буквы — в вероятные комбинации, затем система сопоставляет их со словарем. Если комбинация букв находится, то она отмечается как распознанное слово. Если нет — программа подставляет наиболее вероятный вариант.
Чему еще можно обучить OCR-систему
В крупных компаниях за подготовку актов, счетов и судебных исков отвечают сотрудники, но развитие машинного обучения и нейронных сетей позволили автоматизировать деятельность бухгалтеров и юристов. Современные OCR-системы ушли гораздо дальше, чем распознавание символов, и стали основой для целой индустрии Legal Tech — цифровых продуктов, ориентированных на бизнес с большим количеством типовых юридических и бухгалтерских процессов. Вряд ли машина сможет в скором времени заменить бэк-офис, но современные решения значительно оптимизируют его работу.
Например, сервис «Цифровой бэк-офис» от МегаФона может собирать типовую документацию с помощью конструктора, выделять нужную информацию из первичной документации и генерировать ответы на запросы госорганов. Процесс идентичен тому, что происходит в обычном офисе юриста, только вместо живого человека — чат-бот, который собирает информацию и выдает готовый документ. Главные преимущества — отсутствие ошибок «человеческого фактора» и скорость подготовки документов: время сокращается с привычных 30 до 5 минут.
Также функция по распознаванию первичной документации может быстро перенести нужную информацию из актов и счетов-фактур в учетные системы. OCR-система получает типовой документ на входе и генерирует ответ в нужной форме. Например, «Судебная платформа» в «Цифровом бэк-офисе» МегаФона может работать в таком режиме с запросами от госорганов, претензиями и судебными исками. На подготовку отзыва системе понадобится всего около 20 секунд.
Читайте также: