Для чего используют программу abbyy finereader информатика
Заводя разговор о функциональной начинке FineReader, первым делом следует вкратце рассказать о трех базовых принципах — целостности, целенаправленности и адаптивности (Integrity, Purposefulness and Adaptability, сокращенно IPA), лежащих в основе OCR-решений ABBYY и применяющихся на всех стадиях и уровнях обработки документов. Принципы эти взяты не с потолка и продиктованы многолетними научными исследованиями о зрительном восприятии объектов человеком, и именно благодаря им технологии распознавания ABBYY могут принимать решения, самообучаться и эволюционировать.
Согласно первому правилу — принципу целостности (integrity) — наблюдаемый объект всегда рассматривается как целое, состоящее из множества взаимосвязанных частей. Принцип целенаправленности (purposefulness) говорит, что любая интерпретация данных должна преследовать какую-то цель. Таким образом, распознавание — это процесс выдвижения гипотез обо всем объекте целиком и целенаправленная их проверка. Третий принцип — адаптивности (adaptability) — подразумевает способность системы к самостоятельному обучению и умению использовать ранее накопленные знания об объектах. Полученная при распознавании информация упорядочивается, сохраняется и используется впоследствии при решении аналогичных задач.
Базовые принципы технологий распознавания текста ABBYY
В соответствии с ключевыми положениями IPA, разбираемый ABBYY FineReader фрагмент изображения, согласно принципу целостности, будет интерпретирован как некий объект (символ), только если на нем присутствуют все структурные элементы с соответствующими взаимосвязями. При этом система выдвигает ряд гипотез относительно того, на что похож обнаруженный объект, затем они целенаправленно проверяются с использованием принципа адаптивности, подразумевающего наличие накопленных ранее сведений о возможных начертаниях символа в распознаваемом документе.
На этапе предварительной обработки и анализа графических данных перед любой OCR-системой стоят две основные задачи: подготовка изображения к процедурам распознавания и выявление логической структуры документа — с тем, чтобы в дальнейшем иметь возможность воссоздать ее в электронном виде.
Для решения первой задачи в ABBYY FineReader задействован механизм бинаризации, то есть преобразования цветного или полутонового образа в монохромный (глубина цвета 1 бит). Бинаризация существенно ускоряет процесс анализа графических элементов. В случае обработки документов с подложенными текстурами и фоновыми рисунками в дело вступает система адаптивной бинаризации (Adaptive Binarization, AB), исследующая яркость фона и насыщенность черного цвета на протяжении всей строки или слова и подбирающая оптимальные параметры преобразования для каждого фрагмента изображения по отдельности.
Без обработки процедурой адаптивной бинаризации этот документ может быть распознан с ошибками
Обобщенная блок-схема алгоритма процедуры адаптивной бинаризации
С точки зрения технической реализации идея AB заключается в использовании обратной связи для оценки качества преобразования того или иного участка изображения. Если система видит, что после бинаризации появляется куча мелких элементов и ломаных кривых, не представляющих связные области, похожие на символы, то она автоматически корректирует порог бинаризации на конкретном участке до тех пор, пока не останется картинка, похожая на чистый текст. В случае обработки текстов со сложным фоном могут слушаться погрешности, и от этого никуда не деться.
Вторая задача в ABBYY FineReader решается с использованием алгоритмов многоуровневого анализа документов (Multilevel Document Analysis, MDA), осуществляющих разбор последних поэтапно, сверху вниз, посредством деления страниц на объекты низших уровней вплоть до отдельных символов. При этом обработка изображений осуществляется в полном соответствии с упомянутыми выше принципами IPA: в первую очередь выдвигаются гипотезы относительно типов обнаруженных объектов, затем они целенаправленно проверяются с учетом зафиксированных ранее особенностей данного документа.
Иерархическая структура документа
Ключевую роль в процессе предварительного анализа изображения и последующей сборки обработанных данных в единое целое играет адаптивная технология распознавания документов ADRT (Adaptive Document Recognition Technology). Лежащие в ее основе алгоритмы «смотрят» на контекст документа, находят общие структурные элементы, выявляют связи между ними и сохраняют полученные сведения для использования на финальных этапах синтеза либо экспорта данных в выбранный пользователем формат. Система распознает колонтитулы, нумерацию страниц, разноуровневые заголовки, подписи к картинкам, а также стили шрифтов и прочие элементы. ADRT буквально «понимает» структуру документа и «знает», где должны находиться те или иные элементы, в каком порядке и в каком формате. Так, например, верхний колонтитул будет воссоздан как настоящее поле колонтитула при конвертировании документа в Word, и пользователь при необходимости сможет отредактировать или удалить его на всех страницах одновременно.
Упрощенная схема работы классификатора
В OCR-решениях ABBYY задействованы шесть классификаторов — растровый, признаковый, признаковый дифференциальный, контурный, структурный и структурный дифференциальный, применяющиеся в зависимости от контекста документа, входных параметров изображения и задач распознавания. Набор используемых классификаторов во многом зависит от сложности обрабатываемого изображения и результатов первого прохода распознавания.
Рассмотрим вкратце свойства и особенности каждого из перечисленных классификаторов.
Растровый классификатор. Один из самых простых и быстрых классификаторов, принцип действия которого основан на прямом сравнении изображения символа с эталоном. Степень несходства при этом вычисляется как количество несовпадающих пикселей. Для обеспечения приемлемой точности растрового классификатора требуется предварительная обработка изображения: нормализация размера, наклона и толщины штриха. Эталон для каждого класса обычно получают, усредняя изображения символов обучающей выборки. В OCR-решениях ABBYY растровый классификатор, как правило, используется на начальных этапах распознавания для оперативного порождения предварительного списка гипотез.
Признаковый классификатор. Логика работы этого классификатора заключается в формировании для каждого изображения символа N-мерного вектора признаков и его последующем сравнении с набором эталонных векторов той же размерности. Формирование вектора (извлечение признаков) производится во время анализа предварительно подготовленного изображения. Эталон для каждого класса получают путем аналогичной обработки символов обучающей выборки. Назначение признакового классификатора — то же, что у растрового: быстрое порождение списка предварительных гипотез.
Блок-схема работы признакового классификатора
Признаковый дифференциальный классификатор. В задачи этого модуля входит обработка похожих друг на друга объектов, таких, например, как буква «m» и сочетание «rn». Он анализирует только те области изображения, где может находиться информация, позволяющая отдать предпочтение одному из вариантов. Так, в случае с «m» и «rn» ключом к ответу служит наличие и ширина разрыва в месте касания предполагаемых букв. Признаковый дифференциальный классификатор представляет собой набор признаковых классификаторов, оперирующих полученными для каждой пары схожих символов эталонами.
Контурный классификатор. Первоначально был создан и использовался для распознавания рукописного текста средствами ICR-технологий (Intelligent Character Recognition), затем был успешно применен и для обработки печатных документов. Механизм работы во многом схож с принципом действия признакового классификатора, а различие состоит в том, что для извлечения признаков контурный классификатор использует контуры, предварительно выделенные на изображении символа.
Структурно-дифференциальный классификатор. Как и признаково-дифференциальный, этот классификатор решает задачи различения похожих объектов, например таких, как символы C и G. Анализируя соответствующие части изображения, вычисляя значения признаков, структурно-дифференциальный классификатор позволяет различать каждую конкретную пару символов, опираясь на накопленные при обучении сведения. Характеризуется высокой точностью распознавания и требовательностью к вычислительным ресурсам компьютера. Используется в основном для обработки тех пар символов, которые не удалось хорошо различить признаковым дифференциальным классификатором.
По приведенным выше рисункам видно, насколько внушительным может быть объем генерируемых классификаторами на каждом логическом уровне документа гипотез. С целью оптимизации проверки оных в ABBYY FineReader задействован алгоритм обработки, предусматривающий структурирование гипотез в составе многоуровневых структур — моделей различных типов (словарное слово, несловарное слово, арабские цифры, римские цифры, URL, регулярное выражение и проч.). В результате такого структурирования количество подлежащих проверке гипотез существенно сокращается, и последующая проверка происходит максимально быстро и эффективно.
Чтобы читателю было проще вникнуть в механизм структурирования гипотез, рассмотрим его работу на примере слова turn. Предположим, что в процессе обработки данного слова системой было выдвинуто две гипотезы относительно возможного деления на символы: первая гипотеза соответствует прочтению tum, вторая — turn. Распознаватель, обработав изображения символов, предложил для каждого варианта деления некоторый ряд гипотез. Все они упорядочены в рамках структуры, строки которой соответствуют различным моделям.
В приведенном примере произойдет следующее: поскольку оценка гипотез, порожденных моделью английского слова, больше, чем гипотез от модели русского слова, то английские гипотезы попадут в начало списка. Гипотеза чисел будет иметь низкую оценку. После этого активируется проверка по словарю, которая подтвердит, что в словаре английского языка слова tum нет, а turn — есть. Следовательно, гипотеза относительно слова turn приобретет еще больший вес, что позволит ей в итоге оказаться доминирующей, а программе — без ошибок распознать символы. Важно отметить, что в OCR-системах ABBYY для некоторых языков предусмотрены словари и морфологические модели, которые позволяют генерировать все допустимые в языке словоформы. FineReader 11, например, имеет морфологическую поддержку 45 языков.
Реконструкция обработанного документа осуществляется FineReader в два этапа. Первый этап — страничный синтез — запускается на каждой странице сразу после выполнения соответствующих OCR-процедур, второй — документный синтез — начинает работу после распознавания всех страниц документа. Свою лепту на этапе синтеза документа вносит и технология ADRT, общие принципы и методы работы которой были рассмотрены ранее. Повторяясь, скажем, что именно благодаря им OCR-решения ABBYY могут практически «видеть» весь документ целиком и распознавать его не просто как набор символов и элементов, а как организованную, логически структурированную сущность.
Мы рассмотрели базовые аспекты функционирования OCR-систем компании ABBYY — приведенное описание технологий распознавания не претендует на всеобъемлющий обзор. Тем не менее даже перечисленных особенностей архитектуры FineReader достаточно, чтобы оценить потенциал заложенных в основу российской разработки инновационных подходов, совершенствуемых от версии к версии программы.
FineReader развивается, однако фундаментальные принципы целостности, целенаправленности и адаптивности, которым разработчики следуют с первой редакции продукта, по сей день остаются неизменными. Именно они позволяют решениям ABBYY приближаться к логике мышления, свойственной человеку, и справляться с гораздо более сложными задачами, чем распознавание текста. Ярким примером тому является лингвистическая платформа Compreno, о которой мы уже рассказывали.
Я занимаюсь разработкой технологий, используемых в продуктах распознавания текста компании ABBYY. Самым известным продуктом (а точнее – семейством продуктов), использующим эти технологии, является FineReader.
Иногда все технологические модули (невидимые пользователю части программы) вместе называют «движком распознавания» («движок» — от английского «Engine»), что не совсем верно – они выполняют не только распознавание символов, но и кучу других действий, подробнее о которых ниже.Чем занимается программа FineReader?
Сейчас любой из настольных вариантов FineReader может проделать все самостоятельно от получения изображения со сканера, камеры или из готового файла до выдачи результата обработки в файл или в указанное приложение, так, что человек остается «за кадром». Программа сама «распознаёт» всё что нужно (в кавычках, так как при этом программа определяет места расположения текста, таблиц, картинок, OCRит обнаруженные участки с изображённым текстом, формирует документ, который сохраняет в желаемом формате с указанными настройками)
А чем занимается пользователь?
Обычно почти ничем — сперва заказывает работу, а потом её принимает. Иногда пользователя что-то не устраивает в результате автоматической обработки, но в таких случаях типичный пользователь смиренно думает «Не повезло. »
К сожалению, далеко не все знают, что помимо окна «Задача», которое показывается и при запуске, есть другие способы управлять работой программы. Они помогают с помощью человеческого интеллекта преодолеть недостатки и ограничения (иногда принципиальные) искусственного интеллекта программы.
- почитать «Краткое руководство», «Полное руководство пользователя», online-Справку к программе – там конечно же много букв, но почти все они написаны по делу.
- прочитать до конца эту статью. В ней гораздо меньше букв, к тому же, автор обещает избавить читателя от страха перед программой и пробудить у него интерес к экспериментам,
- экспериментировать с программой (единственный пункт, без которого не обойтись) – даже демо-версия позволяет попробовать всё, что нужно при реальной эксплуатации.
С чего начать?
Начать нужно с привычки сохранять результат работы не только в виде документа в целевом формате, но и как документ FineReader, содержащий результаты проделанной работы. Это позволяет работать с большим документом не несколько часов подряд в один подход, а когда удобно и сколько угодно раз, возвращаться к распознанному и вычитанному документу для экспериментов с настройками сохранения и так далее. Все действия с документом FineReader собраны в Меню «Файл».
Нет ничего практичнее хорошей теории, или из чего состоит «распознавание»
Глядя на лаконичные названия задач, например, «Сканировать в PDF», трудно вообразить, сколько всего происходит в промежутке между «Сканировать» и «PDF» (то есть на месте одной буквы «в»). Давайте посмотрим, сколько.
Задача «преобразования документов из растрового представления в редактируемое» (не просто «распознавания») включает следующие основные этапы:
-
Получение исходного одно- или многостраничного изображения (со сканера, фотоаппарата или в виде файла), преобразование его в специальное внутреннее представление (для упрощения и ускорения дальнейших операций). В любом случае используется подсистема обработки изображений, понимающая множество внешних форматов как на чтение, так и на запись.
Зачем так много модулей (подсистем)?
Для начала необходимо заметить, что перечислены только основные, а не все. Подсистема сканирования, например, не день и не два писалась, а многие месяцы и даже, возможно, годы. Впрочем, вернёмся к вопросу, обозначенному выше.
Во-первых, проект «Технологии распознавания» и много сложных продуктов на его основе разрабатываются уже не первое десятилетие большими коллективами людей — их работу просто необходимо делить организационно и технологически на части, чтобы разрабатывать каждую более-менее независимо — конечно же, детально описав интерфейсы и правила взаимодействия модулей, чтобы выход предыдущего модуля в цепочке стыковался со входом следующего.
Во-вторых, некоторые продукты могут использовать не все из перечисленных стадий обработки (и реализующих их подсистем), а только некоторые. Например, модуль «Распознаватель» имеет собственные подмодули для обработки печатного и рукописного текста, а его «печатный» под-модуль – ещё и свои под-под-модули для обработки языков со сложной письменностью. Похожая ситуация с модулем разпознавания штрихкодов и кодеками некоторых форматов изображений – некоторые продукты обходятся без них.
Какой результат и зачем нужен пользователю?
Не озадачившись вовремя этим вопросом, можно остаться недовольным даже полностью правильным результатом OCR в узком смысле – когда вроде все буквы найдены и правильно распознаны, но в целом что-то в результате печалит.
Перечислю некоторые из популярных сценариев использования FineReader с особенностями каждого сценария.
Преобразование архива документов-изображений в электронный вид, с максимальным сохранением внешнего вида страниц, но добавлением возможности поиска и копирования небольших фрагментов текста.
Этот сценарий обычно использует сохранение обработанного документа в PDF с видимым изображением страницы (не всегда в полностью оригинальном виде, но по возможности максимально похожим на него) и добавлением «невидимого» распознанного текста, который в PDF-просмотрщиках можно искать, выделять и копировать. На нашем жаргоне этот режим сохранения в PDF называется «Текст под изображением», он наиболее популярен, но это лишь один из 4 режимов сохранения в PDF (на остальных остановлюсь подробнее в статье про сохранение). Ценители формата DjVu также могут использовать аналогичный режим сохранения.
Важное достоинство режима «Текст под изображением» в том, что он требует минимальных знаний о структуре сохраняемого текста, привязывая символы к нужным местам результирующей страницы просто по координатам на исходном изображении. Поэтому неважно, если таблицы не были правильно автоматически детектированы в оригинале (развалившись на кучу текстовых областей), или текст немного нелогично выделился в текстовые области – в результирующем PDF найдётся всё или почти всё, лишь бы символы правильно распознались и собрались в слова.
Создание документа в формате любого из популярных текстовых редакторов (Microsoft Word или OpenOffice/LibreOffice Writer), более-менее похожего на оригинал — для последующего редактирования и/или переиспользования значительных фрагментов в новых документах.
При сохранении в форматы RTF и DOCX (для Word) и ODT (для Writer) поддержаны 4 режима сохранения, отличающихся балансом «точное сохранение вида <-> простота редактирования и копирования содержимого». Я ещё напишу подробнее об их различиях, но общим требованием для разумного вида результата обработки является разумность разметки всех элементов документа в FR — областей и их свойств.
Создание электронной книги на базе сканированной бумажной книги.
Во многом похож на предыдущий, но в силу упрощённой модели документа в форматах электронных книг, ограничений средств их редактирования и показа после FineReader, иногда требует больше внимания к некоторым мелочам.
ABBYY FineReader на руссском языке идеально подходит тем, кто работает с текстами, которые были сфотографированы, а также старыми печатными изданиями после оцифровки. Даже если понадобится перевести конспект в электронный вид, это программа тоже очень поможет. Производителем софта является российская компания ABBYY. С 2009 года эта программа постоянно удостаивается различных международных наград и премий.
Особенности программы
Abby FineReader – это специальная утилита, которая используется для сканированных бумажных документов и дальнейшего распознавания текста. Программа использует в работе передовые технологические решения по распознаванию и содержит почти 200 словарей на разных языках, которые используют латиницу, кириллицу, а также арабские, армянские знаки, иероглифы.
Программа имеет такие особенности:
- сканирование. Утилита считывает данные со сканера, который подключен;
- технология OCR. Она помогает качественно оцифровывать символы с разных языков. Благодаря этой технологии достигается высокая точность распознавания символов – до 99%. К тому же используется система обучения самой программы, благодаря которой улучшается, совершенствуется распознавание, а его качество возрастает;
- мультиформатность. Данные с бумажного носителя преобразуются в файлы DOC, XLS, PDF и пр. Количество файлов для сохранения варьируется (до 19 штук). То же самое касается и входных файлов;
- программа предлагается в трех редакциях: Standard, Business и Enterprise;
- возможность конвертировать как весь документ, так и отдельные страницы;
- производительность. Происходит автоматическая обработка данных с применением всех ядер CPU. Благодаря этому скорость работы очень высокая. Чтобы распознать одну страницу уходит максимум 15 секунд;
- сравнение. В двух разных документах с помощью этой программы можно выявить отличия;
- простой интерфейс. Он выполнен на русском языке и интуитивно понятен любому.
Таким образом, утилита дает возможность качество и быстро получить текст со сфотографированного или отсканированного документа, при этом, не изменяя последовательность страниц и структуру текста. Получаемый файл можно сохранить в разных форматах, просматривать его, редактировать при необходимости, искать в его содержимом необходимую информацию, а также прикреплять документ к электронным письмам.
Хватит гуглить ответы на профессиональные вопросы! Доверьте их экспертам «Клерка». Завалите лучших экспертов своими вопросами, они это любят!
Один из популярнейших функционалов по работе со сканированием и обработкой файлов различного типа — Файн Ридер. Функционал программного продукта был разработан российской компанией ABBYY, он позволяет не только распознавать, но и обрабатывать документы (переводить, менять форматы и другое). Многие пользователи могут только установить, а как пользоваться ABBYY FineReader, сразу разобраться не могут. На многие вопросы вы сможете найти ответы в этой статье.
Что представляет собой приложение от ABBYY?
Чтобы подробно разобраться, что это за программа ABBYY FineReader 12, необходимо подробно рассмотреть все её возможности. Первой и самой простой функцией является сканирование документа. Существует два варианта сканирования: с распознаванием и без него. В случае обычного сканирования печатного листа вы получите изображение, которое сканировали в указанной папке на вашем компьютерном устройстве.
ВНИМАНИЕ. Лист нужно класть на сканирующую часть принтера ровно, по указанным на принтере контурам. Не допускайте заламывания исходника, это может привести к плохому качеству итогового скана.Поместите документ в сканер для того, чтобы перевести его в электронный вид
Вы должны самостоятельно решить, для чего нужен FineReader именно вам, так как утилита имеет значительный функционал, например, вы можете самостоятельно выбрать в каком цвете хотите получить изображение, есть возможность перевести все фото в чёрно-белый. В чёрно-белом цвете распознавание происходит быстрее, качество обработки возрастает.
Если же вас интересует функция распознавания текста ABBYY FineReader, перед сканированием вам нужно нажать специальную кнопку. В этом случае есть несколько вариантов получения информации. Стандартно на ваш экран выведется распознанный кусок листа, который вы сможете скопировать или отредактировать вручную.
Если вы выберите другие функции, то сможете сразу получить файл Word-документом или Excel-таблицей. Выбирать функции очень просто, меню интуитивно понятно, легко настраивается благодаря тому, что все нужные вам кнопки перед глазами.
ВАЖНО. Перед тем как распознать текст ABBYY FineReader, вам необходимо точно подобрать язык обработки. Несмотря на то, что утилита работает полностью автоматически, бывает, что низкое качество исходника не позволяет понять, что за язык был в исходнике. Это сильно снижает качество итоговых результатов работы приложения.Несколько режимов работы
Чтобы полностью разобраться, как пользоваться ABBYY FineReader 12, необходимо попробовать два режима работы «Тщательный» и «Быстрое распознавание». Второй режим подходит для высококачественных изображений, а первый — для низкокачественных файлов. Режим «Тщательный» в 3–5 раз дольше обрабатывает файлы.
Какие ещё есть функции?
Распознавание текста в программе ABBYY FineReader не единственная полезная функция. Для большего удобства пользователей имеется возможность переводить документ в необходимые пользователю форматы (pdf, doc, xls и др.).
Изменение текста
Чтобы понять, как в Файн Ридере изменить текст, пользователю необходимо открыть вкладку «Сервис» — «Проверка». После этого откроется окно, которое позволит редактировать шрифт, менять символы, цвета и др. Если вы редактируете изображение, то стоит открыть «Редактор изображений», он практически полностью соответствует простой рисовалке Paint, но сделать минимальные правки позволит.
ВНИМАНИЕ. Если вы так и не смогли разобраться, как продуктивно пользоваться ABBYY FineReader, вы можете прочесть раздел «Помощь», который можно найти в окне приложения, во вкладке «О программе».Теперь вы знаете, для каких целей служит программа FineReader, и сможете правильно её применять у себя дома или в офисе. Функционал приложения огромен, воспользуйтесь им и вы сможете убедиться в незаменимости этого программного продукта при обработке документов и файлов во время офисной работы.
Читайте также: