Какие типы блоков содержит программа finereader
Все операции, необходимые в ходе преобразования бумажного документа в электронную форму, могут быть выполнены с помощью программы FineReader (рис. 17.2). Эта программа способна выполнять сканирование и распознавание текстов на разных языках, в том числе и смешанных двуязычных текстов. С ее помощью можно выполнять пакетную обработку многостраничных документов, а также настраивать режим распознавания для улучшения соответствия электронного документа бумажному оригиналу при плохом качестве последнего или использовании в нем шрифтов, далеких от стандартных.
Основные операции обработки бумажного документа в программе FineReader выполняются с помощью панели инструментов Scan&Read. С точки зрения этой программы, процесс обработки документа состоит из пяти этапов:
• сканирование документа (кнопка Сканировать);
• сегментация документа (кнопка Сегментировать);
• распознавание документа (кнопка Распознать);
• редактирование и проверка результата (кнопка Проверить);
• сохранение документа (кнопка Сохранить).
Сканирование документа.На этапе сканирования производится получение изображений при помощи сканера и сохранение их в виде, удобном для последующей обработки. Чтобы начать сканирование, надо включить сканер и щелкнуть на кнопке Сканировать на панели инструментов Scan&Read. В программе FineReader сканирование может производиться как через драйвер TWAIN, так и в обход его. Первый способ используют, когда требуется точная настройка параметров сканирования, когда документ включает цветные иллюстрации, которые необходимо сохранить, а также когда разные страницы многостраничного документа сильно различаются по качеству. Второй вариант обеспечивает максимальную скорость и удобство сканирования. Выбор используемого варианта осуществляется при помощи флажка Показывать диалог TWAIN-драйвера сканера (Сервис > Опции > Сканирование).
Процесс сканирования осуществляется автоматически и требует от пользователя только вспомогательных операций, таких, как смена сканируемой страницы. Возможность вмешательства в работу программы заблокирована размещением на экране специального диалогового окна, уведомляющего о том, что идет сканирование, и позволяющего прервать это процесс.
По завершении сканирования значки всех обработанных страниц отображаются в окне Пакет. В основной части рабочей области появляется окно Изображение, содержащее изображение текущей страницы. Добавлять страницы в пакет можно не только путем сканирования, но и путем открытия файлов с изображениями, имеющихся на компьютере.
Сегментация документа.Второй этап работы — сегментация, разбиение страницы на блоки текста. Естественный порядок распознавания — по строкам, расположенным на странице сверху вниз и идущим от левого края до правого. Если страница содержит колонки, иллюстрации, врезки, подрисуночные подписи или таблицы, то порядок распознавания требует коррекции.
Рис. 17.2. Рабочее окно программы FineReader в процессе
распознавания отсканированного документа
Содержимое страницы разбивается на блоки, внутри каждого из которых распознавание осуществляется в естественном порядке. Блоки нумеруются, исходя из порядка включения их в документ. При автоматической сегментации (кнопка Сегментировать на панели инструментов Scan&Read) определение границ блоков осуществляется автоматически. При этом учитываются поля документа, просветы между колонками, рамки.
Если структура страницы очень сложная, удобнее использовать ручную сегментацию или ручное редактирование результатов автоматической сегментации. Блоки отображаются в виде цветных прямоугольников с номером в левом верхнем углу. Новый блок создают протягиванием мыши по диагонали прямоугольника. Текущий блок помечается выделенной линией, а его углы — прямоугольными маркерами. С помощью этих маркеров можно изменить размер или положение блока.
Команды редактирования блоков выведены на панель Инструменты. Они позволяют:
• объединить два блока в один (Добавить часть блока);
• удалить фрагмент блока (Удалить часть блока);
• изменить положение блоков (Переместить блоки);
• изменить порядок нумерации блоков (Перенумеровать блоки);
• изменить разбиение таблицы на ячейки (Добавить вертикаль, Добавить горизонталь, Удалить линии);
Разные типы блоков обрабатываются программой по-разному. Чтобы изменить тип блока, надо щелкнуть правой кнопкой мыши в его пределах и назначить новый тип с помощью меню Тип блока в контекстном меню. Программа FineReader поддерживает следующие типы блоков:
• текстовый (Текст) — на этапе распознавания преобразуется в текст;
• табличный (Таблица) — представляет собой набор ячеек, каждая из которых преобразуется в текст по отдельности;
• изображение (Картинка) — включается в документ без изменений как графическая иллюстрация, если формат сохранения преобразованного документа допускает вставные объекты;
• лишний (Нераспознаваемый) — игнорируется;
• содержащий штрих-код (Штрих-код) — распознается как штрих-код.
Распознавание с обучением. Распознавание с обучением состоит в формировании эталона, который используется в ходе распознавания в дальнейшем. Эталон настраивается так, чтобы соответствовать определенному документу или группе однотипных документов. Чтобы создать эталон, используют команду Сервис > Редактор эталонов > Новый эталон. После этого надо указать имя эталона и щелкнуть на кнопке ОК. Режим распознавания с обучением включается при настройке параметров работы программы (Сервис >Опции > Распознавание). На панели Обучение следует выбрать нужный эталон и установить флажок Распознавание с обучением.
Когда в ходе распознавания с обучением программа FineReader обнаруживает символ, который не может интерпретировать однозначно, на экран выдается диалоговое окно Ручное обучение эталона (рис. 17.3). Программа указывает элемент изображения, вызвавший сомнения, и показывает, как именно он будет интерпретирован. Если допущена ошибка, можно указать нужный символ в поле Символ или уточнить область распознавания с помощью кнопок Сдвинуть влево и Сдвинуть вправо.
Рис. 17.3. Ручное «обучение» механизма распознавания текста
Затем надо щелкнуть на кнопке Обучить. Необходимые сведения сохраняются и используются при дальнейшем анализе изображения. Если число ошибок невелико, можно продолжить распознавание в обычном режиме щелчком на кнопке Продолжать без обучения.
Редактирование документа. Когда распознавание данной страницы завершается, полученный текстовый документ отображается в окне Текст. Заключительные этапы работы позволяют отредактировать полученный текст с помощью средств, напоминающих текстовый редактор WordPad (панель для форматирования открывается при помощи команды Вид > Панели инструментов > Форматирование). Провести проверку орфографии с учетом трудностей распознавания позволяет кнопка Проверить на панели инструментов Scan&Read.
Сохранение документа. По щелчку на кнопке Сохранить на панели инструментов Scan&Read запускается Мастер сохранения результатов. Он позволяет сохранить распознанный текст или передать его в другую программу (например, в Microsoft Word) для последующей обработки.
В файн ридер блоки представляют собой заключенные в рамку фрагменты изображения. Их выделяют для того, чтобы задать системе, какие фрагменты отсканированной странички нужно распознать и в какой последовательности. Дополнительно по ним восстанавливается исходное форматирование страницы. Блоки различных типов имеют разные цвета рамок. У вас есть возможность изменить цвета рамок блоков в группе Объекты на закладке Вид диалогового окна Опции. В поле Объект нужно выбрать требуемый тип блока, а в поле оттенок цвета - желаемый цвет.
Файн ридер: типы блоков во время обработки изображений
Во время обработок графических файлов выделяются такие блоки:
Зона Распознавания - блок применяется для автоматического анализа и распознавания части изображения. По нажатии на кнопочку Распознать блок изображение автоматически распознается и анализируется. Текст - блок применяется, чтобы обозначить текст. Он обязан включать только одноколоночный текст. Ежели в середине текста содержатся изображения, выполните их группировку в отдельные блоки.
Табличка - сей блок применяется для обозначения имеющего табличную структуру текста, таблиц. В момент распознавания программа разбивает этот блок на столбцы и строки и формирует табличную композицию. В итоге мы получаем табличку. У вас есть возможность отредактировать и выделить табличку вручную.
Изображение - сей блок применяется для того чтобы обозначать картинки.
Штрих-код - сей блок применяется для того чтобы распознавать штрих-коды. Другими словами, если выбрать область штрих-код, то изображение штрих-кода будете переведено в набор цифр и букв. Примечание. Согласно стандартных настроек опция, позволяющая вести поиск и выполнять распознавание штрих-кодов выключена Чтобы подключить ее, выберите вести поиск штрих-кодов на закладке Распознавание.
Файн ридер: Опции автоматического анализа макета странички
Во время автоматического анализа макета страницы файн ридер сам выделяет блоки, которые содержат штрих-коды, картинки, таблицы, тексты. В файн ридер автоматический анализ запускается после клика на Распознать совместно с распознаванием текста. Перед началом распознавания требуется установить главные опции анализа: опции анализа таблиц и типа страницы.
После короткого рассказа о том, как устроен ABBYY FineReader (aka «теоретическая часть»), самое время перейти к применению полученных знаний. И да, котиков под катом нет: всё очень серьёзно.
Как пользователю поучаствовать в обработке документа
Чтобы не изобретать велосипед, начну с простой и понятной схемы из Справки (см. рисунок справа).
Теперь, зная список всех операций, посмотрим на примерах – что может пойти не по плану и как с этим бороться.
Хорошо распознаются только хорошие изображения
А что делать, когда изображения есть, но не очень хорошие? Улучшить прямо в FineReader всё что можно, а, если улучшить нельзя, — попытаться получить изображение заново, устранив проблему. Поскольку тема очень обширная, то при должном интересе будет отдельный пост про то, как подружиться с автоматическими и ручными инструментами обработки изображений прямо в FineReader. Пока же ограничусь замечанием, что изображение будет обработано лучше, если оно:
- (после сканирования) не имеет выраженных геометрических искажений — перекоса или заметного изгиба страниц толстой книги у корешка двухстраничного разворота,
- (после фотографирования, в дополнение к предыдущему) не имеет ещё и нелинейных геометрических искажений («подушка», «трапеция»), имеет равномерную фокусировку (а желательно и яркость) по всей площади, не имеет шумов от недостаточной освещённости, не имеет выраженной засветки от вспышки (особенно на глянцевой бумаге).
Этап настройки документа/проекта
Можно и нужно сразу указать язык текста, параметры предобработки изображений, некоторые параметры анализа и распознавания. Вот скриншот одной из вкладок диалога настроек.
Эти и прочие настройки подробно описаны в Справке
Этап анализа
Назначение областей разных типов
В пользовательском интерфейсе FineReader доступны области нескольких типов, для них есть разные варианты скрываемой панели свойств (внизу окна «Изображение») и контекстного меню (по щелчку правой кнопкой мыши):
-
«Зона распознавания» (по умолчанию серая рамка) — такое название использовано в пользовательском интерфейсе, на мой взгляд правильнее было бы назвать «область для автоматического анализа». Назначение такой области – указать, где на странице вообще нужно искать что-то полезное. Поэтому в результате последующего анализа или анализа+распознавания в пределах каждой «зоны распознавания» может найтись ноль и более областей других типов. Особенно полезны зоны распознавания бывают в шаблонах блоков (подробнее о них в Справке).
Помните, что в отличие от текстовой области область распознавания может превратиться в области разных типов, что бывало нужно и в этом проекте.
Эти параметры задаются на блок, так что выделять текст разного направления или разной инверсности в один блок – другая плохая идея.
Важные соображения
- Распознавание и синтез видят только те фрагменты текста, которые оказались выделены в текстовые области или текстовые ячейки таблиц. Если кусок текста не выделен в блоки – распознаваться он не будет.
- Аналогично и с картинками — если часть картинки оказалась вне области или одна целостная картинка оказалась разделена на несколько областей – скорее всего, в результате обработки будут проблемы.
- Языки распознавания в FineReader задаются не для галочки – они влияют на очень многие механизмы, начиная уже с анализа: например, иероглифический (китайский, японский, корейский языки) или арабский текст имеют много особенностей, которые учитываются не всегда, а только при выборе соответствующих языков распознавания.
Особенности взаимодействия близкорасположенных или пересекающихся областей
-
Пересечение текстовых и табличных блоков друг с другом, если есть символы или их части, оказавшиеся в более чем одном блоке – практически всегда ошибка, такие результаты анализа нужно исправлять, тем более что обычно это делается в несколько движений мыши.
Пересечение картиночных областей друг с другом – практически всегда ошибка, хотя и менее критичная для обработки именно текста. Такие случаи тоже желательно исправлять.
Текстовая область на фоне «картиночной» области — тоже важный инструмент: на фоне обычных картиночных областей могут находиться подписи к ним, на «фоновых» картиночных областях может располагаться и основной («колоночный») текст документа, а также таблицы.
Примеры правильного использования текстовых областей на фоне картинок
Маленькие хитрости для облегчения работы с блоками
Описанные соглашения отражены в поведении редактора блоков. Например, если вы рисуете новый или растягиваете имеющийся блок так, что он полностью или почти полностью перекрывает другие блоки — эти другие блоки автоматически удаляются.
Логичность/нелогичность выделения областей
Тут самое время подумать — для каких целей и какого формата документ хочется получить в результате обработки. Вот некоторые соображения, влияющие на количество и характер исправлений разметки блоков в сложных случаях:
Вариант 1: нам нужен только текст (возможно, мы этого не понимаем, но дело обстоит именно так)
- нет «мусорных» областей, где в качестве текста или таблиц распознаются (мусором) элементы картинок или элементов оформления страницы.
- области логично выделяют строки, не допуская попадания символов в более чем одну область и неоправданного дробления строк на более чем одну область.
- то, что с точки зрения человека является таблицами в оригинале, должно быть выделено в табличные области. Это влияет как на качество распознавания (например, базовые линии строк в разных ячейках могут быть не выровнены по вертикали), так и на удобство поиска и копирования фрагментов текста в выходном документе.
Если отдельные картинки не должны копироваться из выходного PDF-документа – то такие области можно из документа исключить вовсе (не создавать новые и не оставлять найденные автоматикой, как минимум – удалять нелогично найденные картинки, а если не лень – то и все).
Я надеюсь шире и глубже раскрыть тему «разумности» картинок в статье про сохранение документов — если такая будет интересна читателям данного материала.
Вариант 2: нужно всё и сразу
Если документ, включающий не одно лишь текстовое содержимое (в одну или две колонки), предполагается сохранить сразу как электронную книгу в форматах FB2/e-pub или в любой промежуточный редактируемый формат (Вордовый или HTML) для дальнейшего редактирования и производства электронной книги, то осмысленное выделение таблиц и картинок становится особенно важно.
Среди прочего нужно определиться с тем, что делать с группами рядом расположенных картинок, и что делать с подписями к картинкам, как рядом стоящими, так и накладывающимися на картинки. Подробнее разберём эту тему в «Практикуме», на реальных примерах.
1. Для некоторых моделей сканеров опция Использовать интерфейс FineReader может быть по умолчанию отключена (недоступна).
2. Чтобы в режиме Использовать интерфейс FineReader показывался диалог Настройки сканера, на закладке Сканирование/Открытие (Сервис>Опции) отметьте пункт Запрашивать опции перед началом сканирования.
Важно! Для того чтобы правильно подключить сканер, обратитесь к документации, прилагаемой к сканеру. При установке не забудьте установить все программное обеспечение, поставляемое вместе со сканером (драйвер TWAIN и/или сканирующую программу).
Чтобы запустить сканирование:
Если Вы хотите отсканировать несколько страниц, то нажмите на стрелке справа от кнопки 1–Сканировать и в локальном меню выберите пункт Сканировать несколько страниц.
В случае если сканирование не началось сразу:
_ откроется встроенный TWAIN–интерфейс сканера;
_ откроется диалог Настройки сканера.
Совет: Если Вы хотите сразу запустить распознавание отсканированных страниц, воспользуйтесь опцией Сканировать и распознать или Сканировать и распознать несколько страниц:
Нажмите на стрелке справа от кнопки Scan&Read и в локальном меню выберите один из пунктов: Сканировать и распознать или Сканировать и распознать несколько страниц.
FineReader отсканирует и распознает изображения. В Главном окне программы появятся окно Изображение с “фотографией” вставленного листа и окно Текст с результатом распознавания. Распознанный текст Вы можете сохранить во внешние редакторы и форматы.
Установка параметров сканирования
Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости.
Основными параметрами сканирования являются:
_ Тип изображения – серый (256 градаций).
Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Черно–белый тип изображения обеспечивает более высокую скорость сканирования, но при этом теряется часть информации о буквах, что может привести к ухудшению качества распознавания на документах среднего и низкого качества печати.
Если Вы хотите, чтобы содержащиеся в документе цветные элементы (картинки, цветные буквы и цветной фон) были переданы в электронный документ с сохранением цвета, необходимо выбрать цветной тип изображения. В других случаях используйте серый тип изображения.
_ Разрешение – используйте 300 dpi для обычных текстов (размер шрифта 10 и более пунктов) и 400–600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).
_ Яркость – в большинстве случаев подходит среднее значение яркости 50%.
На некоторых документах при сканировании в черно–белом режиме может понадобиться дополнительная настройка яркости.
Замечание: Сканирование с разрешением 400–600 dpi вместо 300 dpi или сканирование в сером или в цвете, а не в черно–белом может занять существенно больше времени. На некоторых моделях сканеров сканирование с разрешением 600 dpi занимает в 4 раза больше времени, чем сканирование с разрешением 300 dpi.
Чтобы установить параметры сканирования:
_ При сканировании через TWAIN с использованием интерфейса FineReader: в меню Сервис выберите пункт Настройки сканера и в открывшемся диалоге Настройки сканера установите нужные опции.
_ При сканировании через TWAIN с использованием интерфейса TWAIN–драйвера сканера для установки параметров сканирования используется диалог Вашего сканера, который открывается автоматически при нажатии на кнопку 1–Сканировать. Опции для установки параметров сканирования могут называться по–разному, в зависимости от модели сканера. Например, яркость может называться brightness, threshold, изображаться “солнышком” или черно–белым кружком. Смысл опций описан в документации, прилагаемой к Вашему сканеру.
Анализ макета страницы
Прежде чем приступить к распознаванию, программа должна знать, какие участки изображения надо распознавать. Для этого проводится анализ макета страницы, во время которого выделяются блоки с текстом, картинки, таблицы и штрих–коды.
В этой главе Вы узнаете, когда может потребоваться провести ручной анализ макета страницы, какие типы блоков бывают, как можно отредактировать полученные в результате автоматического анализа блоки, а также, как можно упростить процесс анализа, используя шаблоны блоков.
Анализ макета страницы может проводиться как автоматически, так и вручную. В большинстве случаев FineReader сам успешно справляется с анализом сложных страниц. Автоматический анализ производится по кнопке 2–Распознать одновременно с распознаванием текста.
Замечание: Отдельная процедура анализа макета страницы тоже доступна (меню Процесс>Анализ макета страницы). Правда, при этом качество сегментации может быть ниже, т.к. при совместной процедуре распознавания и сегментации для анализа страницы используется дополнительная информация, полученная в процессе распознавания.
Ручное выделение блоков может понадобиться, если
1. Вы хотите распознать часть страницы;
2. в результате автоматического анализа блоки были выделены неправильно.
_ В некоторых случаях качество автоматического анализа можно улучшить, правильно установив опции анализа макета. Проверьте установленные опции анализа (закладка Распознавание, меню Сервис>Опции).
Блоки – это заключенные в рамку участки изображения. Блоки выделяют для того, что бы указать системе, какие участки отсканированной страницы надо распознавать и в каком порядке. Также по ним воспроизводится исходное оформление страницы. Блоки разных типов имеют различные цвета рамок. Вы можете изменить цвета рамок блоков на закладке Вид диалога Опции (меню Сервис>Опции) в группе Объекты. В поле Объект выберите нужный тип блока, а в поле Цвет – требуемый цвет.
При обработке изображений выделяют блоки следующих типов:
Зона Распознавания – блок используется для распознавания и автоматического анализа части изображения. После нажатия на кнопку 2–Распознать выделенный блок автоматически анализируется и распознается.
Текст – блок используется для обозначения текста. Он должен содержать только одно колоночный текст. Если внутри текста содержатся картинки, выделите их в отдельные блоки.
Таблица – этот блок используется для обозначения таблиц или текста, имеющего табличную структуру. При распознавании программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей. Вы можете выделить и отредактировать таблицу вручную.
Картинка – этот блок используется для обозначения картинок. Он может содержать картинку или любую другую часть текста, которую Вы хотите передать в распознанный текст в качестве картинки.
Штрих–код – этот блок используется для распознавания штрих–кодов. Т.е., если Ваш документ содержит штрих–код и Вы хотите передать его не картинкой, а перевести его в последовательность букв и цифр, то выделите штрих–код в отдельный блок и присвойте ему тип Штрих–код.
Замечание. По умолчанию опция, позволяющая искать и распознавать штрих–коды отключена. Чтобы подключить ее, отметьте пункт Искать штрих–коды на закладке Распознавание (меню Сервис>Опции).
Опции автоматического анализа макета страницы
При автоматическом анализе макета страницы FineReader сам выделяет блоки, содержащие тексты, таблицы, картинки и штрих–коды.
Автоматический анализ запускается по кнопке 2–Распознать одновременно с распознаванием текста. До запуска распознавания необходимо установить основные опции анализа: тип страницы и опции анализа таблиц.
Задача распознавания состоит в том, чтобы преобразовать отсканированное изображение в текст, сохранив при этом оформление страницы. Прежде чем приступить к распознаванию текста, необходимо установить основные параметры распознавания: язык распознавания, тип печати распознанного текста и тип страницы. В этой главе описываются эти и другие параметры распознавания и приводятся ситуации, в которых они используются.
Внимание! Перед запуском распознавания проверьте установленные опции: язык распознавания, тип печати распознаваемого текста и тип страницы.
1. Распознать блок или несколько блоков, выделенных на изображении.
2. Распознать открытую страницу или все страницы, выделенные в окне
3. Распознать все нераспознанные страницы пакета.
4. Распознать все страницы в фоновом режиме. В этом режиме возможно распознавание с одновременным редактированием уже распознанных страниц.
5. Распознать страницы в режиме распознавание с обучением. Данный режим применяется в основном для распознавания текстов, использующих декоративные шрифты, или для распознавания большого объема (более 100 страниц) документов плохого качества печати.
6. Распознать страницы одного пакета на нескольких компьютерах одновременно.
Чтобы запустить распознавание:
_ В меню Процесс выберите нужный Вам пункт:
Распознать – чтобы распознать открытую страницу или все страницы, выделенные в окне Пакет;
Распознать все – чтобы распознать все нераспознанные страницы пакета;
Распознать Блок – чтобы распознать блок или несколько блоков, выделенные на изображении;
Запустить фоновое распознавание – чтобы запустить распознавание в фоновом режиме.
Кнопка 2–Распознать запускает распознавание открытого изображения. Чтобы изменить режим кнопки, нажмите на стрелку справа от нее и из открывшегося меню выберите нужный пункт.
Замечание: При распознавании уже распознанной страницы перераспознаются только отредактированные и добавленные блоки.
Для людей с высоким уровнем интеллекта.
FineReader поддерживает распознавание как одноязычных, так и многоязычных (например, английско–французских) документов. При распознавании текстов на английском или немецком языках Вы можете воспользоваться одноименными языками с медицинскими и юридическими словарями. Данные языки, помимо тематических словарей, включают в себя также и обычные словари FineReader.
Чтобы указать язык распознаваемого текста:
_ Выберите соответствующую строку в списке на панели Распознавание.
Если Вы хотите распознать документ, написанный на нескольких языках:
1. В списке языков на панели Стандартная выберите пункт Выбор нескольких языков…
2. В открывшемся диалоге Язык распознаваемого текста укажите несколько языков. Для этого:
_ отметьте пункты с соответствующими названиями языков.
Совет: Если Вы часто используете какую–либо комбинацию языков, то создайте новую группу, содержащую эти языки.
1. Увеличение количества подключенных к распознаванию одного документа языков может привести к ухудшению качества распознавания. Не рекомендуется подключать более 2–3 языков.
2. Перед запуском распознавания проверьте подключенные на закладке Форматирование шрифты: они должны содержать все символы языка распознавания. В противном случае распознанный текст будет неправильно отображен в окне Текст (в словах на месте некоторых букв стоят значки “?” или “.”).
Если нужного языка нет в списке, возможны следующие варианты:
1. Данный язык не поддерживается системой FineReader. Полный список языков приведен в разделе “Поддерживаемые языки распознавания” справки программы ABBYY FineReader.
2. Язык исключен из списка языков показываемых на панели Стандартная.
В этом случае в списке языков на панели Стандартная выберите пункт Выбор из полного списка языков и в открывшемся диалоге Язык распознаваемого текста укажите необходимый язык.
3. Язык был отключен при выборочной установке. Чтобы доустановить языки распознавания, запустите программу инсталляции FineReader в режиме покомпонентной установки (Установка дистрибутива по выбору), снимите отметки со всех пунктов, кроме Языки распознавания, и нажмите кнопку Состав. В открывшемся списке языков укажите требуемые языки.
Замечание: При установке проверьте, что Вы указали ту же папку, в которую Вы ранее установили ABBYY FineReader.
Чтобы подключить/отключить язык к списку показываемых языков:
В диалоге Редактор языков (меню Сервис>Редактор языков) выберите язык, который вы хотите подключить/отключить, и отметьте пункт (снимите отметку) Показывать в списке языков.
Совет: Вы можете установить язык распознавания на отдельный блок. Для этого щелкните правой кнопкой мыши на блоке, для которого вы хотите установить язык распознавания, отличный от языка распознавания для всего текста, и из локального меню выберите пункт Свойства. В открывшемся диалоге Свойства на закладке Блок в поле Язык распознавания выберите язык распознавания выделенного блока.
Проверка и редактирование текста
После завершения распознавания результат появляется в окне Текст. Окно Текст – это встроенный редактор программы FineReader; в нем Вы можете проверить результаты распознавания и отредактировать распознанный текст.
Одна из возможностей текстового редактора FineReader –это встроенная проверка орфографии (список языков, для которых поддерживается проверка орфографии, приведен в разделе “Поддерживаемые языки распознавания”).
Читайте также: