Abbyy finereader 15 как пользоваться
Сегодня мы обновили ABBYY FineReader 15 и выпустили его под брендом ABBYY FineReader PDF, потому что он объединяет все инструменты для работы с PDF. По этому поводу публикуем первый пост из серии материалов о фичах программы. В нем мы расскажем об одной интересной возможности, которая не первый месяц есть в программе, но, возможно, не все о ней знали.
Давно ли вы открывали PDF-файлы? Готовы поспорить, что совсем недавно. Скорее всего, на вашем компьютере точно найдется пара сканов, а может, еще и макет презентации, аналитическое исследование или техническая инструкция. Для каких задач обычно используют эти документы? По данным опроса ABBYY, 62% респондентов ищут информацию в PDF, 60% — копируют текст из документа, а 52% — редактируют: вносят в файл правки, исправляют ошибки и опечатки.
Даже сейчас не все знают, что можно редактировать текст в PDF. Да, изменение таких файлов устроено не так, как редактирование обычного текстового документа. ABBYY FineReader PDF с многофункциональным текстовым редактором для работы с PDF и сканами позволяет быстро внести изменения прямо в PDF, без утомительной конвертации файла в другие форматы. При редактировании текст в PDF плавно перетекает со строчки на строчку, как в MS Word. Можно добавить или удалить несколько слов, изменить целые абзацы или даже поменять их местами.
В этом посте мы раскроем технические подробности редактирования многострочных фрагментов текста в FineReader: как мы изменили движок программы, как редактирование устроено изнутри и как оно выглядит для пользователя. Поехали!
Форматом PDF пользуются по всему миру: его содержимое одинаково отображается на любых компьютерах, смартфонах и планшетах с разными операционными системами. Это удобно и помогает избежать неловких ситуаций. Например, когда вы написали текст в MS Word, отправили коллегам, а они открывают его LibreOffice'ом или Wordpad'ом, и все поехало и начинается веселье. PDF, конечно, в этом плане удобнее, но с текстом здесь все сложно. В 70% всех существующих PDF-документов текст есть, а в 30% — нет, так как это изображения.
Поговорим сначала о PDF, в которых текст есть. Чтобы редактировать PDF, надо понимать, как в нем записан текст. Открывали когда-нибудь PDF в блокноте? Если да, то вы видели такое:
Чтобы все это отображалось понятно для пользователя, нужно проделать большую работу.
Задача: понять PDF
Содержимое каждой страницы в PDF-файле хранится в виде потоков команд для отрисовки документа – это могут быть текст, изображения или векторная графика. Структуру файла определяют PDF-объекты, например, страница, картинка, комментарий (а абзацы, строчки текста и буквы – это всего лишь части объекта). Символ в PDF представляется глифом . То, как они записаны, определяется шрифтом . Каждый символ хранится отдельно: у него есть шрифт, код символа в шрифте и координаты его расположения на странице. То, где глифы расположены, определяется как раз потоком команд. Кроме того, буквы объединены в потоки текста (text run), но они не смысловые.
В PDF нет ни строк, ни абзацев, которые есть в документах текстовых форматов. Даже порядок текста не всегда определен. То есть вы видите текст, но на самом деле текста не существует. Это хаос из трудно понятных инструкций (как на изображении выше), которые нужно правильно отобразить в конкретных местах документа, с соответствующим форматированием.
«А как же текст?» – спросите вы.
Текст в PDF все же существует, и его даже получится редактировать. Для этого мы учим наши технологии понимать структуру текста, например, определять и выделять строки. Расскажем об этом подробнее.
Библиотеки PDF и как мы их поменяли
Чтобы сделать возможным редактирование целых абзацев, мы сильно поменяли нашу внутреннюю подсистему (библиотеку), которую мы называем PdfTools. Она занимается тем, что открывает PDF-файлы, парсит потоки команд (т.е. понимает, где расположен текст, где картинки, и воссоздает структуру документа) и помогает пользователям оперировать этими данными: прочитать, изменить, сохранить в PDF.
Подсистема PdfTools содержит все необходимые инструменты, чтобы прочитать содержимое и обернуть его в объекты (страница, картинка, комментарий), с которыми удобно работать программе. С этими объектами уже могут работать наши продукты, в частности ABBYY FineReader PDF и другие.
Как было раньше. В FineReader 14 мы умели редактировать текст только в рамках одной строчки. После редактирования необходимо было выполнить «рендеринг» — расставить глифы на свои новые места.
Вообще рендеринг — это визуализация. Но мы вкладываем в это слово иное понятие — расположение объектов в PDF на своих местах. Для PDF-специалистов это и есть визуализация, которую больше никто не видит. Когда мы говорим о визуализации в привычном понимании, то используем слово «растеризация».
Что решили изменить. Когда появилась задача многострочного редактирования, мы поняли, что в рамках одной библиотеки PdfTools это будет проблематично делать. Нам необходимо было научиться автоматически находить в тексте PDF более крупные фрагменты, например, «видеть» абзацы, понимать, где находятся их границы, какое форматирование должно быть у целого фрагмента текста и что происходит при переходе с одной строки на другую. Чтобы определить все эти параметры, мы решили привлечь для решения этой задачи и другие наши OCR-технологии — Document Analysis (DA) и Synthesis, которые умеют строить структуру документа.
Document Analysis и Synthesis
Чтобы определять в тексте блоки, ABBYY FineReader PDF использует технологию Document Analysis. Она позволяет найти абзацы, таблицы, картинки. Программа подсвечивает найденные блоки небольшими бледными рамками, чтобы пользователю удобнее было вносить правки:
Далее мы усовершенствовали другую подсистему нашей программы – Synthesis. Мы уже рассказывали на Хабре, зачем она нужна. Если вкратце, именно она определяет структуру и все характеристики распознанного текста: какие используются шрифты и размеры, какое начертание (bold, italic, underline), где заголовки, списки, отступы и многие другие параметры, которые можно настраивать в том же MS Word. Мы доработали Synthesis для того, чтобы при распознавании и воссоздании страницы очень точно восстанавливать исходные параметры текста.
Особенности подчеркнутого текста
В PDF нет такого атрибута текста как подчеркивание, привычного, например, пользователям MS Word. Подчеркивание в PDF – это векторная графика, никак не связанная с текстом. Без дополнительной доработки продукта при редактировании «подчеркнутого» текста символы бы перемещались привычным образом, а линии, обозначающие подчеркивания, оставались бы на месте. ABBYY FineReader PDF умеет определять и редактировать подчеркнутый текст привычным пользователю образом.
Редактирование таблиц в PDF
Как отредактировать скан?
Возможность многострочного редактирования доступна и для сканов. Кстати, пользователю даже не надо задумываться, скан перед ним или нет. ABBYY FineReader PDF сам определит это и запустит нужные механизмы. Например, в дате договора — опечатка, или ФИО контрагента поменялось: оно стало длиннее и должно «перетечь» на следующую строчку.
В программе скан сначала распознается, а потом происходит подготовка к редактированию. Когда скан распознали, то текст получается не в нашем исходном документе, а в его виртуальном «двойнике». И именно в нем происходят все операции по редактированию.
Когда пользователь закончил редактировать документ, программа автоматически собирает все изменения со страницы и заменяет эти фрагменты в исходном документе. Наша задача — встроить текст обратно в PDF-документ, не повредив все то остальное, что уже есть в нем.
Редактирование скана позволяет не тратить время на конвертацию документа в другие форматы и обратно. Это удобно, когда нужно быстро внести забытую правку в дату или другой фрагмент текста.
Пример многострочного редактирования. Текст автоматически перераспределяется по строкам по мере добавления слов и предложений внутри абзаца.
Вместо заключения
- быстро,
- без конвертации документа,
- с помощью одной программы.
В следующем посте через неделю мы расскажем о том, как научили ABBYY FineReader PDF еще одной интересной фиче и для чего может пригодиться новая функциональность.
Пишите в комментариях, о каких еще технологических особенностях нашей программы вам было бы интересно узнать?
В этот раз расскажу как превращать бумажные документы в электронный вид формата PDF, а также, как бумажный документ перекинуть в компьютер с целью изменить текст. Итак начнем.
У меня на руках бумажный документ.
СКАНИРОВАНИЕ в PDF
Задача: перекинуть в компьютер (перевести в электронный вид) этот документ. Притом нужно сделать именно в таком виде чтобы нельзя было его в будущем изменить (грубо говоря надо сделать фото документа). Потом этот электронный документ нужно переслать по почте на электронный адрес. Притом клиент просит именно в формате pdf.
По этапам:
1) пропускаю документ через сканер
2) сохраняю полученный отпечаток в формате pdf на свой компьютер
3) пересылаю полученный файл по почте
В своей работе я использую для решения такой задачи 2 программы:
Foxit Phantom или ABBYY FineReader. Для понятности прикладываю скриншоты:
В Foxit Phantom при включенном сканере необходимо в главном меню выбрать ФАЙЛ-СОЗДАТЬ PDF-СО СКАНЕРА…
Произойдет сканирование и появится предложение сохранить файл. Выбираем место, пишем название файла и сохраняем.
В ABBYY FineReader в панели инструментов есть огромные кнопки. Одна из них называется СКАНИРОВАТЬ в PDF. Её и используем.
Если же надо отсканировать многостраничный документ то, по этапам:
1) Нажимаем кнопку под номером 1 СКАНИРОВАНИЕ
Получаем отсканированный документ
Также сканируем ещё одну страницу (нажимаем ещё раз кнопку под номером 1 СКАНИРОВАНИЕ).
2) Сохраняем в PDF
В итоге получаем готовый многостраничный документ в виде файла в формате PDF.
Теперь данный файл можно отправлять по электронной почте.
РАСПОЗНАВАНИЕ ТЕКСТА
Задача: перевести бумажный документ в электронный вид (в компьютер)
По этапам:
1) Сканирование (кнопка 1 СКАНИРОВАНИЕ)
2) Распознавание (кнопка 2 РАСПОЗНАТЬ ВСЕ)
Распознавание нужно понимать как процесс перевода фотографии (картинки) в текст (буквы, цифры, знаки). Если Вы сфотографировали текстовую страницу, то после распознавания 99% текста с бумаги превратиться в текст электронный. Электронный текст уже можно на компьютере менять (редактировать) так, как Вам захочется.
3) Сохранение в текстовый редактор (кнопка 4 Сохранить)
Советую выбирать ПЕРЕДАТЬ ВСЕ СТРАНИЦЫ В—MICROSOFT WORD
Хотелось бы указать на важные моменты при процедуре РАСПОЗНАВАНИЯ. Есть нюансы при работе.
Сразу после распознавания советую поглядеть на результат. Особенно на блоки, которые создает программа FineReader.
Это области выделенные в прямоугольные рамки. Рамки эти разного цвета. Если красного цвета-то этот блок распознался как КАРТИНКА. Если черного цвета — то ТЕКСТ. Блоки бывают разного типа. Тип блока можно узнать щелкнув на блоке ПРАВОЙ клавишей мыши и выбрав ИЗМЕНИТЬ ТИП БЛОКА.
Маленькая хитрость: можно выделить произвольную область и пометить любым типом блок. Например выделим ту часть текста, которая плохо распознается, при помощи левой клавиши мыши (нажимает, удерживаем и тянем, рамка меняет размер).
В итоге документ в Word-е будет иметь блок текста и блок картинка. Блок картинка будет иметь абсолютно неизменный вид. Данный способ я использую при сохранении печатей, нестандартных шрифтов, картинок, фотографий.
ЗЫ: Знания и умения работать с PDF, сканировать и распознавать документы очень часто выручают в офисной работе. Знание — экономит Ваше время!
Один из популярнейших функционалов по работе со сканированием и обработкой файлов различного типа — Файн Ридер. Функционал программного продукта был разработан российской компанией ABBYY, он позволяет не только распознавать, но и обрабатывать документы (переводить, менять форматы и другое). Многие пользователи могут только установить, а как пользоваться ABBYY FineReader, сразу разобраться не могут. На многие вопросы вы сможете найти ответы в этой статье.
Что представляет собой приложение от ABBYY?
Чтобы подробно разобраться, что это за программа ABBYY FineReader 12, необходимо подробно рассмотреть все её возможности. Первой и самой простой функцией является сканирование документа. Существует два варианта сканирования: с распознаванием и без него. В случае обычного сканирования печатного листа вы получите изображение, которое сканировали в указанной папке на вашем компьютерном устройстве.
ВНИМАНИЕ. Лист нужно класть на сканирующую часть принтера ровно, по указанным на принтере контурам. Не допускайте заламывания исходника, это может привести к плохому качеству итогового скана.Поместите документ в сканер для того, чтобы перевести его в электронный вид
Вы должны самостоятельно решить, для чего нужен FineReader именно вам, так как утилита имеет значительный функционал, например, вы можете самостоятельно выбрать в каком цвете хотите получить изображение, есть возможность перевести все фото в чёрно-белый. В чёрно-белом цвете распознавание происходит быстрее, качество обработки возрастает.
Если же вас интересует функция распознавания текста ABBYY FineReader, перед сканированием вам нужно нажать специальную кнопку. В этом случае есть несколько вариантов получения информации. Стандартно на ваш экран выведется распознанный кусок листа, который вы сможете скопировать или отредактировать вручную.
Если вы выберите другие функции, то сможете сразу получить файл Word-документом или Excel-таблицей. Выбирать функции очень просто, меню интуитивно понятно, легко настраивается благодаря тому, что все нужные вам кнопки перед глазами.
ВАЖНО. Перед тем как распознать текст ABBYY FineReader, вам необходимо точно подобрать язык обработки. Несмотря на то, что утилита работает полностью автоматически, бывает, что низкое качество исходника не позволяет понять, что за язык был в исходнике. Это сильно снижает качество итоговых результатов работы приложения.Несколько режимов работы
Чтобы полностью разобраться, как пользоваться ABBYY FineReader 12, необходимо попробовать два режима работы «Тщательный» и «Быстрое распознавание». Второй режим подходит для высококачественных изображений, а первый — для низкокачественных файлов. Режим «Тщательный» в 3–5 раз дольше обрабатывает файлы.
Какие ещё есть функции?
Распознавание текста в программе ABBYY FineReader не единственная полезная функция. Для большего удобства пользователей имеется возможность переводить документ в необходимые пользователю форматы (pdf, doc, xls и др.).
Изменение текста
Чтобы понять, как в Файн Ридере изменить текст, пользователю необходимо открыть вкладку «Сервис» — «Проверка». После этого откроется окно, которое позволит редактировать шрифт, менять символы, цвета и др. Если вы редактируете изображение, то стоит открыть «Редактор изображений», он практически полностью соответствует простой рисовалке Paint, но сделать минимальные правки позволит.
ВНИМАНИЕ. Если вы так и не смогли разобраться, как продуктивно пользоваться ABBYY FineReader, вы можете прочесть раздел «Помощь», который можно найти в окне приложения, во вкладке «О программе».Теперь вы знаете, для каких целей служит программа FineReader, и сможете правильно её применять у себя дома или в офисе. Функционал приложения огромен, воспользуйтесь им и вы сможете убедиться в незаменимости этого программного продукта при обработке документов и файлов во время офисной работы.
Abbyy FineReader отлично подойдет для быстрой работы с сфотографированным текстом, оцифровки старых печатных изданий и даже перевода конспектов в электронный вид. Этот продукт российской компании ABBYY начиная с 2009 года удостаивался различных премий: «Лучший софт», «Лучшее профессиональное ПО» и проч.
Она позволяет быстро и качественно получить текст из отснятых или отсканированных документов, не меняя последовательности страниц в документе и их структуры. Полученный документ можно сохранять в разных форматах, просматривать, редактировать, искать по содержимому и прикреплять к электронным письмам.
ABBYY FineReader: что это за программа
В основу FineReader Professional Edition положена технология OCR, заключающаяся в следующем: программа не подбирает загруженное в нее изображение символа, сравнивая с, возможно, бесчисленным множеством шаблонов в поисках подходящего, а делает несколько предположений, на что похож данный оптический объект, что это за знак, постепенно проверяя их.
Затем программа для сканирования выбирает наиболее похожий символ и ищет у исходного сходства с ним. Кроме того, программа способна самообучаться: оцифровывать части документа, опираясь на предыдущий опыт работы с этим же документом. К примеру, седьмая глава отсканированной книги будет обрабатываться несколько быстрее, чем первая, именно за счет обучаемости софта.
Необязательно загружать отсканированные файлы – достаточно будет фотографии с телефона или фотоаппарата(минимально допустимые характеристики – 2МП + автофокус), которую затем можно отредактировать во встроенном редакторе изображений. Кроме того, в ней можно сделать снимок части экрана – screenshot.
Продукт поддерживает более 190 языков, из которых в 48 встроена поддержка орфографии; используемые в файле языки можно настроить заранее или позволить определить самостоятельно. Также вручную можно задать тип обрабатываемого участка: рисунок, таблица, текст. При помощи технологии ADRT сохраняется не только исходная структура документа – нумерация страниц, оглавление, примечания – но даже расположение на странице текста и таблиц.
Для устройств под управлением windows 7 и windows 10 основные задачи(сценарии) доступны прямо из главного окна. А для системы windows 8 в дополнение к ним поддерживаются базовые жесты для сенсорных устройств, такие как масштабирование и прокрутка. В процессе работы можно выбрать, что важнее в данном конкретном случае: скорость или качество работы, и экономить до 50% времени.
С какими форматами работает?
В большинстве случаев Файн Ридер используется для работы с форматом PDF, однако он способен сохранять обработанные файлы не только в нем:
- RTF.
- DOC.
- DOCX.
- DJVU.
- ODT.
- PPT.
- TXT.
- DBF.
- CSV.
- LIT.
- Fb2.
- Epub.
- Создавать HTML-документы.
Кроме того, его можно запускать прямо из пакета Microsoft Office(Excel,Word,Outlook) и сохранять готовые документы в облако. На примере это можно рассмотреть так: документ, высланный вам по почте, находится в формате PDF. Вы откроете его в FineReaderе, распознаете и преобразуете в word-файл, отредактируете как вам необходимо, и сохраните в формате пакета OpenOffice Writer – ODT. Или снова в PDF или оставите в DOC.
Установка
Установщик предоставляется бесплатно и без регистрации. После скачивания файла вы увидите в папке загрузки текстовый документ README.txt и приложение ABBYY.FineReader.v12.0.101.496.exe.
Закройте все окна Microsoft Office. Запустите установчник
Выберите адрес каталога, куда нужно будет установить программу, «обычный» режим установки
и необходимые опции перед началом установки: рекомендуется убрать галочки во всех строках, кроме второй: «Создать ярлык для ABBYY FineReader 12 на рабочем столе».
После этого ждите окончания процесса. Установка обычно занимает около 10 минут, но не завершайте процесс, не дождавшись окончания: на «засоренном» компьютере она может длиться до получаса или часа.
После появления окна, сообщающего о завершении установки, нажмите кнопку «готово», и программой можно пользоваться – ключик активации уже встроен в файлы.
Интерфейс
Последняя версия ABBYY FineReader 12 обладает дружелюбным пользователю интерфейсом. Верхняя строка разделена на вкладки:
По умолчанию при старте приложения открывается окно «Задача»
Которое также можно вызвать одноименной кнопкой в верхней левой части экрана. В подпунктах можно выбрать одну из стандартных задач – конвертирование, создание электронных таблиц и т.п.- или создать свою пользовательскую задачу.
Слева находится вертикальный список из нескольких пунктов – смотря с чем необходимо работать:
Выбор языка для работы с файлом
Во вкладке настройки можно изменить «Выбор языка», для распознавания текста файла.
Цветовой режим
В меню «Цветовой режим» предлагается выбрать из цветного или черно-белого, причем во втором случае объем выдаваемого файла будет меньше и время на обработку уменьшится.
На панели окна Изображение можно выбрать и отметить области распознавания, проверить результат работы и двух сопоставляемых (слева и справа) окнах. В правом – результате распознавания – при помощи встроенного текстового редактора правки можно вносить прямо в нем.
Программа выделяет 4 вида областей:
- Текст
- Картинка
- Фоновая картинка
- Таблица
После выполнения всех манипуляций необходимо запустить распознавание текста снова. Стоит заметить, что распознавать можно только отдельную область без обработки всех остальных страниц документа, что упрощает работу с большими файлами – просто выделите ее и нажмите кнопку «копировать». Необходимо знать, что рукописные тексты программа распознать не сможет. На примере ниже представлен неправильно выбранный документ, не подлежащий обработке.
Как пользоваться
Ознакомьтесь визуально с принципом работы данной программы:
Горячие клавиши
Помимо основных, отображаемых в пользовательском интерфейсе, клавиш, в FineReader существуют т.н. «горячие клавиши». Ниже приведен их неполный список.
Стандартные команды, знакомые нам по пакету MS Office:
- Ctrl+S – сохранение документа
- Ctrl+P – напечатать документ/текст
- Ctrl+Z – отмена предыдущей команды
- Ctrl+X, Ctrl+C, Ctrl+V – вырезать, скопировать, вставить текст/изображение
- И др.
Команды, характерные для FineReader:
К достоинствам FineReader можно отнести большое количество поддерживаемых форматов, широкий спектр выполняемых задач, общий уровень их выполнения и кроссплатформенность, наличие русской версии. Данная программа является кряком.файн ридер
Читайте также: