Какой сканер лучше подойдет для оцифровывания книги
Что для вас значит книга? Если это не просто увлекательный попутчик, но и мудрый наставник, то вы хоть раз задумывались о том, чтобы сберечь ее на будущее. Оцифровка бумажных книг имеет два несомненных преимущества: книга в электронном виде всегда под рукой, и ей очень легко делиться.
Из этого мануала вы узнаете об основных этапах создания удобной электронной версии бумажной книги с навигацией и возможностью копирования текста.
Вступление
Стоит оговориться, что в век бурной защиты авторских прав и легкой доступности литературы, изначально сверстанной в электронной форме, имеет смысл оцифровывать либо старые фундаментальные советские учебники, либо что-то действительно редкое и только для личного пользования.
Имея доступ к старым техническим справочникам, я иногда безвозмездно помогал тем незнакомым мне людям, которым так не хватало хороших источников знаний для обучения. И коль уж я подряжался, хотелось выполнить свою работу на достаточно высоком уровне, чтобы читателю книги было приятно в нее погружаться.
Этап 1. Копирование книги
Со временем многие процессы упрощаются. Если с пяток лет назад этот этап был крайне продолжительным (приходилось пользоваться сканером), то с улучшением камер мобильных телефонов затрачиваемое время существенно сократилось. Конечно, камера камере рознь, но, если подобрать приемлемые условия съемки, должен подойти любой более-менее современный телефон.
Разумеется, использование сканера все же более предпочтительно. Особенно если дело касается технической литературы, содержащей множество формул и чертежей.
Предвосхищая события, отмечу, что снимки впоследствии будут обработаны специальной программой. Но все же стоит добросовестно отнестись к самой съемке, дабы не ставить качество конечного продукта в зависимость лишь от постобработки.
Пример не самого хорошего снимка: освещение страдает, страницы до конца не выпрямлены. Все ради экспериментаПоэтому постарайтесь максимально широко раскрывать страницы, чтобы изгибы у корешка книги были минимальны. Было бы здорово, если бы вам кто-то в этом помогал. Один человек держит телефон, а второй переворачивает и выпрямляет страницы. Ко всему прочему, студенты любят делать на библиотечных книгах пометки, и неплохо было бы их стереть.
Делаем серию снимков и перекидываем их на компьютер в отдельную папку. Пришла пора поработать неживому мозгу.
Этап 2. Обработка
Я сталкивался с двумя серьезными программами для обработки отсканированных (сфотографированных) книг: ScanTailor и ScanKromsator. Возможно, за годы моего инактива появились еще какие-то достойные альтернативы, но я сомневаюсь — уж очень мала и бедна пользовательская ниша. Самые прожженные книгоделы предпочитают ScanKromsator. В нем предельно много настроек и возможностей, но разобраться и понять все предложенные навороты, видимо, не в состоянии и сам автор программы (шутка). Поэтому я рекомендую вам ScanTailor. Мне довелось следить за развитием этой утилиты с первых дней ее существования. Разработчик еще несколько лет назад прекратил поддержку проекта, но все-таки дал миру хороший инструмент для обработки сканов.
Начало работы
Работа в ScanTailor последовательна и проста. Все промежуточные действия отображены в левой части рабочей области, вы с легкостью вольетесь в процесс.
Выберите папку с исходниками, выходная папка будет создана автоматически. Для всех страниц установите максимально возможное DPI — 600 × 600. Мощности современных компьютеров позволяют достаточно быстро обрабатывать такие изображения.
Не жалейте DPI для своей книги
Шаг 1. Исправление ориентации
Самый простой и быстрый шаг. Скорее всего, вы изначально фотографировали страницы с верной ориентацией, потому и хлопот возникнуть не должно. Отмечу лишь, что изначально ScanTailor будет предлагать вам запустить пакетную обработку текущего действия (небольшой значок Play напротив шага) — обязательно им пользуйтесь, дабы не щелкать по каждому изображению отдельно.
На мой взгляд, ScanTailor может гордиться своим продуманным интерфейсом
Шаг 2. Разрезка страниц
Практически беспроблемный шаг. Я крайне редко встречал ошибки программы на этом этапе. Обязательно обратите внимание на обложку книги — именно здесь зачастую возникают нюансы.
Большей наглядности и придумать трудно
Шаг 3. Компенсация наклона
В подавляющем большинстве случаев алгоритм срабатывает корректно. Не ждите подвоха, переходите к следующему шагу.
К вашим услугам ручная настройка до долей градуса
Шаг 4. Полезная область
Наверное, это самый ответственный момент. Только содержание книги имеет определяющее значение, оформление — дело вторичное. Именно с этого шага начинает работать связка «компьютер — человек». В программе порой случаются небольшие сбои, поэтому после автоматической обработки пробегитесь глазами по миниатюрам страниц в правой части экрана. Обычно ошибки сразу бросаются в глаза.
«Бракованная» полезная область будет видна при просмотре миниатюр страниц
Шаг 5. Поля
Размер полей — дело вкуса. Более важным моментом является возможность выравнивания размеров страниц. Не забудьте поставить эту галочку, чтобы не получить на выходе «пляшущие» страницы.
Обложку обычно приходится дорабатывать в графическом редакторе
Шаг 6. Выход
Последний бой — он трудный самый. Плюс самый ресурсоемкий для вашего компьютера и самый требовательный к вашему вниманию.
Необработанные страницы помечаются вопросительным знаком
Финишный отрезок знаменуется рядом важнейший действий. Прежде всего вы определяете выходной режим книги: черно-белый, цветной или смешанный. Затем страницы очищаются от мусора, искривленные строки выравниваются. Не буду вдаваться в подробности, но укажу вам на не самые заметные закладки, расположенные несколько нелогично и непривычно — между превью страницы и лентой миниатюр. Каждая закладка отвечает за важную функцию ручной настройки получаемых изображений. Если вы найдете желание и время вникнуть в принцип их работы, ваши книги будут более высокого качества.
Стремясь к идеалу, на эту работу вы можете потратить не один час. Все зависит от вашей заинтересованности в конечном результате и качестве исходных снимков. Да, я еще раз возвращаюсь к этой теме. Чуть большие старания на этапе подготовки могут сэкономить огромное количество времени, которое уходит на приведение страниц в приличный вид.
Прошу не брать за образец приведенные скриншоты — на все про все у меня ушло не более пары минут. Я не сомневаюсь, что забыл указать вам на некоторые нюансы работы со ScanTailor — слишком давно я ничего не обрабатывал с его помощью.
В итоге вы получите набор разрозненных страниц в формате .tif. Пора сшиваться!
Этап 3. Создание djvu-файла
Если вы хотите быстро сварганить DjVu-файл, обратитесь за помощью к малюсенькой утилите DjVu Small. Есть и более серьезные программы, например DjVu Editor Pro. Конечно, предпочтительным видится применение второго инструмента. Но решать вам: установите обе программы и сравните их возможности.
Что касается создания PDF — в Интернете есть вагон и маленькая тележка соответствующих программ и веб-сервисов.
Этап 4. Создание OCR-слоя
Одним из признанных мировых лидеров в распознавании текста несомненно является компания ABBYY с ее известным продуктом FineReader. Наверное, нет таких людей, которые не слышали об этой программе, поэтому и расписывать особо нечего. С недавнего времени FineReader умеет открывать и сохранять результаты работы прямиком в DjVu, что исключает необходимость использования промежуточного софта.
Этап 5. Создание оглавления
На просторах Сети довелось встречать положительные отзывы о программе Pdf & Djvu Bookmarker. Как становится понятно из названия, софтина умеет работать с обоими самыми распространенными форматами электронных книг.
Заключение
Скорее всего, вы не осилили много букв и сразу перешли к выводам. А они для рядового человека неутешительны. Электронное книгоиздание — дело хлопотное, полное трудностей и сюрпризов. Чтобы дослужиться даже до «зеленого пояса», вам придется потратить кучу времени. Оцифровка бумажных книг на высоком уровне — удел энтузиастов. Если вы все же решитесь пройти чертову дюжину кругов ада, то получите непередаваемые впечатления. Всегда приятно делать что-то общественно полезное и получать за это обычные человеческие благодарности.
Но в целом рекомендую остановиться после обработки в ScanTailor, объединить разрозненные страницы в PDF и дальше не лезть в дебри.
Осознанно и бессознательно я упустил кучу мелочей и нюансов, которые подстерегут вас на пути создания хорошей электронной книги. Надеюсь, что к обсуждению в комментариях подключатся знающие люди и укажут на мои неточности или расскажут о своих секретах.
Накопленный российскими библиотеками опыт позволяет четко сформулировать ответы на три главных вопроса оцифровки библиотечного фонда: зачем сканировать, что сканировать, как сканировать.
Почему библиотека является наиболее ярким образом системологии – фундаментальной науки, изучающей организацию процессов и явлений в мире? Ответ кроется в фонде и справочно-поисковом аппарате библиотеки. Для обычного читателя книги на полках и есть фонд, но это не совсем так. Библиотечный фонд – это сложная по структуре совокупность документов, представленных на различных носителях информации, соответствующая определенным отраслям знаний и связанная со специализированным поисковым механизмом на основе карточного каталога.
Даже размещение журналов на стеллажах библиотеки основываются на научном подходе: информетрический закон Брэдфорда объясняет закономерность распределения статей по изданиям и тем самым позволяет с большой вероятностью спрогнозировать востребованность материалов, исходя из специфики информации.
Иначе говоря, библиотекам удалось создать идеальную систему классификации и структурирования информации, которая позволила решить проблему хранения и поиска огромных объемов данных из любых источников. Для этого были разработаны специализированные библиотечные классификаторы, регламентирующие распределение и расстановку фондов, методы организации систематических каталогов, стандарты оформления и учета документов.
Об оцифровке
Когда мы говорим об оцифровке книг любой библиотеки, то, помимо сохранности оригиналов и обеспечения аутентичности электронной копии, необходимо помнить о сохранении идентичности структуры классификации и поиска информации в бумажном и электронном фонде. Другими словами, сканирование книг требует обязательного создания электронного каталога и формирования индексно-поисковой базы данных с максимальной полнотой наполнения.
Проекты по созданию электронных ресурсов библиотек
являются одними из самых сложных и насыщенных с точки зрения трудозатрат,
применяемых методологий и технического исполнения.
Возникает естественный вопрос – зачем? Зачем при такой сложности реализации подобных проектов затевать оцифровку библиотечных материалов, ведь «книги могут храниться веками», да и «вообще в библиотеку уже никто не ходит»?
Это ошибочное мнение. В последние годы библиотеки активно меняются, внедряют современные технологии и стандарты обслуживания для удовлетворения потребностей нового поколения читателей, воспитанных на свободе использования цифрового контента. Принимаются программы по переоснащению, в практику работы вводятся индексы эффективности деятельности, создаются единые каталоги, региональные и краеведческие электронные коллекции. В 2015 г. запущена Национальная электронная библиотека (НЭБ), для развития которой проводится регулярная оцифровка фондов российских библиотек.
Не стоит забывать и о сохранности бесценных знаний и культурных ценностей, накопленных в книгохранилищах по всей стране. Для этих целей оцифровка – самый эффективный способ сохранения изданий и обеспечения безопасного доступа к содержащейся в них информации.
Электронный каталог
Проект в одной крупной библиотеке продолжался с 2003 по 2011 гг. В ходе проекта было выполнено сканирование и индексирование более 2 млн карточек систематического каталога на русском и иностранных языках. В АБИС перенесены данные по 17 полям с каждой карточки.
Основа основ автоматизации современных библиотек – создание электронного каталога и наполнение автоматизированной библиотечно-информационной системы (АБИС). АБИС необходима для автоматизации учета фондов. А полноценный электронный каталог значительно увеличивает эффективность и скорость поиска информации, значительно повышая общее качество обслуживания читателей.
Как правило, в библиотеке ведутся несколько видов каталогов: алфавитный, в котором все карточки расставлены по алфавиту; систематический, где карточки расставлены по отраслям знаний. Существуют каталоги, разделяющиеся по охвату фонда: генеральный или отдельных частей фонда; по назначению: читательский или служебный; по многим другим признакам: краеведческий, предметный и т.д.
При большом количестве фондов
оцифровка всего каталога – довольно длительный процесс,
который обычно проводится поэтапно.
Основа каталога – это библиотечная карточка, содержащая информацию об издании, индексы классификации, номер книги (ISBN) и другие данные. Ввиду большого объема специфической информации, карточка является сложнейшим документом для извлечения индексных данных. Еще больше затрудняют обработку информации записи на иностранных языках, рукописный текст или диакритические знаки (различные надстрочные, подстрочные, реже внутристрочные символы).
Одна библиографическая запись может содержать до 24 разных полей. Перенос записей в систему напрямую с бумажных носителей нецелесообразен из-за низкой скорости и риска потери/пропуска ключевой информации, поэтому работы по созданию электронного каталога подразумевают обязательное предварительное сканирование библиотечной картотеки, формирование и проверку индексной базы данных перед загрузкой в АБИС.
Даже в небольшой библиотеке количество карточек исчисляется тысячами единиц. В таких условиях искать собственные кадровые и технические ресурсы и самостоятельно заниматься формированием электронного каталога практически невозможно, поэтому для экономии времени и денег привлекаются профессиональные подрядчики, которые специализируются на обработке библиотечной информации и готовы гарантировать итоговый результат.
Типовой технологический процесс создания электронного каталога
Оцифровку целесообразно производить на территории библиотеки, чтобы не изымать библиотечные карточки из использования и не нарушать работу с читателями. Процесс делится на несколько этапов:
Экспертиза. Оценивается физическое состояние карточек и объемов картотеки. Определяется состав библиографического описания и требуемый формат машиночитаемых записей. Исходя из полученных данных, составляется дальнейшая технологическая цепочка работ. На перечень работ и методы извлечения данных влияют нюансы в написании символов, формате и даже составе материала (картон, бумага). Ниже приведены возможные типы карточек:
Современное оборудование позволяет достигать скорости сканирования 170 карточек в минуту, при этом выбор профессионального сканера позволяет избежать повреждения самих карточек.
- добавочная карточка. Особенность: печатные и рукописные символы,
- разделитель. Особенность: отличный от стандартного формат карточки,
- ссылочная карточка. Особенность: только рукописные символы,
- описание. Особенность: старорусский текст.
Сканирование. Поточное сканирование бумажных карточек осуществляется на высокоскоростных документных сканерах. Стандартные требования к оцифровке: разрешение 300 dpi, черно-белый режим сканирования, формат файлов TIFF или JPEG. Большинство карточек типового размера 130х80 мм, но встречаются до формата А6 (148х105 мм) включительно. Иногда перед сканированием производится склейка поврежденных карточек. Часто проводится двустороннее сканирование карточек, где на обратной стороне содержатся инвентарные номера, разбивка по филиалам. Незначимые карточки-разделители не сканируются.
После оцифровки бумажный массив картотеки приводится в исходное состояние.
Все последующие работы проводятся с полученными
графическими образами карточек.
Обязательно должны проводиться поворот перекошенных изображений, удаление фона, проявление слабоконтрастных символов и т.д.
Свойства электронных копий должны исключать потерю информации и не ухудшать читаемость документа по сравнению с бумажным оригиналом. В случае плохого состояния исходного материала допускается использование программных средств улучшения качества изображений.
Вся обработка изображений выполняется в автоматическом режиме. Возможна ручная коррекция геометрии образов, очистка от шумов и следов сгиба при необходимости обработки небольшого количества поврежденных документов.
Даже в случае набора текста на печатной машинке, далеко не все символы распознаются корректно. Автоматическое распознавание рукописного текста, карандашных пометок и карточек, созданных до середины 20 века практически невозможно.
Количество графических образов должно совпадать с числом листов бумажного массива. Нормой стало сканирование в порядке следования карточек каталога. Пропуск страниц считается браком.
Ретроконверсия: ввод информации с отсканированных карточек и формирование базы данных. Карточки могут содержать машинопечатный и рукописный текст, карандашные пометки, нечеткие символы и иметь другие особенности заполнения.
В редких случаях, при хорошем качестве документа, содержащего печатный текст, можно использовать программные средства распознавания для автоматического извлечения определенных полей карточки.
Поэтому данные с библиотечных карточек в основном вводятся вручную
и проходят многоуровневую систему контроля качества.
Перед ретроконверсией производится сепарация (сортировка) изображений с целью группировки отдельных частей массива по типам карточек и другим признакам индексирования (сцепка составных карточек, создание блоков данных для томов, разделение по языкам и т.д.). Производится разметка блоков для удобства извлечения данных оператором.
На выходе формируется база данных в требуемом для библиотеки формате (RUSMARC, UNIMARK, MARC21 и др.). В некоторых случаях при создании электронного каталога предметом обработки могут служить напрямую графические образы книг. Тогда к работе привлекаются операторы, владеющие знаниями правил составления библиографических описаний.
Требования к минимальному проценту ошибок в базе данных очень высоки, так как это напрямую влияет на качество поиска информации в электронном каталоге. Поэтому после ввода данных присутствует этап проверки по различным параметрам опытными верификаторами.
Для ускорения процесса ретроконверсии используется технология заимствования,
упрощающая ввод информации за счет автоподбора заполнения полей
на основе ранее введенных данных.
Сканирование книг
Многие библиотеки уже обладают профессиональными планетарными сканерами для ежедневной оцифровки книг. Но собственными силами в основном сканируется поступающая литература. Для массовой качественной оцифровки обычно заказываются аутсорсинговые услуги. Так, в одной крупной федеральной библиотеке с 2008 по 2014 гг. оцифровано более 16,5 млн страниц библиотечных и архивных фондов силами привлеченного подрядчика.
После создания электронного каталога или параллельно этому процессу библиотеки решают задачи по обеспечению сохранности и доступности книжного фонда путем оцифровки книг. Работы по оцифровке проводятся для наполнения национальных электронных проектов, создания коллекций редких книг и полнотекстовых ресурсов, собраний тематических иллюстрированных материалов и много другого.
Библиотеки могут проводить работы по оцифровке фондов самостоятельно. Например, в крупных библиотеках организованы целые отделы сканирования, располагающие парком профессионального оборудования.
Важным аспектом являются характеристики цифровых копий. Если решаются локальные задачи, библиотека может самостоятельно определять требования к выходным электронным ресурсам. Но при реализации национальных проектов, где используются фонды различных библиотек, необходим общий стандарт, регламентирующий основные характеристики работы.
При создании НЭБ электронные ресурсы, созданные техническим исполнителем
и библиотеками самостоятельно, имели разные параметры оцифровки,
что усложняло работу по обработке и загрузке цифрового контента.
Поэтому отраслевым экспертным советом были подготовлены «Рекомендации по оцифровке материалов из фондов библиотек»*, которые показывают принцип создания электронных библиотечных ресурсов. В рекомендациях указаны три вида цифровых копий. Мастер-копия – эталонная копия оригинала в полиграфическом качестве (разрешение не ниже 600 dpi). Пользовательская копия – для создания электронных коллекций и предоставления читателям (разрешение не ниже 300 dpi). Служебная копия используется для внутренних задач библиотеки и размещения на web-сайтах (разрешение не ниже 150 dpi).
Особенности сканирования книг
При оцифровке книг этапы работ повторяют процесс создания электронного каталога. Действует библиотека самостоятельно или нанимает подрядчика, но так или иначе в первую очередь необходимо определить цель проекта и провести экспертизу книжного фонда для понимания стоимости и трудоемкости работы. В дальнейшем формируется состав подлежащих оцифровке изданий, согласовываются технические требования, и производится окончательная оценка проекта.
Рассмотрим несколько особенностей оцифровки книг, которые влияют на стоимость и сроки проектов. Большое значение имеет формат и состояние книг, а также объем бумажного фонда. Исходя из этих особенностей, определяется вид сканирующего оборудования и технологии оцифровки.
Ветхая, рваная бумага, а также толстый переплет многих книг позволяет применять только бесконтактное сканирование – профессиональные планетарные (книжные) сканеры. Использование планшетных сканеров исключено.После сканирования полученные цифровые копии проходят процесс программной коррекции, приводятся к наиболее удобному для чтения качеству изображений. Зачастую при использовании профессиональных книжных сканеров для этого достаточно встроенных программных средств обработки. После получения массива цифровых копий при необходимости составляются библиографические описания отсканированных изданий.
Отдельно стоит выделить работы по высококачественному сканированию коллекций редких книг, книжных памятников, фолиантов и других ценных экземпляров. Для этого используются специализированные комплексы высококачественного сканирования, обеспечивающие уникально высокие показатели оптического разрешения.
Особенности формирования полнотекстовых PDF-книг
Но цифровых копий порой бывает недостаточно. Существуют задачи по превращению изображения в полноценную электронную книгу. На основе графических образов формируются электронные книги в формате PDF. Этот формат наиболее универсален и позволяет осуществлять полнотекстовый поиск и навигацию по оглавлению и гиперссылкам. Электронные книги, не ограниченные авторским правом, можно публиковать в интернете или давать «защищенный» доступ в читальном зале библиотеки*.
Для создания таких книг проводится полнотекстовое распознавание с дальнейшей верификацией текста и проверкой орфографии. Для окончательной вычитки документа привлекаются профессиональные корректоры.
В результате макетирования формируется электронная книга,
полностью идентичная бумажному оригиналу — с точным расположением страниц,
иллюстрациями, сохранением языка и стиля.
Оцифровка книг и каталогов библиотек, особенно при существенном объеме, разнородности фондов по формату и состоянию оригиналов, – сложнейший производственный процесс, осуществить который качественно могут только специализированные компании, обладающие всей необходимой инфраструктурой и большим опытом в создании электронных ресурсов.
Уже несколько лет пытаюсь придумать, как отсканировать старые книги, доставшиеся еще родителям в наследство. Сами книги довольно редкие, часть из них просто старые, ветхие и уже нигде не достанешь. А другие просто неудобно сканировать.
Т.е. проблемы тут аж 3:
Старые книги, которые вот-вот развалятся при очередном перелистывании. Буквально ломаются во время сканирования.
Толстые книги, страниц на 500-1000. Ужасно неудобно сканировать. Неудобно прижимать, неудобно постоянно держать, да еще и полностью прижать нереально- внутренние края страниц сканируются хуже, чем основная область.
Широкие/высокие книги. Не влезают по размеру, сканировать невозможно.
И тут вроде понимаешь, что обычный домашний сканер для этого не создан. Максимум на что это дерьмо способно- сканирование документиков и тоненьких тетрадок. Ну а выход есть? Может какие-нибудь специальные сканеры для книг? Что придумать можно?
Флибуста. А вообще не пиратничай. Мы говорим лишь про старые книги, на которые истекли авторские права.
peregrine ★★★★★ ( 03.04.20 16:23:42 )Последнее исправление: peregrine 03.04.20 16:24:22 (всего исправлений: 2)
А это тут причем? В интернете большинство из этих книжек нет.
Мы говорим лишь про старые книги, на которые истекли авторские права.
Не знаю кто и с кем говорит, а я создал тему про сканирование книг. Будь добр- по теме или досвидания.
По теме для качественного сканирования книги нарезают на страницы или разбирают переплёт. Да варварски.
Расстраиваешь ты меня. Такие книги впору в музей сдавать. А что, в 2020 году ничего покруче не придумали? Технологии там всякие, не?
Но допустим, даже если твоим способом. Как отклеить страницы, не порвав их? Я однажды попытался так с одной книгой, ничего хорошего не вышло. Может гайд есть какой-то?
Есть такие, но они в основном для библиотек, музеев, кто там еще старыми или редкими книгами банчит. Соответственно, стоимость космическая.
Я пробовал фоткать… Но там фигня получается. Трудно держать фотик на одном расстоянии от книги, непонятно как определить достаточно ли прямой угол, да и правильное освещение настроить (чтобы не искажать цвет страниц) непонятно как. А так, может фотик вариант?
Это очень кропотливый туд, если оригинал не нужен больше, то да или резать или расшивать, если стоит задача сохронить оригинал и создать качественную оцифрованную версию то, как уже указали выше, спец сканеры, но я бы еще посмотрел в сторону ligthbox'а, но вы же понимаете что странички нужно будет ручками переворачивать, кадров на каждый разворот то же скорей всего будет как минимум 2-3, а потом еще нудно выбрать лучшие кадры, кадрировать, возможно цветокор потребуется, экспорт нужный формат ну и собрать все это дело обратно в книгу, но уже оцыфрованую.
Сколько там страниц в Вашем любимом томике Булгакова?
Есть ручные сканеры.
Для книг я пользовался программой ScanTailor, сканировал обычным сканером, и потом ей обрабатывал. Она умеет выравнивать, удалять фон, шумы и пр.
Хороший фотоаппарат. Фотографировать разворот открытый на 90" и потом софтом выправлять искажение.
Искать хороший старый домашний сканер, у которого лампа не светодиодная линейка и он способен брать в глубину. И опять же постобработка софтом чтобы развернуть изгиб у корешка.
Ручной сканер-линейка, на али видел. Вот как с этим сейчас - хз, в старые времена ручные сканеры были тем еще гном, чуть дрогнет рука - и скан уже корявый.
hungry_ewok ( 03.04.20 17:03:27 )Последнее исправление: hungry_ewok 03.04.20 17:07:24 (всего исправлений: 1)
Ну еще как вариант штатив с хорошей зеркалкой и последующая обработка.
Нашел вот такие. На твоей картинке вроде Optima - PLAN A1 51VP (за 2 ляма), но тут есть и другие, начинается от 30к.
Дороговато, но уже не только за 2 ляма. Вон Plustek OpticBook 3800 какой-то за 28к, вроде неплохо. Интересно, насколько он все-таки именно для книг адаптирован.
Или вот за 57к, «сканер» на цифровой камере. Интересно, какие у него плюсы и минусы по сравнению с обычными сканерами. Так то я наверно могу и свой фотик с палке прикрутить…
Вот и мне думается, что надо где-то взять штатив, с овещением что-то придумать. Я выше нашел «сканер» за 57к на основе камеры, интересно он лучше моего фотика за 10к?
как я уже написал, для фотика нужен лайтбокс, еще обязательно профессиональный студийный свет, упавляемый спуск, фотик на штативе, выставляешь ракурс фокус, диафрагму, настраваешь вмпышки, лучше если фотик к компу подключен и поддерживает программный спуск, меньше штатив трясти, да и сразу можно увидить предварительный результат на дисплее монитора а не в видоискателе, тушишь свет делаешь пару снимков, получилось, включаешь свет, аккуратно листаешь страничку и потоновой если ни чего не нарушил с выключения света, если нарушил - с выстановки фотоаппарата.
Я выше нашел «сканер» за 57к на основе камеры, интересно он лучше моего фотика за 10к?
Смотря что за фотик у тебя, и что за фотик в том «сканере». Лучше снимать на зеркалку ИМХО. Качество будет повыше и получше.
Но опять же, вот эти «сканеры» на основе камеры, они не прижимают страницы. Фоткать толстые книжки проблема, потом это все часами обрабатывать, вроде бред…
Трудно держать фотик на одном расстоянии от книги, непонятно как определить достаточно ли прямой угол, да и правильное освещение настроить (чтобы не искажать цвет страниц) непонятно как. А так, может фотик вариант?
Собери стенд из говна и палок, ну что как маленький?
Мой метод - дешевая мыльница Canon с CHDK, chdkptp, затем конвертация DNG в TIFF, ScanTailor (с бинаризацией) и OCR. Получается вполне читаемо, неплохо, разве что иллюстрации надо бы отсканировать сканером (который тоже неплох, не одну книгу отсканировал именно им, до того как купил фотоаппарат).
Фотоаппарат на штативе для микрофона, с головкой от экшн-камеры, на том же штативе закреплена икеевская лампа, в общем лютой колхоз - но работает.
Кстати, похоже устроен пр0фессиональный сканер для книг - камера перпендикулярно к поверхности, мягкий свет, иногда бумажки для калибрации цвета.
Как правило просто плюхнуть на сканер и отредачить потом качество лучше, чем при сканировании телефоном.
Зеркалка только для видеоискателя работает, держу в курсе. Качество фотки в ней по прежнему зависит от оптики на основную матрицу и качества той самой матрицы. А будешь ты глазами смотреть на картинку на дисплее или на аналоговую роли не играет. Просто маркетинговый трюк.
peregrine ★★★★★ ( 03.04.20 18:14:50 )Последнее исправление: peregrine 03.04.20 18:15:19 (всего исправлений: 1)
Берёте планшет или смартофон под андроидом и БЕСПЛАТНЫМ Tiny Scannerом сканируете (типа как фотографируете). Можно и ClearScannerom и сканером «Турбоскан». Есть ещё, но они или платные или мне не понравились.
Была у меня когда-то идея соорудить станину такую, где книга раскрыта не на 180 градусов, а как на сканере по ссылке выше, а фотоаппарат на специальном креплении, которое перекидывается на два положения на каждую страницу разворота. Лучше, чтобы у фотоаппарата были ручные настройки.
Я как-то за неимением сканера делал фотки. Потом знакомый украинец переводил с немецкого.
shkolnik_2022, а ты уверен, что твои книги кого-то заинтересуют? Народ уже не особо любит читать.
В 2010 уже́ удобнее и быстрее было нормальным фотоаппаратом. Чтобы годно для OCR. Если в сканер не лезет. Сканером с автоподачей быстро и удобно ровные стандартные листы.
Интереснее, чем под онтопиком это всё быстро и удобно в текст перегнать.
В зеркалках матрицы большие и нормальные, в отиличие от. Я имел ввиду фотоаппарат с нормельным сочетанием матрица/объектив.
Может какие-нибудь специальные сканеры для книг?
Да. Гугли «планетарный сканер».
grem ★★★★★ ( 03.04.20 19:48:08 )Может какие-нибудь специальные сканеры для книг?
Последнее исправление: grem 03.04.20 19:59:20 (всего исправлений: 2)
shkolnik_2022, а ты уверен, что твои книги кого-то заинтересуют? Народ уже не особо любит читать.
То что не любит читать- уже видно по этой теме. Ничего никуда заливать я не собираюсь.
В 2010 уже́ удобнее и быстрее было нормальным фотоаппаратом. Чтобы годно для OCR. Если в сканер не лезет. Сканером с автоподачей быстро и удобно ровные стандартные листы.
Распознавание текста это хорошо… Но книги (страницы) имеют в т.ч. красивое художественное оформление. Важен не только текст.
Может еще и услуга такая в России есть? Типа пришел куда-то, заплатил N рублей, тебе книжку отсканировали на таком сканере.
мне как то на работе пришлось много страниц официальных документов сканировать - так мы делали так один листает а другой фотографирует.
Понимаю, но идея с фотиком мне почему-то все меньше нравится. Может уломаю батю купить недорогой (ну относительно) книжный сканер за 30к. Тем более он вроде сам понимает, что обычным сканером тут не вырулишь, а книжки оцифровать хотел.
Так то вроде неплохая штука. Жаль не опенсорс. Вроде и денег собрали неприлично много, а все-равно проприетарщина. Не то чтобы это что-то решает, но был бы приятный бонус.
Они говорят «We believe that technology should be accessible for everyone», но как же она будет доступна на 100% без исходников?
Ну понятно, что опенсорсным оно быть не может: «CZUR scanner software supports OCR function using Abbyy technology.»
Отзывы с амазона про этот CZUR.
Great desktop scanner, but why scan my hard drive and communicate with servers in China?
Вовсе не обязательно. У меня когда-то в студенческие времена был угловой сканер, к которому можно прикладывать книги, раскрытые под прямым углом. Захват был к самому переплёту. До сих пор вспоминаю, какая крутая машинка была (ну, и не дешевая), зато сколько книг сейчас по торрентам валяется моих.
Во, тут написали уже, это был PLustek.
В интернете большинство из этих книжек нет.
Сам проверял? Ну и не парься тогда. Пусть остаются на бумаге.
Трудно держать фотик на одном расстоянии от книги
Так штатив нужен.
«То что не любит читать- уже видно по этой теме. Ничего никуда заливать я не собираюсь.» - Я читать люблю! И раньше частенько пасся на booktracker точка org, но потом пришла беда в виде «ДАННЫЙ РЕСУРС ЗАБЛОКИРОВАН по решению органов государственной власти». Чем дальше - тем хуже становится ((( И лучшие сайты блокируются и цены растут и пенсии отбираются и среди модераторов всё чаще дамочки оказываются (а значит вероятность бана на форумах, где они появились возрастает многократно) ((( А есть приличные торренты типа booktracker точка org, которые пупкоцелователь ещё не забанил или не осталось уже? Я не люблю книги онлайн читать. Предпочитаю скачивать и читать на букридере.
А чем он лучше рутрекера? Ведь по умолчанию самое большое количество русскоязычных книг только на рутрекере. Да и в оригинале немало…
Они уже давно есть, просто спрос маленький, поэтому цены на них конские.
К примеру Mustek MCS 510 A3 Pro или DOKO X08A3 / DOKO BS16
LamerOk ★★★★★ ( 19.04.20 12:54:28 )Последнее исправление: LamerOk 19.04.20 12:55:42 (всего исправлений: 1)
Закрытая проприетарщина от лицемеров.
«We believe that technology should be accessible for everyone»
Да-да, ви белив… Бат идите вы нафиг, а не исходники!
Да еще и со встроенной телеметрией, почитай отзывы покупателей на амазоне.
Great desktop scanner, but why scan my hard drive and communicate with servers in China?
5 мегапикселей это ни о чем. Кстати - интересная идея для ковыряльщиков железа и любителей 3D печати с ардуинками и малинками - собрать свой опенсорсный сканер из говна и палок.
peregrine ★★★★★ ( 19.04.20 13:44:57 )Последнее исправление: peregrine 19.04.20 13:45:05 (всего исправлений: 1)
В москве есть сканеры от 50000 рублей. Специально для библиотек. Довольно продуманные, но они громоздкие. Есть за 30000 руб скан по принципу фотик на штативе с программой Abby scaner. Норм, но устарел. На американском рынке есть меньшего размера и снимают добротно. У меня сотка обычна и программа abbyy finereader 15. Фото через прогу прогнал весь текст в PDF. Это самый колхозный варинт. Получше будет снимать на дорогой фотик. На штатив поставил и переворачивай страницы. Фото через тот же abbyy finereader прогнал. Я думаю если книги важны для вас то скоро во всех библиотеках появятса хорошие сканеры. Можно договорится вам отсканируют. В универсистетах есть сканеры дорогие. Выловить студента тот отсканирует.
Сканер – устройство, предназначенное для оцифровки изображений, т.е., для создания электронной копии с бумажного носителя.
Сканерами пользуются фотографы, полиграфисты и художники; они необходимы при распознавании текста с бумажных носителей и организации электронного документооборота. Да и в быту потребность в сканере возникает частенько: оцифровать для сохранности старую фотографию, сохранить на диск копию важного документа, сделать электронную копию паспорта для отправки по e-mail – со всем этим сканер справляется намного лучше, чем фотоаппарат.
Еще лет 10-15 назад сканер часто можно было обнаружить как возле офисного, так и домашнего компьютера. Но сегодня на их месте чаще встречаются струйные и лазерные многофункциональные устройства – возможностей встроенного в МФУ сканера вполне достаточно для решения бытовых и нечастых офисных задач.
Однако это не значит, что сканеры как отдельные устройства «канули в лету» - они просто сместились в более профессиональный сегмент, в котором востребованы, как никогда ранее. Все больше организаций переходят на электронный документооборот, вся полиграфия готовится в электронном виде, и многие библиотеки всерьез озадачены вопросом перевода всего фонда в электронный формат.
Отдельный сканер вам потребуется, если вам нужно:
- сканировать изображения с высоким разрешением и точной цветопередачей;
- сканировать изображения с листов большого формата;
- сканировать изображение в дороге, без доступа к сети 220В;
- сканировать множество документов одного формата с высокой скоростью;
- перевести в электронный формат изображения со слайдов, фото- и кинопленки;
- сделать электронную копию с нестандартных носителей: толстых книг, картин, исторических документов, с которыми следует обращаться с особой осторожностью.
И во всех этих случаях потребуются различные сканеры с различными характеристиками.
Характеристики сканеров
Вид.
Планшетный сканер – наиболее привычный для нас вид сканеров с откидывающейся крышкой. Сканируемый документ кладется под крышку лицевой стороной на стекло, под которым движется сканирующий блок - сенсор и лампы подсветки.
Это простая и недорогая конструкция, однако пользоваться таким сканером не всегда удобно. Если документов много, да еще и сканировать их нужно с двух сторон, то процесс может затянуться надолго. Кроме того, стекло хорошо собирает пыль и краску с документов и его время от времени надо вытирать. Так что для оцифровывания больших объемов планшетный сканер непригоден. Зато в него можно помещать нерасшитые документы – журналы, брошюры, буклеты и т.д. Такие сканеры часто используются фотографами и полиграфистами – планшетными являются все профессиональные модели с высоким разрешением.
Протяжный сканер содержит бумагопротяжный механизм, подобный тому, что используется в принтерах. Это значительно ускоряет замену сканируемых листов, но и увеличивает цену устройства. Кроме того, к «прогоняемым» через сканер листам предъявляются довольно жесткие требования – бумага должна быть не слишком толстая, и не слишком тонкая, не мятая, не надорванная, без скрепок и скобок. И, разумеется, никаких сшитых документов. Могут возникнуть проблемы и с нестандартными форматами бумаги.
Среди этого вида сканеров существуют и компактные модели с питанием от аккумуляторов – они объединяют присущее стационарным сканерам высокое качество изображения с компактностью и мобильностью ручных сканеров.
В ручном сканере отсутствуют, как бумагопротяжный механизм, так и движущийся сканирующий блок – для сканирования документа пользователю самому надо провести сканером по документу.
Такие сканеры легки, компактны, недороги, часто могут работать от аккумуляторов или батареек. С их помощью можно сканировать сшитые документы, страницы книг, и даже наклеенные на стену объявления.
Основной минус – качество изображения сильно зависит от равномерности движения сканера по листу. Для того, чтобы получить изображение без заметных глазу искажений, нужно иметь твердую руку и некоторую сноровку. Да и в этом случае изображения будет заметно уступать по качеству полученным стационарным сканером.
Слайд-сканер предназначен для просветного сканирования негативов и слайдов. Такие сканеры используются профессионалами для оцифровки изображений с фото- и кинопленок.
Среди планшетных сканеров также есть модели со слайд-адаптером, способные сканировать плёнку. Но качественно оцифровать слайды планшетным сканером можно только в том случае, если у него есть отдельный режим просветного сканирования и вторая лампа на крышке.
Многие обычные планшетные сканеры снабжены слайд-адаптером, но качество оцифровки слайдов на них будет невысоким – на свет лампы, отраженной от самой пленки, накладывается свет, прошедший сквозь пленку и отраженный от крышки, что приводит к размытию деталей и снижению четкости изображения. Да и сенсор в слайд-сканерах намного качественнее.
Впрочем, для бытового использования и оцифровки любительских слайдов будет достаточно и простого планшетного сканера со слайд-адаптером.
Фотоаппаратный сканер – достаточно редкое профессиональное устройство, выглядящее как цифровой фотоаппарат, закрепленный на L-образном кронштейне вместе с осветительными лампами. От обычного фотоаппарата на штативе такой сканер отличается программным обеспечением, облегчающим обработку документов и сопряжение с соответствующим ПО в компьютере.
Фотоаппаратный сканер позволяет производить сканирование нерасшитых документов с минимальной нагрузкой для них – это позволяет использовать его в библиотеках для оцифровки редких книг и ветхих документов.
Разрешение сканера определяет максимальное количество пикселей на дюйм сканируемого документа, которое сканер способен различить. Чем выше разрешение, тем более мелкое и детальное изображение может быть оцифровано без потери качества.
Но тут следует иметь в виду, что большинство сканируемых документов имеют свое разрешение – то, с которым они были отпечатаны. И это разрешение редко превышает 300 dpi, поэтому 600х600 dpi достаточно для сканирования большинства документов.
Большие значения могут потребоваться при оцифровке качественной полиграфии и фотографий – от 1200х1200 до 2400х2400 dpi.
Наибольшее разрешение требуется при оцифровке изображений с пленки: в этом случае лучше ориентироваться на разрешение 3600х3600 dpi и выше.
На так называемое улучшенное (интерполяционное) разрешение особого внимания обращать не следует – это исключительно маркетинговое значение. Изображение с «улучшенным» разрешением получается программным увеличением, и качество его будет ничуть не лучше, чем если это же изображение увеличить вручную в любом графическом редакторе.
Тип датчика (сенсора) сканера оказывает немалое влияние на качество оцифрованного изображения.
В сканере на основе CCD-матрицы свет лампы подсветки, отразившись от сканируемого документа, пройдя сквозь систему зеркал и линз, попадает на линейную CCD-матрицу.
Несколько лет назад CCD-матрицы частенько встречались и в фотоаппаратах, наряду с CMOS-матрицами. Они обладали хорошими показателями по качеству изображения, но сильно уступали по скорости его получения и энергоптреблению, в конце концов, из фотоаппаратов полностью исчезнув. А вот в сканерах требования к скорости получения изображения не такие высокие. Сканеры с датчиком на основе CCD-матрицы значительно дороже, но и качество изображения обеспечивают заметно лучшее. Особенно это касается глубины резкости, что хорошо заметно, когда сканируемое изображение не идеально плоское.
СIS – единый элемент, содержащий в себе три линейки светодиодов разного цвета, оптический элемент и линейку светочувствительных сенсоров. Размер CIS-сенсора равен ширине сканирования, поэтому системы линз для масштабирования изображения здесь не нужно.
Сканер на основе такого сенсора дешевле, но и качество изображения у него похуже. Кроме уже упомянутой меньшей глубины резкости, CIS-сенсор хуже передает цвета. Впрочем, технология совершенствуется и на топовых моделях цветопередача уже почти не зависит от вида сенсора, но у недорогих моделей сравнение будет, скорее всего, не в пользу CIS.
CMOS, многим знакомый по цифровым камерам, в сканерах применяется редко – его используют только некоторые специализированные слайд-сканеры. По качеству изображения такие сканеры не уступают моделям с CCD-матрицами.
Скорость сканирования будет очень важна, если сканировать нужно часто и много.
Выбирая модель по скорости сканирования, не обольщайтесь высокими показателями планшетных сканеров без автоподачи – они не учитывают времени, потраченного на замену документа. Скорость 10 страниц в минуту для такого сканера означает лишь, что один лист он отсканирует за 6 секунд. И, если вы не успеете мгновенно поменять документ в сканере, 10 страниц в минуту вам добиться не удастся.
Если сканировать нужно много, выбирать следует среди сканеров с автоподачей – т.е., таких, которые могут автоматически брать очередной лист из входного лотка и проводить его сканирование.
Обратите внимание, что тип устройства автоподачи может быть различным – если вам нужно сканировать документы с обеих сторон, вам нужен сканер с двусторонней автоподачей.
Также имейте в виду, что в характеристиках сканера обычно приводится максимальная скорость сканирования, достигаемая при минимальном разрешении (обычно – 300 dpi). Уточните этот момент, если вам важна скорость на высоком разрешении, потому что увеличение разрешения ведет к пропорциональному увеличению времени сканирования.
Глубина цвета показывает, сколько цветов в каждом пикселе может распознать сенсор сканера (внутренняя глубина цвета) и сколько он может передать в компьютер (внешняя глубина цвета).
В то же время, независимо от глубины цвета самого сенсора, передаваемое в компьютер изображение содержит максимум 24 бита цветовой информации на каждый пиксель (16 миллионов цветов). С одной стороны, большая внутренняя глубина цвета не повлияет на конечное изображение, с другой, она говорит о высоком качестве сенсора. Кроме того, «излишек» разрядности АЦП (а именно ей характеризует внутренняя глубина цвета) позволяет избавиться от цифрового шума и обеспечить корректное определение цвета.
Варианты выбора сканеров.
Если вы вводите электронный документооборот и вам нужен сканер, способный оцифровать большой объем документации, выбирайте среди высокоскоростных протяжных сканеров с автоподачей.
Планшетный сканер работает медленнее, но зато его можно использовать для оцифровки брошюр, книг и журналов.
Если же вам нужен сканер, который может, и автоматически оцифровать пачку листов, и снять цифровую копию с книжного разворота, выбирайте среди планшетных или планшетно-протяжных сканеров с автоподачей.
Для качественной оцифровки фотографий вам потребуется планшетный сканер с высоким разрешением.
Для качественной оцифровки слайдов и изображений с пленки, вам потребуется слайд-сканер.
Чтобы иметь возможность отсканировать чертеж, таблицу или картину формата А3, выбирайте среди сканеров с соответствующим максимальным форматом бумаги.
Ручной сканер может пригодиться в командировке или в дороге, когда стационарный сканер использовать затруднительно.
Фотоаппаратный сканер обеспечит максимально бережное обращение со сканируемым документом.
Читайте также: