Alex84 написал(а):
Камрады. я тут решился распознанием книг заняться, подскажите настройки в ABBYY FineReader (версия №8).А то качество каринок на выходе осталяет желать много лучшего.
Приехал из очередной командировки в г. Кириллов. Участвую там в реставрации церкви Введения в Кирилло-Белозерском монастыре (XIV-XV в.в.). Правда занимаюсь инженерными системами. Но в таком деле участвую впервые, поэтому очень был поражен, как увиденным (сделал много фотографий), так и отношением к нашим памятникам (в хорошем смысле). Хоть и не в тему, но очень захотелось поделиться (или повыпендриваться?).
А теперь к делу. Прочитал, что есть желающие присоединиться к славному делу по распознаванию документов и начал писать инструкцию. Она не является абсолютом, так что дополнения приветствуются. Тем более, что здесь предлагается быстрый вариант обработки.
Весь процесс можно разбить на несколько этапов:
1. Подгонка размера страницы.
2. Само распознавание.
3. Вычитка и корректировка распознанного.
Испорльзуемые мной программы:
1. Corel Photo Paint 12 (на мой взгляд он более удобен)
2. Adobe Acrobat 7 (не Reader)
3. FineReader 8
Начнем с первого.
В первую очередь нам надо извлечь страницы документа в виде картинок. Это делается только для обработки страниц (FineReader может читать и PDF).
Извлекать надо через Advanced --> Export All Images. При этом устанавливаем разрешение для извлекаемых картинок 300 пикселей. Давим ОК и ждем окончания извлечения.
Запускаем Corel и открываем в нем извлеченные картинки пакетом (сразу все). Для каждой картинки смотрим два параметра: разрешение (акробат не всегда дает заданные 300 пикселей) и размер картинки в миллиметрах (сантиметрах), а не в пикселях. Все картинки надо переделать под размер бумаги. Я пользуюсь Letter (215,9 х 279,4 мм), так как А4 более вытянут по вертикали. Вообще то реальный размер побольше Letter и поменьше А4, но ближе к первому.
Здесь надо смотреть на наличие полей (часто их отрезают полностью). Если поля нас удовлетворяют, то оставляем полный размер бумаги. Если обрезаны полностью, то уменьшаем размер на величину полей, по 20 пикселей на каждое поле. То есть размер становится 175 (180) х 240 (250). Можно поля добавлять и в графическом редакторе, но я, чтобы не делать лишних операций, оставляю это для FineReader'а. Для обложек однозначно ставим полный размер бумаги.
Кроме того, смотрим насколько светлые картинки. При распознавании они побледнеют еще сильнее. Поэтому я их затемняю. Здесь ориентируюсь только на картинки.
В Corel'е это делается через Image --> Ajust --> Brightness/Contrast/Intensity. Можно порекомендовать ставить от -5 до -15 для Brightness (яркость) и +5 - +15 для Contrast (баланс белого и черного), но лучше затемнять по максимуму пока не начнут появляться абсолютно черные зоны на картинках, их допускать нельзя. Иногда это не совсем получается, так как сам исходник бывает испорчен по балансам.
Проделываем это все с каждой картинкой. При определенном навыке уходит около 15 минут на 64 страницы.