В любом случае следует (по моему мнению, ака IMHO) определиться с форматом и если будет идти перегонка через Word - с шаблоном - причем полным.
Я уже параметры для своего варианта приводил. Проблема в том, что книги издавались в разные годя и имеют разный стиль оформления. (размеры колонок, например)
Определить размеры и имена шрифтов. Размеры колонок, отступов и самого размера листа, и только после этого привлекать широкую общественность к
данному процессу.
выше...
Честно скажу, что мне не очень приятно смотреть на Times New Roman в книге, почему-то приелся. Намонго лучше смотрится текст ЗА картинкой (эта опция вроде есть в FineReader, но я ее не пробывал), чем голый текст.
Мне абсолютно всё равно, я предпочитаю Arial i times New Roman мне они не приелись.
Текст за картинкой это конечно хорошо, только весит будет значительно больше + иногда текст на картинке настолько кривой, что это не имеет смысл.
Сейчас, судя по распознанным ПДФ файлам используется в основном Таймс и Ариал, в варианте Эбона от Msha также есть требуше и омега (судя по инфе акробата), а вот того же Nimes (о котором шла речь) - там нет. При печати (видимо) подставляются шрифты вида Т1, которые есть в наличие.
Все нестандартные шрифты я использовал только для подгонки логотипа, а также когда подбирал букву ''g'' для текста с нужным начертанием.
Для определения реальных шрифтов, используемых издательством можно воспользоваться ресурсом MyFonts.com, однако для этого нужен исходник как минимум в 600dpi, а то и в 1200.
Заморачиваться влом. Меня больше интересует время, за которое будут перегнаны файлы в OCR. Если учесть, что у меня их около 800 и на 1 мне тербуется неделя, а derbenat'y 1 день (тратить пару часов в день на это не более), то по любому нам работы более чем на год.
Надо при печати в ПДФ - если он останется эталоном - четко определить все настройки - ведь по умолчанию (для Adobe Disdtiller 7) картинки сжимаются до 150dpi при Image Quality = Medium для Jpeg.
Т.е. нужно создать шаблон для серии (как минимум) в формате DOT и Adobe PDF Settings в формате *.joboptions.
Я не использую Acrobat Distiller. У меня стоит PDF Factory pro и опция ''downsample images to xx dpi'' у меня отключена, т.е. размер картинок остаётся таким какой он есть. derbenat использует FineReader, там размер картинок задётся.
Сейчас, насколько я понимаю, картинки сохраняются с разрешением окола 100 dpi.
Я подставляю картинки с таким разрешением, при котором картинка смотрится нормально при увелечинии 100-150%. Если что-то очень фигурное или интересное, могу оставить картинку чуть побольше. Разрешение меня абсолютно не интересует я на него не смотрю. В FineReader я поставил разрешение картинок 120 dpi, но большинство выдерал Photoshop'ом, а там уж каое разрешение получалось. Важно то в общем не разрешение, а размер картинки по пикселям. Разрешение может быть и 10 dpi, а размер по пикселям 10000х10000 (понимаешь что я имсею в виду?). Я подбирал в Photoshop размер изображения, соответствующий вышеуказанным требованиям.
Кроме того, я картинки многие поправил - они были отсканирвоаны криво (угол наклона до 1,5 градусов).
Но если всерьез будет происходить распознавание и потеря исходников, то потом что либо исправить уже будет невозможно - улучшАть будет нечего.
Вот именно поэтому я переделывал Eben Emael, сделанный derbenat'ом. Именно поэтому он и выложил исходники. Я сделал так, как меня на 100% устраивает. Если кому-то не нравится, то он волен делать такой файл сам (как сделал я). Но я считаю, что лучше (по качеству картинок) делать смысла нет.
Конечно, хорошо бы прийти к компромису, чтобы не ходело по сети 10 разных версий OCR. Но на вкус и цвет товарищей нет. Меня лично полностью устроило как derbanat сделал Warrior 49. Если он продолжит в том же духе, то и договариватся не о чем. Там было толко 2 штриха, которые я бы подправил, но они не принципиальны с точки зрния сожержания книги.
В конце концов этим занмиаемся только мы вдвоём(!), причём БОЛЬШУЮ часть делает derbenat (от меня всего 2 книги, точнее даже одна...). О чём и с кем договариваться будем?
_____________________
djvu хороший формат для остканированных картинок. И если хранить именно сканы, то я бы, конечно, предпочёл такой формат (он экономичнее чем ПДФ). Поскольку речь идёт о OCR, я однозначно за ПДФ.