Формат DjVu(ДеЖаВю)

Статус
В этой теме нельзя размещать новые ответы.

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
Document Express Enterprise всё равно что-то плющит :(.

---
Нужен совет ...

Есть вот такая страница:
Для просмотра ссылки Войди или Зарегистрируйся (480 Кб)

При кодировании в DjvuEditor получается вот такой чёрно-белый вариант:
Для просмотра ссылки Войди или Зарегистрируйся 0.03 MB

А как бы мне изменить порог чёрно-белого изображения? Прикодировании серые цвета урезаются слишком сильно и буквы становятся тонкими и плохо разборчивыми. Что хдесь можно сделать?
 
Последнее редактирование модератором:

karpinskiy1

Местный
Регистрация
23 Фев 2004
Сообщения
283
Реакции
96
Credits
1
Msha, вся беда, по-моему, в том, что изначально рисунок серый, а кодируется в черно-белый DJVU.
Я пробовал конвертить твою страницу программой Document Express Editor 50016 lite-версией (обрезана, работает без установки, ocr нет, весит 6 мб).
Если конвертить в серый DJVU, то появляется размытость на тексте (обычный глюк DJVU при работе с серыми и цветными картинками).
Если конвертировать в черно-белый DJVU получается как и у тебя (чуть получше), немного повысить качество позволяет установка наивысшего качества (без потерь). Сам кодировщик не сможет качественно закодировать этот файл.
Нужно вначале каким нибудь редактором (Photoshop пойдет, пакетной обработкой) перевести серые страницы в черно-белые, при этом выставить необходимый порог. А уже потом кодировать в DJVU.
Я, например, сразу сканирую в черно-белый вариант, просто вначале сканирую несколько пробных страниц на которых отрабатываю порого яркости. Но многие в интернете советуют сканировать именно в градациях серого цвета, а потом уже переводить в черно-белый.
Кстати, кроме фотошопа, для этого подойдут специальные программы для обработки сканов. Допустим, ScanKromsator, там куча всего есть, позволяет и очистить сканы от мусора, выровнять страницы и перевести в черно-белый вариант (порог преобразования там тоже устанавливается).
 
Последнее редактирование модератором:
  • Like
Реакции: Msha

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
karpinskiy1 написал(а):
вся беда, по-моему, в том, что изначально рисунок серый, а кодируется в черно-белый DJVU.

Именно в этом и беда :(. Но у меня другого исходника нет. Попробую прогармму которую ты посоветовал. Я думал про Фотошоп, но в 6й версии, котторая у меня стоит нет возможности (я не нашёл) произвести пакетную обработку по собственному сценарию. И установку порога я там не нашёл...
 
Последнее редактирование модератором:

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
Vadimir написал(а):
закодировать, не забыв выставить словарь для кодирования на все 1600 страниц (экономия в 30% гарантированна).

А это не скажется на скорости загрузки документа? Поропбовал выставить словарь на 779 страниц (книгу кодировал с 779 страницами), пыхтело 3 часа, своп съел почти 1Гб, файл открывается и подгружается неск. секунд.
 
Последнее редактирование модератором:

karpinskiy1

Местный
Регистрация
23 Фев 2004
Сообщения
283
Реакции
96
Credits
1
Msha написал(а):
Попробую прогармму которую ты посоветовал. Я думал про Фотошоп, но в 6й версии, котторая у меня стоит нет возможности (я не нашёл) произвести пакетную обработку по собственному сценарию. И установку порога я там не нашёл...
Вроде и там (в 6-ой версии) это уже можно было сделать. Хотя правильно, лучше ScanKromsator использовать: работает без установки, небольшой по размеру, на различных форумах в сети уже много рекомендаций по работе с ним появилось (у него интерфейс англоязычный, а функций много, по-началу это вызывает затруднение).
 

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
Я уже затруднился. Но я нашёл как в Documents Express выставить порог ч/б изображения. Получается вполне нормально :). Осталось раздобыть 30Гб свободжного места, чобы книгу на tiff'ы разложить ))
 

Vadimir

Местный
Регистрация
8 Дек 2004
Сообщения
56
Реакции
15
Credits
58
Msha
А это не скажется на скорости загрузки документа?
Скажется, но заметно будет только на древних компах, и как мне кажется, загрузив один раз словарь, при листании не будет пауз, как если бы подгружался новый словарь.
Поропбовал выставить словарь на 779 страниц
Вроде бы Document Express Enterprise должен справится, не понимаю, почему он не идет у Вас.
Вот попробовал, на скорую руку, обработать страничку. Размер великоват получился, но тут надо возится.
Для просмотра ссылки Войди или Зарегистрируйся
Вообще то странно, исходник в 600 dpi, но такая гадость. Обычно, при сканировании в 300 dpi в серых тонах, получается очень неплохой результат.
 
Последнее редактирование модератором:

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
Vadimir написал(а):
Вроде бы Document Express Enterprise должен справится, не понимаю, почему он не идет у Вас.

Да нет, Вы не поняли. Всё идёт, просто процесс длился очень долго, а получившийся файл при открытии загружался несколько секунд. Я поковырялся в настройках и удалось добится лучшего результата.


Vadimir написал(а):
Вот попробовал, на скорую руку, обработать страничку. Размер великоват получился, но тут надо возится

А с какими настройкми и какой профиль вы использовали? У меня получилось близко к этому, но всё же немного хуже.
 

Vadimir

Местный
Регистрация
8 Дек 2004
Сообщения
56
Реакции
15
Credits
58
Во первых про число страниц на словарь. Я тут конечно проявил экстремизм. Как правило достаточно один словарь на 200 стр., дальнейшее увеличение даст, в лучшем случае, только несколько процентов выигрыша в размере, зато кодироваться будет действительно пёс знает сколько времени. Но бещанное мною уменьшение размера файла на 30% обычно бывает на хороших сканах, на таком паршивом повторяемость символов будет мала, соответственно и результат будет похуже.
Насчет этой странички. Посмотрел ее внимательно, заодно заглянул в её EXIF, стало все ясно. Т.е. это как всегда был серый скан на 150 dpi, к томуже пожатый в jpeg, загнанный в pdf (не понимаю лбдей которые это делают, вроде время тратят. сканируют, что бы сделать такое г...?) Потом этот pdf раскодировали через ghost printer с повышением dpi аж до 600!
Может конечно есть кудесники, мастера в любом деле существуют, которые могут сделать из этого что-то приличное, но стандартными средствами вряд ли.
А страничку я обработал сканкромсатором.
Методика изложена, правда корявым языком, зато в картинках Для просмотра ссылки Войди или Зарегистрируйся.
 

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
Vadimir,

1) Я тоже не сидел сложа руки и поэкспериментировав решил остановится примерно на такой же цифре. Если поставить все 779, то файл при загрузке подтормаживает, хотя комп. у меня не слабый. Это не сильно принципиально, но напрягает. Уменьшение размера файла действительно заметил, причём если словарь на 50 страниц, то размер 11.500.000, а если на все 779, то 10.052.000 . Разница приличная, уместно поискать оптимум. При 200 страницах подтрмаживает только в сам момент загрузки, на этом количестве я и остановлюсь.

2) Страничка которую я тут представил - из скачанной мной книги (это не я её так уродовал! :)). Я получил примерно такой же резуьтат, не обрабатывая страницу, а просто установиви в DEE порог чёрно-белого изображения где-то 190. Не думаю что стоит тратить время на дополнительную обработку. Хорошо что вы мне подсказали на счёт разрешения (150 dpi), а то я выдирал поставив аж 600, т.к. пока ещё не очень хорошо ориентируюсь во всём этом.

Стоит ли, если исходник имеет 150 dpi повышать разрешение. Даст ли это какой-то результат? Форму букв это не улучшит, понятно, но может хоть как-то на визуальные ощущения повлияет? Или бесполезно?
 
Последнее редактирование модератором:

Vadimir

Местный
Регистрация
8 Дек 2004
Сообщения
56
Реакции
15
Credits
58
Про 150 dpi это на глаз, может там целых 200 :).
По моему скромному опыту, повышать разрешение все таки нужно, но с обработкой, например в кромсаторе, визуально становится несколько лучше.
Да кстати, можно все таки примерно узнать (может у Вас есть инфа), кто же гонит этот ужасный вал 100 метровых pdfефов? В чем сермяга этого? Может мужики не в курсе :)?
 
Последнее редактирование модератором:

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
Скачивал из ослосети. Редкостный случай когда не удалось найти нормального варианта в djvu. Вот другую книгу я вполне успешно переделал - там был очень качественный чёрно-белый скан. А это что-то страшное, паршивый скан.
 

karpinskiy1

Местный
Регистрация
23 Фев 2004
Сообщения
283
Реакции
96
Credits
1
Vadimir написал(а):
Да кстати, можно все таки примерно узнать (может у Вас есть инфа), кто же гонит этот ужасный вал 100 метровых pdfефов? В чем сермяга этого? Может мужики не в курсе ?
По-моему, все это распространяет медиго, похоже там главное не качество, а количество. С другой стороны, никто больше таких объемов своих сканов в сети еще не выдает. Есть к чему стремиться. Но только не к таким размерам файлов.
 

okun

Местный
Регистрация
3 Май 2005
Сообщения
2,042
Реакции
2,996
Credits
0
Msha, для оптимизации страниц в pdf, посмотри также на Adobe Acrobat 7.xx. Меню Инструменты->Допечатная подготовка.
Кроме представленных там возможностей есть пункт "Оптимизация pdf" и далее "Отсканированные страницы". Поиграйся с фильтрами...
 
Статус
В этой теме нельзя размещать новые ответы.

Похожие темы