Формат DjVu(ДеЖаВю)

Статус
В этой теме нельзя размещать новые ответы.

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
Подскажите мне ещё такую вещь. Как быстро и, главное, удобно поменять страницы местами в djvu документе? В djvuEditor'e я не нашёл ничего похожего, приходится хватать страницу мышкой и тащить к нужному месту. Периодически старница при этом ''срывается''. Кроме того, чтобы тащить вниз нужно всё время вести мышку вниз. В общем жутко неудобно, когда страницу надо переместить на 700 позиций вниз. А мне надо полкниги так скомпоновать.
 

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
Очередной вопрос. :). Есть ПДФ файл, в котором поверх отсканированой картинки наложен текст. Есть ли возможность перевести это в djvu сохранив OCR?
 

okun

Местный
Регистрация
3 Май 2005
Сообщения
2,042
Реакции
2,996
Credits
0
Есть, Document Express Ent.
 

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
okun, а как? Я попробовал, напрямую у меня не переводит. А если ставить галочку ''perform OCR'', то это уже получается не напрямую, а с повторным распознаванием.

---
Кстати, у меня облегчённая версия, без OCR модуля. Кто-нибудь необходимые файлы может выложить?
 

okun

Местный
Регистрация
3 Май 2005
Сообщения
2,042
Реакции
2,996
Credits
0
Msha, использую полную версию Ent.

Raster Profile - documenttodjvu (Default)
PDF Profile - Electronic PDF - Default

OCR слой в полученном djvu проверяю в djvu_Browser Plugin

Размер полного дистрибутива Ent. в архиве - 196 Мб. Размер папки IRIS_OCR в установочном каталоге - 43 Мб в архиве.

Временно ограничен в выкладывании, но на Для просмотра ссылки Войди или Зарегистрируйся вроде ссылки были.
 
Последнее редактирование модератором:

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
Полный вариант раздобыл, спасибо.

---
В облегчённой версии пробовал именно такие настройки. Выдаёт какую-то ошибку. Попробую в полной версии, если опять будет ошибка напишу.
 

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
okun написал(а):
Raster Profile - documenttodjvu (Default)
PDF Profile - Electronic PDF - Default

OCR слой в полученном djvu проверяю в djvu_Browser Plugin

Вот так и сделал. Галочку напротив OCR не ставил. Документ получился без OCR.

И самое главное, такое впечатление будто программа его пережимает не как черно-белое изображение. а там ч/б. Если поставить именно ч/б профиль, то пережимается раз в 10 где-то. А с профилем documenttodjvu получается тот же самый размер.

Вот файл над которым я ломаю голову:

Для просмотра ссылки Войди или Зарегистрируйся

точнее это фрагмент на 500 кб.

---
Можно ли как-то заставить программу использовать для временных файлов не системный диск? Проблемы со свободным местом, а книжка на 900 страниц...
 
Последнее редактирование модератором:

okun

Местный
Регистрация
3 Май 2005
Сообщения
2,042
Реакции
2,996
Credits
0
По накатонному пути тоже ничего не вышло. Начал "копать".

Вот выдержка из раздела справки Ent:
PDFtoDjVu Known Issues
Text from OCR Layer Not Readable
PDF documents that contain text extracted from an OCR layer can not expose this text to the current version of pdftodjvu. No text is extracted. However, the hidden text layer can easily be regenerated in DjVu using djvujoin or djvubundle (standard tools in DocumentExpress Enterprise Edition) with the ocr option.
И действительно - установив галку OCR, в полученном djvu текст появился.

Далее опытном путем выяснилось:
не сохраняется слой OCR при кодировке в djvu у тех документов pdf, у которых текст расположен ПОД изображением. У тех где НАД, всё нормально. Как поменять такой порядок размещения в документе pdf, не выяснил.

Далее, даже если текст расположен в pdf ПОД изображением, можно его сделать видимым в djvu путем установки его заливки черным (или любым) цветом (свойства текста-кнопка Заливка). По умолчанию на кнопке стоит знак вопроса. Но текст при этом начинает немного двоиться. Пока всё.

По поводу Временных папок - попробуй все переменные Temp (и пользовательские и системные) перенаправить на другой раздел, ну и файл подкачки тоже. Или разбить исходный pdf на несколько файлов и перекодировать их в djvu по-отдельности, собрав потом в единый файл.
 
Последнее редактирование модератором:
  • Like
Реакции: Msha

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
Далее, даже если текст расположен в pdf ПОД изображением, можно его сделать видимым в djvu путем установки его заливки черным (или любым) цветом (свойства текста-кнопка Заливка). По умолчанию на кнопке стоит знак вопроса. Но текст при этом начинает немного двоиться. Пока всё.

Т.е. в исходном ПДф файле я заливаю текст чёрным и затем спокойно конвертирую в djvu?
 

okun

Местный
Регистрация
3 Май 2005
Сообщения
2,042
Реакции
2,996
Credits
0
Msha написал(а):
Т.е. в исходном ПДф файле я заливаю текст чёрным и затем спокойно конвертирую в djvu?

Да, такую заливку можно сделать в Adobe Acrobat, но тут начинается двоение текста, получается, что слой "заливаемого" текста становится на место текста, который расположен НАД изображением - отсюда и двоение (два слоя текста НАД и ПОД). Но, вроде нашел способ как от этого избавиться :) По крайней мере в представленном файле.

Открываем исходный pdf в Acrobat, Меню Просмотр->Вкладки навигации->Содержимое. На вкладке Содержимое раскрываем Страницу, выделяем объект Текст и в его свойствах ставим заливку черным цветом. Далее на вкладке Содержимое удаляем Путь доступа и получаем на выходе чистый текст без слоя Изображения. Такой файл легко кодируется в djvu с сохранением OCR.

Вобщем, думаю надо детально изучить вопрос о составляющих Содержимое PDF документа. Работа со слоями текста и изображения, пути доступа и т.д.
 

Vadimir

Местный
Регистрация
8 Дек 2004
Сообщения
56
Реакции
15
Credits
58
Msha
Очередной вопрос. . Есть ПДФ файл, в котором поверх отсканированой картинки наложен текст. Есть ли возможность перевести это в djvu сохранив OCR?
А может не напрямую, старым дедовским способом? Перераспознать в ФР 7,0 и утилитой от Генчо вставить в djvuку. Все же в автоматическом режиме, запустил и делай дела. Потом (если часто придется такое делать), есть так называемый конвейр (набор скриптов), который заточен на такие дела, но я про него только краем уха слышал, но народ активно пользуется.
 

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
Я вопрос решил просто распознав по новой в Documents Express. Не охота было долго возится, да и получилось вполне приемлемо - скан хороший, текст распознался вполне нормально.

Вот появилось у меня пара книг, найти вариантов нормальных мне не удалось, только громадные сканы. Думаю их выложить, может у кого получится привести их в нормальный вид ).

Вот одна книга:

Для просмотра ссылки Войди или Зарегистрируйся 28.37 MB
Для просмотра ссылки Войди или Зарегистрируйся 28.28 MB
Для просмотра ссылки Войди или Зарегистрируйся 28.40 MB
(картинки в формате tiff g4, 600 dpi)

"Munson B.R., Young D.F., Okiishi T.H. Instructor's Manual to Accompany Fluid Mechanics 4th ed."

Wiley, 2001
1305s

У меня при сжатии в djvu в таком разрешении книга получается размером 56 Мб, многова-то. Сделал в 300 dpi - плучил 28 Мб. Может я чего-то не так делал, если у кого получится картинки в 600 dpi сжать посильнее, было бы здорово.

Для просмотра ссылки Войди или Зарегистрируйся 28.99 MB

вот что получилось у меня (300 dpi)

---
Над второй книгой сейчас издеваюсь. :).
 
Последнее редактирование модератором:

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
Для просмотра ссылки Войди или Зарегистрируйся 15.68 MB
Для просмотра ссылки Войди или Зарегистрируйся 47.68 MB
Для просмотра ссылки Войди или Зарегистрируйся 47.68 MB
Для просмотра ссылки Войди или Зарегистрируйся 47.68 MB

Horowitz, Hill. The Art Of Electronics

В книге около 1100 страниц, скан серый, судя по всему файл собран из jpeg, разрешение 600 dpi. Книга в неплохом виде, но уменя собранный djvu файл смтрится не очень...
 

e-lena

Турист
Регистрация
1 Окт 2006
Сообщения
5
Реакции
0
Credits
0
Мне очень нравится этот формат, сама часто им пользуюсь. Сканирую разные книги-журналы. Очень маленькие файлы получаются по сравнению с Jpeg.
 

RainMan2704

Турист
Регистрация
8 Июл 2005
Сообщения
15
Реакции
1
Credits
24
вопрос: а в windjvu поиск нормально работает?
 
Статус
В этой теме нельзя размещать новые ответы.

Похожие темы