to OCR or not to OCR

C

cwiz

Многоуважаемый all, предлагаю отказаться от OCR.
Дело в том, что отсканировать средний томик в грейскейле в р-ии 300dpi занимает не больше полутора часов. А вот OCR'ить гораздо сложнее — велико число ошибок разпознавателя, чтобы от них избавиться приходится делать по 2-3 прохода. Врему уходит на очистку от артефактов, следов пылинов и т.д.
Так вот, предлагаю отказаться от OCR'а в пользу png или djvu. Вы тратите меньшн времени, нам удобее и легче читать. Те кому книга понравится могут сделать КАЧЕСТВЕННЫЙ OCR и поделиться с нами. Посмотри на всякие DDU, LiB — они выкладывают либо полный, хороший OCR книжек, либо вообще книги без OCR. До качественного OCR'a русского текста требуется много опыта и времени, что врядли выполнимо. Итак, кто за отмену OCR'a в пользу DJVU, png, etc?
 
A

Ashcraft

Не согласен насчет "нам удобнее и легче читать". Я лично большинство закачиваемых книг читаю с КПК. Читать на КПК image-based форматы (djvu, png иже с ним) невозможно (теоретически, конечно, возможно, но чертовски геморройно). Если же читаю на компьютере, то чтение при помощи, скажем, ICE book reader с включенной автопрокруткой все равно удобнее, чем перевигать страницу мышой.

P.S. Все сугубо IMHO
 
C

cwiz

Зато не придётся догадываться что имелось ввиду из-за кривого Ocr.
Вобщем-то есть 2 вариант : или хорший Ocr или вообще без оного.
 
E

Egoizte

cwiz написал(а):
...или хорший Ocr или вообще без оного.
Правильно, меня например очень раздражает когда в тексте много ошибок, а вот хороший OCR сделать непросто, придется поработать.
 

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
Ну я лично предпочёл бы подождать лишнее время, но получить в итоге книгу с хорошим OCR. Дело в том, что djvu это хорошо, но поскольку это картинки, то текст не скопируешь - надо самому страницу выдирать и распознавать. А часто (если научную литературу изучаешь) требуется именно скопировать кусок текста или картинку.
И вообще, очень раздражает, когда отсканированные листы идут под разным углом. То с наклоном влево, то вправо.

Да и распечатывать текст (из pdf, chm) гораздо удобнее и на листе выглядит лучше (я часто книги распечатываю)
 

Brainman

Турист
Регистрация
2 Ноя 2004
Сообщения
142
Реакции
2
Credits
0
Msha написал(а):
И вообще, очень раздражает, когда отсканированные листы идут под разным углом. То с наклоном влево, то вправо.
Вообще-то это проблема не формата хранения данных, а проблема изготовителя скана ;) (сам иногда делал криво, пока не познакомился со Scankromsator'ом). Что касается копирования текста, для его дальнейшей вставки, так такая же проблема и с pdf - там текст тоже в виде картинок. Кстати, никто не мешает к djvu добавлять вторым слоем OCR, тогда проблем с копированием текста не возникает, а возможные неточности OCR можно исправить - ведь оригинальный текст перед глазами :)
 

Meshuger

Местный
Регистрация
8 Дек 2004
Сообщения
181
Реакции
30
Credits
138
Brainman написал(а):
Что касается копирования текста, для его дальнейшей вставки, так такая же проблема и с pdf - там текст тоже в виде картинок.
Эт только в плохих pdf. В нормальных - текст в формате текста, картинки - в формате картинок. (Чем и ценятся) Так что все (как обычно) зависит от компетентности изготовителя.
 

Msha

ex-Team DUMPz
Свой
Регистрация
12 Окт 2004
Сообщения
7,116
Реакции
2,559
Credits
0
Вообще-то это проблема не формата хранения данных, а проблема изготовителя скана (сам иногда делал криво, пока не познакомился со Scankromsator'ом). Что касается копирования текста, для его дальнейшей вставки, так такая же проблема и с pdf - там текст тоже в виде картинок. Кстати, никто не мешает к djvu добавлять вторым слоем OCR, тогда проблем с копированием текста не возникает, а возможные неточности OCR можно исправить - ведь оригинальный текст перед глазами

Ну я понимаю, что это не проблема формата. Но к сожалению мало кто сканирует каечственно и следит за углом, под которым располагается книга.

Если делать в два слоя, то, как я понимаю один накладывается на другой. причём в оригинальном тексте интервал и размер шрифта одни, а в распознаном другой. Это ещё больший геморой, чем просто распознать и проверить.

PDF-формат вообще-то также может содержать и текст. В него картинки запихивать не целесообразно, они меньше места занимают в DjVu. А вот текст, наоборот.
 

Baka

Турист
Регистрация
17 Ноя 2004
Сообщения
8
Реакции
0
Credits
4
Msha написал(а):
Ну я понимаю, что это не проблема формата. Но к сожалению мало кто сканирует каечственно и следит за углом, под которым располагается книга.

Если делать в два слоя, то, как я понимаю один накладывается на другой. причём в оригинальном тексте интервал и размер шрифта одни, а в распознаном другой. Это ещё больший геморой, чем просто распознать и проверить.

PDF-формат вообще-то также может содержать и текст. В него картинки запихивать не целесообразно, они меньше места занимают в DjVu. А вот текст, наоборот.

Вообще-то djvu, содержащий OCR слой с виду ничем не отличается от обычного, просто текст есть - для поиска, и когда найдено слово выделяется фрагмент страницы, содержащий это слово. А если печатать, то либо пофигу, что страницы немного под разными углами, либо проще самому через skancromsator прогнать выделенные страницы.
 

Brainman

Турист
Регистрация
2 Ноя 2004
Сообщения
142
Реакции
2
Credits
0
Meshuger
Эт только в плохих pdf. В нормальных - текст в формате текста
Вот и опять пришли к тому же - к качественному OCR. Ведь текст там не сам появляется ;)


Msha
Если делать в два слоя, то, как я понимаю один накладывается на другой. причём в оригинальном тексте интервал и размер шрифта одни, а в распознаном другой. Это ещё больший геморой, чем просто распознать и проверить.
Если распознавание тескта проводится FineReader'ом, и если текст потом в скане не править, то расположение будет один к одному. (Проверено на FineReader версии 7.0, про другие не скажу - не пробовал).
 
Последнее редактирование модератором:

Meshuger

Местный
Регистрация
8 Дек 2004
Сообщения
181
Реакции
30
Credits
138
Brainman написал(а):
Вот и опять пришли к тому же - к качественному OCR. Ведь текст там не сам появляется ;)
Всеми руками за! Качество и еще раз качество! Я и бОльше скажу - вообще мало что самО появляется! всюду надо руки/голову приложить, чтобы нечто пУтное получилось.
 
S

Shish

А проблема, ребята, совсем в другом - надо просто общими усилиями (а нас -компьютерщиков - скоро станет почти миллиард) постепенно переводить ВСЁ культурное достояние человечества в цифровую форму. Что-то будет сделано лучше, что-то хуже, но специфика ИТ, в отличии от старых технологий, заключается в том, что позволяет вносить изменения на любом этапе. Сравните обычную пишущую машинку и самый примитивный текстовый редактор. А уж о мультиедийных средах я и не говорю, когда на одном носителе можно записать ВСЕ виды инфформации.
 

Yoxel

Местный
Регистрация
11 Авг 2005
Сообщения
44
Реакции
25
Credits
66
Для меня OCR имеет смысл, если конечно абстрагироваться от размера файла, для литературы, с которой нужно РАБОТАТЬ а не ЧИТАТЬ. Например для справочной литературы, энциклопедий и т.д.
Для простого чтения мне формат абсолютно ортогонален.