Сразу хочу принести всем извенения.
Честно говоря, не хотел никого обидеть, особенно Derbenat.
С каких пор я стал "заключенным" я не знаю, (и это напоминает переход на личности), да не в ентом дело. Уже года три (а то и больше) народ в РуНете использует именно формат DjVu - у меня, как и у Msha куча книг, большинство из которых в этом формате. Лучше JPG действительно ничего нет, однако размер DjVu, в котором все "картинка" - как раз такой, как и ПДФ (оригинал).
По поводу репутации и глупости - я не вижу никакой глупости в моем посте (если это не так, то прошу в ПМ). А репутацию раньше можно было человеку добавить (и даже, по-моему, посмотреть, кто добавил и за что).
Что касается OCR его идея, как мне показалось, возникла как раз на почве уменьшения общего объема. Использование DjVu - преследует его-же.
Красивая книжка это понятие очень субъективное. Однако налицо тот факт, что при переводе в OCR - по принципу Msha исправлению (повороту, очистке) нужно подвергать только картинки, а не всю книжку. Но уменьшение разрешения картинки, а тем более неоднократное ее пережатие не может улучшить ее внешний вид, а только ухудшить.
Что касается времени.
Файл с Калкой, с распознанным в FineReader тексте, занял минут 15. При этом вручную только удалялись ненужные блоки с картинок: Для просмотра ссылки Войдиили Зарегистрируйся
Однако этот файл скорее исключение, чем показатель.
Я не в коем случае не предлагал идти именно этим путем.
Просто клич по народу, с предложением, присоединится в распознавании был уже давно, а вроде никто не торопится. Я хотел этим заняться, но делать это не ДЛЯ себя, а для ВСЕХ. Для этого, по-крайней мере мне, нужен был-бы шаблон под Ворд, со всеми стилями - это мне бы очень помогло. Я предпочитаю сначала определиться с курсом, а только потом двигаться в заданном направлении, а не наоборот.
Предыдущий мой пост планировался как ПМ, однако по размеру туда не вошел. Резкость некоторых высказываний заставляет задуматься о происходящем.
Честно говоря, не хотел никого обидеть, особенно Derbenat.
С каких пор я стал "заключенным" я не знаю, (и это напоминает переход на личности), да не в ентом дело. Уже года три (а то и больше) народ в РуНете использует именно формат DjVu - у меня, как и у Msha куча книг, большинство из которых в этом формате. Лучше JPG действительно ничего нет, однако размер DjVu, в котором все "картинка" - как раз такой, как и ПДФ (оригинал).
По поводу репутации и глупости - я не вижу никакой глупости в моем посте (если это не так, то прошу в ПМ). А репутацию раньше можно было человеку добавить (и даже, по-моему, посмотреть, кто добавил и за что).
Что касается OCR его идея, как мне показалось, возникла как раз на почве уменьшения общего объема. Использование DjVu - преследует его-же.
Красивая книжка это понятие очень субъективное. Однако налицо тот факт, что при переводе в OCR - по принципу Msha исправлению (повороту, очистке) нужно подвергать только картинки, а не всю книжку. Но уменьшение разрешения картинки, а тем более неоднократное ее пережатие не может улучшить ее внешний вид, а только ухудшить.
Что касается времени.
Файл с Калкой, с распознанным в FineReader тексте, занял минут 15. При этом вручную только удалялись ненужные блоки с картинок: Для просмотра ссылки Войди
Однако этот файл скорее исключение, чем показатель.
Я не в коем случае не предлагал идти именно этим путем.
Просто клич по народу, с предложением, присоединится в распознавании был уже давно, а вроде никто не торопится. Я хотел этим заняться, но делать это не ДЛЯ себя, а для ВСЕХ. Для этого, по-крайней мере мне, нужен был-бы шаблон под Ворд, со всеми стилями - это мне бы очень помогло. Я предпочитаю сначала определиться с курсом, а только потом двигаться в заданном направлении, а не наоборот.
Предыдущий мой пост планировался как ПМ, однако по размеру туда не вошел. Резкость некоторых высказываний заставляет задуматься о происходящем.
Последнее редактирование модератором: