Формат DjVu(ДеЖаВю)

Статус
Закрыто для дальнейших ответов.

Vadimir

Member
Регистрация
08.12.2004
Сообщения
56
Реакции
13
Баллы
8
Подробная полная пошаговая интсрукция по созданию научно-технических книг (т.е. бумажный оригинал в ч/б) в djvu формате от сканирования до кодирования, с получением качественного результата:
hззp://rapidshare.de/files/20037796/ScanAndShare1.03.rar.html
Только важно выполнять все пункты, попробуйте отсканировать 3-4 разворта и обработать по данной методе, может Вам понравится.
 

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
У меня 2 вопроса возникло.

1) Можно ли в готовом djvu документе поменять местами станицы? Скачал книгу, а в ней некоторые страницы перепутаны местами. В книги присутствует OCR, поэтому просто разобрать на картинки и собрать обратно это не выход.

2)
Ital сказал(а):
у кого вопросы по Djvu идём сюда

Djvu to PDF
PDF-to-DjVu Command Line Encoder v3.6.100

На этой странице находится информация о том, как скачать и получить PDF-to-DjVu Command Line Encoder v3.6.100. Вот пошаговая инструкция:

Протестировано на работоспособность под Windows98 и Windows2000.

1. Скачать и распаковать файл uncarer.rar (101 КБ).__http://dstu2204.narod.ru/doc/djvu/uncarer.rar__

2. Скачать все эти файлы:

cars.cnk (3,24 МБ)__http://www.dstu2204ex.narod.ru/cnk1/cars.cnk__

trucks.cnk (3,39 МБ)__http://www.dstu2204ex.narod.ru/cnk1/trucks.cnk__

3. Поместить все скаченные файлы в одну папку и запустить файл "uncarer.exe".

4. Подождать минуту.

У меня имеется PDF файл, в котором поверх скана наложен текст. (наложен довольно криво, но не суть). При перегонкив djvu, описанным выше способом, у меня сохранится OCR или нет?

Кстати, нельзя ли ссылки обновить? :).
 
Последнее редактирование модератором:

okun

Well-known member
Свой / Own
Регистрация
03.05.2005
Сообщения
2 045
Реакции
2 975
Баллы
113
Местоположение
evergreen forest (wonderland)
Msha сказал(а):
1) Можно ли в готовом djvu документе поменять местами станицы? Скачал книгу, а в ней некоторые страницы перепутаны местами. В книги присутствует OCR, поэтому просто разобрать на картинки и собрать обратно это не выход.

В программе DjVuEditor Pro 4.01 страницы можно копировать и вставлять как до, так и после нужной страницы, а ненужные удалять.

Msha сказал(а):
У меня имеется PDF файл, в котором поверх скана наложен текст. (наложен довольно криво, но не суть). При перегонкив djvu, описанным выше способом, у меня сохранится OCR или нет?
Описанным способом проверить не могу (требует License), но при перегонке pdf в djvu программой Document Express Enterprise OCR текст сохраняется.
 

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
DjVuEditor Pro проверил, всё в порядке. Только при вырезании и последующей вставке размер файла увеличивается. А вот если страницу переместить (перетащив мышкой) то размер документа почти не меняется. Дело в том, что удалять мне не надо. Мне надо только поменять местами. Не сразу там нашёл как это сделать. В опциях нет, а мшкой перетащить можно :).
 

maximkan

New member
Регистрация
23.08.2004
Сообщения
9
Реакции
0
Баллы
1
Возраст
48
Местоположение
г. Красноярск
Скан он и есть скан, отсутствует поиск как в PDF? хотя простой и не тяжелый
-----
- maximkan все это похоже на набор постов, очень много простых односложных ответов, не несущих при этом особой смысловой нагрузки. И все посты за 26.05.06. Поосторожнее с этим, а то накажу. Читайте правила форума.
karpinskiy1
-----
 
Последнее редактирование модератором:

karpinskiy1

Active member
Регистрация
23.02.2004
Сообщения
283
Реакции
89
Баллы
28
Возраст
45
maximkan сказал(а):
Скан он и есть скан, отсутствует поиск как в PDF? хотя простой и не тяжелый

Вы отвечаете, а сами не совсем разобрались в этом формате, вернее совсем не разобрались.
В DJVU как и в PDF может быть поиск по тексту, но если только там наложен (внедрен) текстовый слой поверх сканов. В PDF, в свою очередь, тоже может отсутствовать поиск по тексту, так как много PDF файлов получает просто из нераспознанных картинок.
 

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
А что кто-нибудь поможет с конвертером pdf -> djvu? у меня скан есть в PDF, хочу зажать его слегка в djvu.
 

Ognev

ex-Team DUMPz
Свой / Own
Регистрация
20.08.2004
Сообщения
2 102
Реакции
902
Баллы
113
Возраст
25
Местоположение
В караганде
Msha,
я пробовал с налету делать двумя способами:
1) Утилитой pdftodjvu -- она у меня не пошла, возможно из-за того, что уже стоял Ghostscript, который ему нужен для работы.
2) Принтером дежавюшным -- размер получился еще больше, чем в pdf-ке, правда я его (принтер) не настраивал.
Так что, если у тебя есть время с этим разбираться, можешь пойти по этим путям. Если что получится, то не забудь рассказать! :)
 

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Да я вот думаю о той утилитке, которая здесь выкладывалась. Что-то мне в и-нете ничего нормального (или полно-комплектного) не попадается.

Я могу разобрать файл ПДФ на картинки,а потом собрать в djvu при помощи djvuditor'a, но это изврат - в файле 1600 страниц... Я хочу сказать, удобне ебыло бы сразу напрямую сконвертировать.
 
Последнее редактирование модератором:

Vadimir

Member
Регистрация
08.12.2004
Сообщения
56
Реакции
13
Баллы
8
Для кодирования в djvu лучше чем Document Express Enterprise пожалуй нет. В сети есть облегченная, взломанная версия 5.1, весом около 20 мб.
Да ну, какой это изврат, одной утилитой (или акроботом) перегнать в тифы, а с помощью DEE закодировать, не забыв выставить словарь для кодирования на все 1600 страниц (экономия в 30% гарантированна). Ручных делов на 2 минуты, остальное время компьютер пыхтит.
Да, наверняка в этом пэдээфе не очень хороший скан, так что и постобработочку бы не плохо сделать, ну это так, мечтания :).
 

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Vadimir вот если бы я мог Акробатом на tiff'ы разложить, я бы тут не распинался. А пока у меня нет возможности акробат поставить. Скан, кстати, очень хорошего качества. Всё что мне надо это перегнать его в djvu. Утилиток для раскладки на tiff'ы полно, только нужна полная версия. Найти вроде бы тоже не проблема, но что-то времени на такие поиски не хватает. А здесь предлагался очень простой вариант, вот только ссылки сдохли :(.

Document Express Enterprise это хорошо но я не нашёл полной версии.
 

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Document Express поставил. Принтер добавился. Полез в его настройки - а он почему-то путь найти куда утсановился не может. Прописал путь по короче - нашёл, но толку никакого - версия не ломаная не работает... Вроде что где подправить описание есть, но я по указанному адресу ничего похожего не нашёл )). В общем заломало меня разбираться что к чему, я пропбовал упомянутый Ghostscript. Раскладывает ПДФ на tiff'ы очень хорошо, мне понравилось. Ну а дальше я уж djvueditor'ом как-нибудь djvu файл сделаю.


DJVU Image (5100x6600, 600 dpi) version 25:

0.0 Kb 'INFO' Page information.
0.0 Kb 'CIDa' Unrecognized chunk.
0.0 Kb 'INCL' Indirection chunk (page010_0001.djbz).
1.7 Kb 'Sjbz' JB2 foreground mask (5100x6600, 600 dpi).

Compression ratio: 55060 (1.8 Kb)

:D
 
Последнее редактирование модератором:

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Document Express Enterprise всё равно что-то плющит :(.

---
Нужен совет ...

Есть вот такая страница:
(480 Кб)

При кодировании в DjvuEditor получается вот такой чёрно-белый вариант:
0.03 MB

А как бы мне изменить порог чёрно-белого изображения? Прикодировании серые цвета урезаются слишком сильно и буквы становятся тонкими и плохо разборчивыми. Что хдесь можно сделать?
 
Последнее редактирование модератором:

karpinskiy1

Active member
Регистрация
23.02.2004
Сообщения
283
Реакции
89
Баллы
28
Возраст
45
Msha, вся беда, по-моему, в том, что изначально рисунок серый, а кодируется в черно-белый DJVU.
Я пробовал конвертить твою страницу программой Document Express Editor 50016 lite-версией (обрезана, работает без установки, ocr нет, весит 6 мб).
Если конвертить в серый DJVU, то появляется размытость на тексте (обычный глюк DJVU при работе с серыми и цветными картинками).
Если конвертировать в черно-белый DJVU получается как и у тебя (чуть получше), немного повысить качество позволяет установка наивысшего качества (без потерь). Сам кодировщик не сможет качественно закодировать этот файл.
Нужно вначале каким нибудь редактором (Photoshop пойдет, пакетной обработкой) перевести серые страницы в черно-белые, при этом выставить необходимый порог. А уже потом кодировать в DJVU.
Я, например, сразу сканирую в черно-белый вариант, просто вначале сканирую несколько пробных страниц на которых отрабатываю порого яркости. Но многие в интернете советуют сканировать именно в градациях серого цвета, а потом уже переводить в черно-белый.
Кстати, кроме фотошопа, для этого подойдут специальные программы для обработки сканов. Допустим, ScanKromsator, там куча всего есть, позволяет и очистить сканы от мусора, выровнять страницы и перевести в черно-белый вариант (порог преобразования там тоже устанавливается).
 
Последнее редактирование модератором:
  • Like
Реакции: Msha

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
karpinskiy1 сказал(а):
вся беда, по-моему, в том, что изначально рисунок серый, а кодируется в черно-белый DJVU.

Именно в этом и беда :(. Но у меня другого исходника нет. Попробую прогармму которую ты посоветовал. Я думал про Фотошоп, но в 6й версии, котторая у меня стоит нет возможности (я не нашёл) произвести пакетную обработку по собственному сценарию. И установку порога я там не нашёл...
 
Последнее редактирование модератором:

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Vadimir сказал(а):
закодировать, не забыв выставить словарь для кодирования на все 1600 страниц (экономия в 30% гарантированна).

А это не скажется на скорости загрузки документа? Поропбовал выставить словарь на 779 страниц (книгу кодировал с 779 страницами), пыхтело 3 часа, своп съел почти 1Гб, файл открывается и подгружается неск. секунд.
 
Последнее редактирование модератором:

karpinskiy1

Active member
Регистрация
23.02.2004
Сообщения
283
Реакции
89
Баллы
28
Возраст
45
Msha сказал(а):
Попробую прогармму которую ты посоветовал. Я думал про Фотошоп, но в 6й версии, котторая у меня стоит нет возможности (я не нашёл) произвести пакетную обработку по собственному сценарию. И установку порога я там не нашёл...
Вроде и там (в 6-ой версии) это уже можно было сделать. Хотя правильно, лучше ScanKromsator использовать: работает без установки, небольшой по размеру, на различных форумах в сети уже много рекомендаций по работе с ним появилось (у него интерфейс англоязычный, а функций много, по-началу это вызывает затруднение).
 

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Я уже затруднился. Но я нашёл как в Documents Express выставить порог ч/б изображения. Получается вполне нормально :). Осталось раздобыть 30Гб свободжного места, чобы книгу на tiff'ы разложить ))
 

Vadimir

Member
Регистрация
08.12.2004
Сообщения
56
Реакции
13
Баллы
8
Msha
А это не скажется на скорости загрузки документа?
Скажется, но заметно будет только на древних компах, и как мне кажется, загрузив один раз словарь, при листании не будет пауз, как если бы подгружался новый словарь.
Поропбовал выставить словарь на 779 страниц
Вроде бы Document Express Enterprise должен справится, не понимаю, почему он не идет у Вас.
Вот попробовал, на скорую руку, обработать страничку. Размер великоват получился, но тут надо возится.

Вообще то странно, исходник в 600 dpi, но такая гадость. Обычно, при сканировании в 300 dpi в серых тонах, получается очень неплохой результат.
 
Последнее редактирование модератором:

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Vadimir сказал(а):
Вроде бы Document Express Enterprise должен справится, не понимаю, почему он не идет у Вас.

Да нет, Вы не поняли. Всё идёт, просто процесс длился очень долго, а получившийся файл при открытии загружался несколько секунд. Я поковырялся в настройках и удалось добится лучшего результата.


Vadimir сказал(а):
Вот попробовал, на скорую руку, обработать страничку. Размер великоват получился, но тут надо возится

А с какими настройкми и какой профиль вы использовали? У меня получилось близко к этому, но всё же немного хуже.
 

Vadimir

Member
Регистрация
08.12.2004
Сообщения
56
Реакции
13
Баллы
8
Во первых про число страниц на словарь. Я тут конечно проявил экстремизм. Как правило достаточно один словарь на 200 стр., дальнейшее увеличение даст, в лучшем случае, только несколько процентов выигрыша в размере, зато кодироваться будет действительно пёс знает сколько времени. Но бещанное мною уменьшение размера файла на 30% обычно бывает на хороших сканах, на таком паршивом повторяемость символов будет мала, соответственно и результат будет похуже.
Насчет этой странички. Посмотрел ее внимательно, заодно заглянул в её EXIF, стало все ясно. Т.е. это как всегда был серый скан на 150 dpi, к томуже пожатый в jpeg, загнанный в pdf (не понимаю лбдей которые это делают, вроде время тратят. сканируют, что бы сделать такое г...?) Потом этот pdf раскодировали через ghost printer с повышением dpi аж до 600!
Может конечно есть кудесники, мастера в любом деле существуют, которые могут сделать из этого что-то приличное, но стандартными средствами вряд ли.
А страничку я обработал сканкромсатором.
Методика изложена, правда корявым языком, зато в картинках .
 

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Vadimir,

1) Я тоже не сидел сложа руки и поэкспериментировав решил остановится примерно на такой же цифре. Если поставить все 779, то файл при загрузке подтормаживает, хотя комп. у меня не слабый. Это не сильно принципиально, но напрягает. Уменьшение размера файла действительно заметил, причём если словарь на 50 страниц, то размер 11.500.000, а если на все 779, то 10.052.000 . Разница приличная, уместно поискать оптимум. При 200 страницах подтрмаживает только в сам момент загрузки, на этом количестве я и остановлюсь.

2) Страничка которую я тут представил - из скачанной мной книги (это не я её так уродовал! :)). Я получил примерно такой же резуьтат, не обрабатывая страницу, а просто установиви в DEE порог чёрно-белого изображения где-то 190. Не думаю что стоит тратить время на дополнительную обработку. Хорошо что вы мне подсказали на счёт разрешения (150 dpi), а то я выдирал поставив аж 600, т.к. пока ещё не очень хорошо ориентируюсь во всём этом.

Стоит ли, если исходник имеет 150 dpi повышать разрешение. Даст ли это какой-то результат? Форму букв это не улучшит, понятно, но может хоть как-то на визуальные ощущения повлияет? Или бесполезно?
 
Последнее редактирование модератором:

Vadimir

Member
Регистрация
08.12.2004
Сообщения
56
Реакции
13
Баллы
8
Про 150 dpi это на глаз, может там целых 200 :).
По моему скромному опыту, повышать разрешение все таки нужно, но с обработкой, например в кромсаторе, визуально становится несколько лучше.
Да кстати, можно все таки примерно узнать (может у Вас есть инфа), кто же гонит этот ужасный вал 100 метровых pdfефов? В чем сермяга этого? Может мужики не в курсе :)?
 
Последнее редактирование модератором:
Статус
Закрыто для дальнейших ответов.
198 114Темы
635 085Сообщения
3 618 401Пользователи
EeOneНовый пользователь
Верх