Формат DjVu(ДеЖаВю)

Статус
Закрыто для дальнейших ответов.

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Скачивал из ослосети. Редкостный случай когда не удалось найти нормального варианта в djvu. Вот другую книгу я вполне успешно переделал - там был очень качественный чёрно-белый скан. А это что-то страшное, паршивый скан.
 

karpinskiy1

Active member
Регистрация
23.02.2004
Сообщения
283
Реакции
89
Баллы
28
Возраст
45
Vadimir сказал(а):
Да кстати, можно все таки примерно узнать (может у Вас есть инфа), кто же гонит этот ужасный вал 100 метровых pdfефов? В чем сермяга этого? Может мужики не в курсе ?
По-моему, все это распространяет медиго, похоже там главное не качество, а количество. С другой стороны, никто больше таких объемов своих сканов в сети еще не выдает. Есть к чему стремиться. Но только не к таким размерам файлов.
 

okun

Well-known member
Свой / Own
Регистрация
03.05.2005
Сообщения
2 045
Реакции
2 975
Баллы
113
Местоположение
evergreen forest (wonderland)
Msha, для оптимизации страниц в pdf, посмотри также на Adobe Acrobat 7.xx. Меню Инструменты->Допечатная подготовка.
Кроме представленных там возможностей есть пункт "Оптимизация pdf" и далее "Отсканированные страницы". Поиграйся с фильтрами...
 

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Подскажите мне ещё такую вещь. Как быстро и, главное, удобно поменять страницы местами в djvu документе? В djvuEditor'e я не нашёл ничего похожего, приходится хватать страницу мышкой и тащить к нужному месту. Периодически старница при этом ''срывается''. Кроме того, чтобы тащить вниз нужно всё время вести мышку вниз. В общем жутко неудобно, когда страницу надо переместить на 700 позиций вниз. А мне надо полкниги так скомпоновать.
 

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Очередной вопрос. :). Есть ПДФ файл, в котором поверх отсканированой картинки наложен текст. Есть ли возможность перевести это в djvu сохранив OCR?
 

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
okun, а как? Я попробовал, напрямую у меня не переводит. А если ставить галочку ''perform OCR'', то это уже получается не напрямую, а с повторным распознаванием.

---
Кстати, у меня облегчённая версия, без OCR модуля. Кто-нибудь необходимые файлы может выложить?
 

okun

Well-known member
Свой / Own
Регистрация
03.05.2005
Сообщения
2 045
Реакции
2 975
Баллы
113
Местоположение
evergreen forest (wonderland)
Msha, использую полную версию Ent.

Raster Profile - documenttodjvu (Default)
PDF Profile - Electronic PDF - Default

OCR слой в полученном djvu проверяю в djvu_Browser Plugin

Размер полного дистрибутива Ent. в архиве - 196 Мб. Размер папки IRIS_OCR в установочном каталоге - 43 Мб в архиве.

Временно ограничен в выкладывании, но на вроде ссылки были.
 
Последнее редактирование модератором:

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Полный вариант раздобыл, спасибо.

---
В облегчённой версии пробовал именно такие настройки. Выдаёт какую-то ошибку. Попробую в полной версии, если опять будет ошибка напишу.
 

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
okun сказал(а):
Raster Profile - documenttodjvu (Default)
PDF Profile - Electronic PDF - Default

OCR слой в полученном djvu проверяю в djvu_Browser Plugin

Вот так и сделал. Галочку напротив OCR не ставил. Документ получился без OCR.

И самое главное, такое впечатление будто программа его пережимает не как черно-белое изображение. а там ч/б. Если поставить именно ч/б профиль, то пережимается раз в 10 где-то. А с профилем documenttodjvu получается тот же самый размер.

Вот файл над которым я ломаю голову:



точнее это фрагмент на 500 кб.

---
Можно ли как-то заставить программу использовать для временных файлов не системный диск? Проблемы со свободным местом, а книжка на 900 страниц...
 
Последнее редактирование модератором:

okun

Well-known member
Свой / Own
Регистрация
03.05.2005
Сообщения
2 045
Реакции
2 975
Баллы
113
Местоположение
evergreen forest (wonderland)
По накатонному пути тоже ничего не вышло. Начал "копать".

Вот выдержка из раздела справки Ent:
PDFtoDjVu Known Issues
Text from OCR Layer Not Readable
PDF documents that contain text extracted from an OCR layer can not expose this text to the current version of pdftodjvu. No text is extracted. However, the hidden text layer can easily be regenerated in DjVu using djvujoin or djvubundle (standard tools in DocumentExpress Enterprise Edition) with the ocr option.
И действительно - установив галку OCR, в полученном djvu текст появился.

Далее опытном путем выяснилось:
не сохраняется слой OCR при кодировке в djvu у тех документов pdf, у которых текст расположен ПОД изображением. У тех где НАД, всё нормально. Как поменять такой порядок размещения в документе pdf, не выяснил.

Далее, даже если текст расположен в pdf ПОД изображением, можно его сделать видимым в djvu путем установки его заливки черным (или любым) цветом (свойства текста-кнопка Заливка). По умолчанию на кнопке стоит знак вопроса. Но текст при этом начинает немного двоиться. Пока всё.

По поводу Временных папок - попробуй все переменные Temp (и пользовательские и системные) перенаправить на другой раздел, ну и файл подкачки тоже. Или разбить исходный pdf на несколько файлов и перекодировать их в djvu по-отдельности, собрав потом в единый файл.
 
Последнее редактирование модератором:
  • Like
Реакции: Msha

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Далее, даже если текст расположен в pdf ПОД изображением, можно его сделать видимым в djvu путем установки его заливки черным (или любым) цветом (свойства текста-кнопка Заливка). По умолчанию на кнопке стоит знак вопроса. Но текст при этом начинает немного двоиться. Пока всё.

Т.е. в исходном ПДф файле я заливаю текст чёрным и затем спокойно конвертирую в djvu?
 

okun

Well-known member
Свой / Own
Регистрация
03.05.2005
Сообщения
2 045
Реакции
2 975
Баллы
113
Местоположение
evergreen forest (wonderland)
Msha сказал(а):
Т.е. в исходном ПДф файле я заливаю текст чёрным и затем спокойно конвертирую в djvu?

Да, такую заливку можно сделать в Adobe Acrobat, но тут начинается двоение текста, получается, что слой "заливаемого" текста становится на место текста, который расположен НАД изображением - отсюда и двоение (два слоя текста НАД и ПОД). Но, вроде нашел способ как от этого избавиться :) По крайней мере в представленном файле.

Открываем исходный pdf в Acrobat, Меню Просмотр->Вкладки навигации->Содержимое. На вкладке Содержимое раскрываем Страницу, выделяем объект Текст и в его свойствах ставим заливку черным цветом. Далее на вкладке Содержимое удаляем Путь доступа и получаем на выходе чистый текст без слоя Изображения. Такой файл легко кодируется в djvu с сохранением OCR.

Вобщем, думаю надо детально изучить вопрос о составляющих Содержимое PDF документа. Работа со слоями текста и изображения, пути доступа и т.д.
 

Vadimir

Member
Регистрация
08.12.2004
Сообщения
56
Реакции
13
Баллы
8
Msha
Очередной вопрос. . Есть ПДФ файл, в котором поверх отсканированой картинки наложен текст. Есть ли возможность перевести это в djvu сохранив OCR?
А может не напрямую, старым дедовским способом? Перераспознать в ФР 7,0 и утилитой от Генчо вставить в djvuку. Все же в автоматическом режиме, запустил и делай дела. Потом (если часто придется такое делать), есть так называемый конвейр (набор скриптов), который заточен на такие дела, но я про него только краем уха слышал, но народ активно пользуется.
 

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Я вопрос решил просто распознав по новой в Documents Express. Не охота было долго возится, да и получилось вполне приемлемо - скан хороший, текст распознался вполне нормально.

Вот появилось у меня пара книг, найти вариантов нормальных мне не удалось, только громадные сканы. Думаю их выложить, может у кого получится привести их в нормальный вид ).

Вот одна книга:

28.37 MB
28.28 MB
28.40 MB
(картинки в формате tiff g4, 600 dpi)

"Munson B.R., Young D.F., Okiishi T.H. Instructor's Manual to Accompany Fluid Mechanics 4th ed."

Wiley, 2001
1305s

У меня при сжатии в djvu в таком разрешении книга получается размером 56 Мб, многова-то. Сделал в 300 dpi - плучил 28 Мб. Может я чего-то не так делал, если у кого получится картинки в 600 dpi сжать посильнее, было бы здорово.

28.99 MB

вот что получилось у меня (300 dpi)

---
Над второй книгой сейчас издеваюсь. :).
 
Последнее редактирование модератором:

Msha

ex-Team DUMPz
Свой / Own
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
15.68 MB
47.68 MB
47.68 MB
47.68 MB

Horowitz, Hill. The Art Of Electronics

В книге около 1100 страниц, скан серый, судя по всему файл собран из jpeg, разрешение 600 dpi. Книга в неплохом виде, но уменя собранный djvu файл смтрится не очень...
 

e-lena

New member
Регистрация
01.10.2006
Сообщения
5
Реакции
0
Баллы
1
Местоположение
Москва
Сайт
imagination-forum.com
Мне очень нравится этот формат, сама часто им пользуюсь. Сканирую разные книги-журналы. Очень маленькие файлы получаются по сравнению с Jpeg.
 

RainMan2704

New member
Регистрация
08.07.2005
Сообщения
15
Реакции
1
Баллы
3
Возраст
44
Местоположение
Челябинск
вопрос: а в windjvu поиск нормально работает?
 

Toro

Active member
Регистрация
10.06.2005
Сообщения
127
Реакции
141
Баллы
43
Возраст
39
Местоположение
Tiraspol
Ищу программу.

Есть ли кого этот экземпляр?
Буду очень признателен.

Document Express Editor 6.0.1.1320
 

Vicci

ex-Team DUMPz
Свой / Own
Регистрация
19.04.2004
Сообщения
5 115
Реакции
3 355
Баллы
113
Возраст
62
Местоположение
Градъ Петровъ
Document Express Editor 6.0.1.1320


Конечно есть! Кто ищет тот находит!
И Новый Год
с подарками
приходит!

Залил вот сюда
Скрытое содержимое доступно для зарегистрированных пользователей!
 
  • Like
Реакции: Toro

Toro

Active member
Регистрация
10.06.2005
Сообщения
127
Реакции
141
Баллы
43
Возраст
39
Местоположение
Tiraspol
Vicci,спасибо за заботу ,но есть просьба.У меня не получается скачать с этого сервера(слишком много ошибок пишет \Regetом тяну\ не мог бы выложить на другой сервер?)
 

Vicci

ex-Team DUMPz
Свой / Own
Регистрация
19.04.2004
Сообщения
5 115
Реакции
3 355
Баллы
113
Возраст
62
Местоположение
Градъ Петровъ
Хорошо, залил на рапиду!
Вот ссылка
Скрытое содержимое доступно для зарегистрированных пользователей!
 
  • Like
Реакции: Toro

Toro

Active member
Регистрация
10.06.2005
Сообщения
127
Реакции
141
Баллы
43
Возраст
39
Местоположение
Tiraspol
Напиши пожалуйста пароль на архив. Заранее благодарю.
Большое спасибо.Уже не надо.Пароль нашел)
 
Последнее редактирование модератором:

andybs

Member
Регистрация
12.02.2004
Сообщения
44
Реакции
9
Баллы
8
Возраст
59
формат, конечно, отстойный, но ввиду присутствия кучи литературы - приходится использовать
 
Статус
Закрыто для дальнейших ответов.
198 111Темы
635 082Сообщения
3 618 399Пользователи
DimJenНовый пользователь
Верх