Скачивал из ослосети. Редкостный случай когда не удалось найти нормального варианта в djvu. Вот другую книгу я вполне успешно переделал - там был очень качественный чёрно-белый скан. А это что-то страшное, паршивый скан.
По-моему, все это распространяет медиго, похоже там главное не качество, а количество. С другой стороны, никто больше таких объемов своих сканов в сети еще не выдает. Есть к чему стремиться. Но только не к таким размерам файлов.Vadimir сказал(а):Да кстати, можно все таки примерно узнать (может у Вас есть инфа), кто же гонит этот ужасный вал 100 метровых pdfефов? В чем сермяга этого? Может мужики не в курсе ?
okun сказал(а):Raster Profile - documenttodjvu (Default)
PDF Profile - Electronic PDF - Default
OCR слой в полученном djvu проверяю в djvu_Browser Plugin
И действительно - установив галку OCR, в полученном djvu текст появился.Text from OCR Layer Not Readable
PDF documents that contain text extracted from an OCR layer can not expose this text to the current version of pdftodjvu. No text is extracted. However, the hidden text layer can easily be regenerated in DjVu using djvujoin or djvubundle (standard tools in DocumentExpress Enterprise Edition) with the ocr option.
Далее, даже если текст расположен в pdf ПОД изображением, можно его сделать видимым в djvu путем установки его заливки черным (или любым) цветом (свойства текста-кнопка Заливка). По умолчанию на кнопке стоит знак вопроса. Но текст при этом начинает немного двоиться. Пока всё.
Msha сказал(а):Т.е. в исходном ПДф файле я заливаю текст чёрным и затем спокойно конвертирую в djvu?
А может не напрямую, старым дедовским способом? Перераспознать в ФР 7,0 и утилитой от Генчо вставить в djvuку. Все же в автоматическом режиме, запустил и делай дела. Потом (если часто придется такое делать), есть так называемый конвейр (набор скриптов), который заточен на такие дела, но я про него только краем уха слышал, но народ активно пользуется.Очередной вопрос. . Есть ПДФ файл, в котором поверх отсканированой картинки наложен текст. Есть ли возможность перевести это в djvu сохранив OCR?