Кто делал электронные книги?

Делали ли вы электронные книги?


  • Всего проголосовало
    186
Статус
Закрыто для дальнейших ответов.

tranvask

Member
Регистрация
21.06.2004
Сообщения
33
Реакции
0
Баллы
6
Возраст
60
Поделитесь, пожалуйста, какими программами делaют .djvu, и как в этом формате можно текст распознавать?
 

Vadimir

Member
Регистрация
08.12.2004
Сообщения
56
Реакции
13
Баллы
8
Vish666
Не знаю сколько весит DjVu вместе с OCR, т.к. сохранить вместе не удалось
Весит как любой текст 2-3 кб на страницу, ежели текс не мелкий.
А загнать распознаный текс проще простого, распознаем сканы, которые жали в джавю, в файнридере в пакетном режиме (нужен 7 версии, в 8 изменился формат), сохраняем пакет, а затем с помощью замечательной утилиты от Генчо (ищем, это не сложно) в 5 минут несколькими кликами мыши и все проблемы :).
 

OnThink

Member
Регистрация
10.07.2004
Сообщения
35
Реакции
1
Баллы
8
tranvask сказал(а):
Поделитесь, пожалуйста, какими программами делaют .djvu, и как в этом формате можно текст распознавать?

Дежавю - аналог PDF, только ПДФ на основе формата TIFF, а дежавю - на основе джипега. Поэтому распознаётся намного хуже. О том, чтобы сохранять в дежавю текст, я ещё не слышал.
 

Vadimir

Member
Регистрация
08.12.2004
Сообщения
56
Реакции
13
Баллы
8
tranvask
Поделитесь, пожалуйста, какими программами делaют .djvu, и как в этом формате можно текст распознавать?
для начала может сойти Dcument Editor Express (1514201 bytes)

Для распознования в djvu нужна полная версия, порядка 200 метров.
Но лучше всего с этим не связываться, а распозновать по старинке в файнридере.
для вставки распознонго текста есть удобная утилита от Генчо
DjvuOCR_2.0_pre.rar (1227416 Bytes)
 

Ognev

ex-Team DUMPz
Свой / Own
Регистрация
20.08.2004
Сообщения
2 102
Реакции
902
Баллы
113
Возраст
25
Местоположение
В караганде
Всем доброго времени суток. Если кто-нибудь пользовался утилитой pdftodjvu, подскажите, что нужно для ее работы. А то то, что у меня есть не желает работать ни в какую. А еще лучше, если кто-нибудь выложит рабочий набор, а то не хочется ради такой мелочи ставить полный Document Express.
 

peps

Member
Регистрация
24.02.2006
Сообщения
65
Реакции
53
Баллы
18
Возраст
42
Местоположение
Дзержинск
В свое время делал для друзей сканы журналов по радиоэлектронике.
Расшивал журнал, сканировал все страницы прямо в DJVueditorpro 4, благо у него есть поддержка TWAIN - источников.
Почему DJVu? Да просто журналы содержат большое количество схем, чертежей и по этому проще выводить их в графическом формате .djv .
Вот Вам и ответы на все вопросы - нет однозначно лучшего формата.
Для текста - лучше .chm или .txt/
Для журналов со схемами и чертежами, а также где не важно качество графики, но ее много - .djv .
Ну, а уж журнал "Плей бой" - лучше смотреть в - .pdf .
Всем Удачи.
 

iggalp

Member
Регистрация
28.04.2005
Сообщения
33
Реакции
0
Баллы
6
Возраст
49
Местоположение
Moscow
Вообще при переводе книг в электронный формат не делать OCR это преступление. С современным алгоритмами распознавания это совсем не трудно, зато проявляется уважение к обществу и своему труду. Если картинок нет (или их мало), то результат должен быть txt ли html (если есть картинки). Если картинок много или нужно кровь из носа максимально сохранить форматирование базового источника, то результат лучше всего выгружать в pdf
 

iggalp

Member
Регистрация
28.04.2005
Сообщения
33
Реакции
0
Баллы
6
Возраст
49
Местоположение
Moscow
Вопрос размера файла все больше и больше уходит в прошлое. Вот станет широкополосный интернет общим местом и будет в этом вопросе последняя точка. Видоизменения Ворда как нельзя лучше иллюстрируют такую тенденцию (размер doc-файла уже первосходит все разумные пределы и ничего, пипл хавает). В этой связи djvu это тупиковая ветвь, которая должна умереть. Проблемы с распространимостью очевидны, а преимуществ глобальных нет.

2Vish666
ИМХО не распознавать отсканированную книгу - это не уважать ни себя ни других. Исключения - математика, Там формул много, а они пока не распознаются
 

lohness

Профи
Регистрация
26.03.2004
Сообщения
720
Реакции
1 559
Баллы
93
Местоположение
Moscow
Не скоро еще станет общим местом широкий инет (по крайней мере у нас в России)
А занимаются сканами обычно энтузиасты-бессеребренники
А по диалапу выкладывать большие файлы очень даже тяжко.
По себе сужу если бы не "халявный" инет на работе не удалось бы поддерживать свою страничку и выкладывать для людей такое количество литературы.
Причем могу выкладывать только на зоне РУ, так как рапида для нашей конторы уже не бесплатная и соответственно получу по шапке если с ней свяжусь.
Отсюда же и выкладывание в формате djvu - размер меньше.
А отсканить детскую книжку или журнал какой нибудь с переводом в текст или html не выйдет - слишком много графической информации.
Обычные книги (для взрослых) это да не понимаю почему люди не делают OCR
и выкладывают PDF по 100 метров
 

Serg104

New member
Регистрация
16.08.2005
Сообщения
10
Реакции
0
Баллы
1
Возраст
40
Местоположение
Спб
ИМХО если уж распознал, так и сохрани в Ворд, или txt, а djvu с полураспознанным подслоем это сомнительное удовольствие, выдирать текст оттуда никто не станет - отсутствует смысл самой djvu`хи, а с экрана читать - не нужен OCR, исключение pdf - значительно уменьшается размер, и качество становится несоизмеримо выше, да и пятен лишних нет.
 

xolms

Member
Регистрация
23.02.2006
Сообщения
30
Реакции
1
Баллы
8
Возраст
58
Местоположение
САМАРА
вопрос - как исправить плохой скан ? можно-ли это сделать фотошопом?
 

OnThink

Member
Регистрация
10.07.2004
Сообщения
35
Реакции
1
Баллы
8
вопрос - как исправить плохой скан ? можно-ли это сделать фотошопом?

нет. К сожалению, время упущено. Аборт делают только на ранней стадии беременности. ;)
 

lohness

Профи
Регистрация
26.03.2004
Сообщения
720
Реакции
1 559
Баллы
93
Местоположение
Moscow
OnThink сказал(а):
нет. К сожалению, время упущено. Аборт делают только на ранней стадии беременности. ;)

ну не совсем так
скорее даже совсем не так...
и аборты делают на разных сроках
и чистить можно практически любой скан

Конечно сделать из скана с бликующей или черной полосой по диагонали, вряд-ли что удасться.
Но откорректировать контраст и яркость, убрать мусор и многое другое можно.
Превратить бумагу из желтой (серой в ч/б) в белую убрать пятна и детские каляки-маляки можно - главное желание и ВРЕМЯ (куча времени).

Иногда проще все-таки найти оригинал и отсканить снова (если проблема появилась на стадии сканирования)

А вот брать пережатый в pdf или djvu файл, конвертить его обратно в картинки и снова чистить точно не стоит. Обычно "авторы" таких файлов сильно уменьшают размер и как следствие качество сканов.
 

AlexPkr

Member
Регистрация
22.08.2004
Сообщения
54
Реакции
3
Баллы
8
Возраст
53
Нориально получается делать в FineReader'е.
Распознаешь текст и сохраняешь в pdf и картинки и текст.
 

peps

Member
Регистрация
24.02.2006
Сообщения
65
Реакции
53
Баллы
18
Возраст
42
Местоположение
Дзержинск
Когда готовлю статьи для публикации на сайте то для сканирования изображений пользуюсь Fotocanvas из пакета ACDSee 5.0 очень просто и удобно. Ну а если надо выдрать текст, то конечно это FineReader читает даже старые газетные статьи.
 

Anri

Member
Регистрация
16.08.2005
Сообщения
25
Реакции
65
Баллы
13
Местоположение
Samara
Без FineReader в этом деле очень сложно обойтись.
Есть, конечно, и другие распознавалки (раньше пользовался, например, CuneiForm), но рабоают они много хуже.
 

Vadimir

Member
Регистрация
08.12.2004
Сообщения
56
Реакции
13
Баллы
8
xolms
вопрос - как исправить плохой скан ? можно-ли это сделать фотошопом?
Пользуйтесь сканкромсатором! Если не испугаетесь :).
 

lohness

Профи
Регистрация
26.03.2004
Сообщения
720
Реакции
1 559
Баллы
93
Местоположение
Moscow
Отсканировал не одну сотню книжек и журналов
Перевел в электронный вид почти все художественные книги со своего стелажа. Потом принялся за технические и журналы.
Художественную литературу делать легче всего - отсканил, распознал, проверил, вычитал и готово.
Старые книги приходится еще чистить от мусора возникающего из за старой темной (желтой) бумаги.
Журналы, детские и технические книги содержат большое количество иллюстраций. Возникает дилема в каком виде сохранять. Если картинок немного, то формат HTML со вставкой картинок. Если же много и хочется сохранить оформление (особенно журналы и детские) то сохраняю в JPG 300 dpi для своего архива и сжав до 40-50 процентов сохраняю в DJVU для выкладывания в интернете (проблема размера).
Основное время уходит на очистку таких сканов от мусора.
Старая желтая бумага на ч/б становится серой
Да и в цветном варианте белая бумага новых книг тоже не особо белая.
 
  • Like
Реакции: okun

e-lena

New member
Регистрация
01.10.2006
Сообщения
5
Реакции
0
Баллы
1
Местоположение
Москва
Сайт
imagination-forum.com
Я делала много электронных книг. Сканировала с хорошим разрешением (300 dpi), потом в Фотошопе выравнивала страницы, делала их белыми (скан у меня получался немного серым), обрезала ненужное. Конечно, это требует времени и сил, но зато потом как приятно такую книгу смотреть. :)
 

Alex Pro

New member
Регистрация
10.11.2006
Сообщения
25
Реакции
11
Баллы
3
Местоположение
Kisinev
Работа та еще... мне очень жаль тех людей , которые занимаются вычиткой и прочим постоянно

Впервые в этом форуме, дай, думаю, загляну. Ну и, конечно, потянуло в книжный раздел, хотя форум нашел ради музыки.
Сам я сканирую книги около 4 лет, сделал около 300 книг, т.е. отсканил более 100 тыс. страниц. Сканю в ФайнРидере (8-м), сам вычитываю, перегоняю в формат word-doc, картинки к избранным книгам сохраняю в JPG в этом же файле или (для особо-художественных изданий отдельно в виде слайд-шоу, обычно с музыкальным сопровождениям). Это, так сказать, для гурманов. Сканю только художественную, биографическую лит-ру, отборное литературоведение, кое-что по искусству (джаз, живопись), кое-какие исторические труды. Пользуюсь только книгами из своей библиотеки, благо собиралась она около 45 лет и собралось около 8 тыс. книг. Собственно и сканить начал из-за того, что после меня моя библиотека скорее всего разбежится по рукам и сгинет, что хоть и обидно, но неизбежно. Сканирование и особенно вычитка (а это не менее 2 проходов) отнимает много времени и здоровья (глаза сильно устают). Постоянно выкладываюсь в б-ке Александра Белоусенко, делаю посты у Кэпа (kpnemo), модерирую форум библиотеки, отдельно выложил все, сделанное мною в библиотечке на Рапиде.ком.
А теперь постараюсь ответить на цитату, вынесенную в начало. Жалеть окрщиков не нужно, каждый из них (я имею ввиду тех, кто этим занимается постоянно и кого признало сообщество коллег по "профессии") занимается этим сугубо по личным соображениям, имеет склонность к просветительству, альтруизму, озабочен низкой общей и сетевой культурой и, наконец, отличается определенным складом характера. Конечно, окрщик должен быть культурен в самом широком смысле слова, очень грамотен, энциклопедически образован, иметь приличный художественный вкус, быть любознательным и контактным. Конечно, все это в идеале, хотя список требований для занятия этой деятельностью я привел далеко неполный.
И последнее. Сканирование и вычитка книг (не технических) предполагает очень вдумчивое перечитывание обрабатываемой книги. Поэтому каждый, кто сканит, делает в первую очередь свои любимые или близкие ему по духу книги. Подчеркну, что работа эта абсолютно бескорыстна и кроме потери времени и зрения других "доходов" не приносит. Но здесь очень важен моральный фактор. Он является определяющим для постоянного занятия этим нелегким делом.
 

borisrs

New member
Регистрация
17.09.2004
Сообщения
28
Реакции
14
Баллы
3
Native language | Родной язык
Русский
Отсканировал чуть более десятка книг. Все перевел в дежавю. Качество меня (и не только) устраивает.
Предпочитаю по возможности делать черно-белый (двухцветный) вариант.
Если есть полутоновые картинки, то можно только эти страницы сделать в сером формате. Важно в начале сканирования не полениться настроить порог чувствительности сканера. Тут надо попробовать разные варианты и выбрать оптимум. Тогда часто удается избавиться от "грязи" еще на этапе сканирования. Любимое разрешение 400 dpi. Сжатие .jpg к сканам текста применять неправильно, т.к. на контрастных переходах появляются хорошо (а на самом деле это плохо) заметные артефакты. Использую формат - Tiff (ч.-б.: без сжатия для дальнейшей переработки и со сжатием CCITT Group4 - для хранения; серый - сжатие Lzw, в программе ACDSee 5.0). Если книга небольшая (до 300 стр.), то можно сжимать с помощью Document Express Editor v5.0.0 Build 16 plus. Можно и большую но тогда лучше по частям. Приходится временами подождать.
Если загнать очень много страниц (более 300), может и зависнуть.
Подробно о создании книг в дежавю написано по . Там же куча софта, из которого необходима небольшая часть. OCR я не добавляю. Можно его добавить и после создания книги. Имеется недостаток: русская г становится латинской R.
 

miralita

New member
Регистрация
26.10.2004
Сообщения
9
Реакции
4
Баллы
3
Возраст
45
В свое время довелось, можно сказать, профессионально заниматься электронными книгами. Сканирование, вычищение в фотошопе, сохранение в TIFF CCITT Group 4, а там в зависимости от пожелания заказчика - либо PageMaker -> принтер, либо в PDF.
Неплохо набила руку на сканировании старых книг, где текст был едва различим даже на глаз. Сканировалось в полноцвете, вытягивались уровни, потом уже руками или фильтрами (в зависимости от результата - фильтры сильно бьют коцаный текст) - убрать шум.
 

Ares_XT

Member
Регистрация
25.04.2007
Сообщения
41
Реакции
35
Баллы
18
Местоположение
Россия
Делал парочку книг в формате СНМ с бумажного оригинала. Чтобы сделать качественно, нужно МНОГО времени.. Поэтому особенно этим и не занимаюсь. \На заметку: Если есть ксерокс типа WorkCenter 130, то сканирование одной страницы занимает секунд 5.
 
Статус
Закрыто для дальнейших ответов.
197 912Темы
634 882Сообщения
3 618 386Пользователи
Grogus23Новый пользователь
Верх