to OCR or not to OCR

  • Автор темы cwiz
  • Дата начала
C

cwiz

Guest
Многоуважаемый all, предлагаю отказаться от OCR.
Дело в том, что отсканировать средний томик в грейскейле в р-ии 300dpi занимает не больше полутора часов. А вот OCR'ить гораздо сложнее — велико число ошибок разпознавателя, чтобы от них избавиться приходится делать по 2-3 прохода. Врему уходит на очистку от артефактов, следов пылинов и т.д.
Так вот, предлагаю отказаться от OCR'а в пользу png или djvu. Вы тратите меньшн времени, нам удобее и легче читать. Те кому книга понравится могут сделать КАЧЕСТВЕННЫЙ OCR и поделиться с нами. Посмотри на всякие DDU, LiB — они выкладывают либо полный, хороший OCR книжек, либо вообще книги без OCR. До качественного OCR'a русского текста требуется много опыта и времени, что врядли выполнимо. Итак, кто за отмену OCR'a в пользу DJVU, png, etc?
 

Ashcraft

Member
Регистрация
17.07.2004
Сообщения
39
Реакции
0
Баллы
6
Возраст
46
Не согласен насчет "нам удобнее и легче читать". Я лично большинство закачиваемых книг читаю с КПК. Читать на КПК image-based форматы (djvu, png иже с ним) невозможно (теоретически, конечно, возможно, но чертовски геморройно). Если же читаю на компьютере, то чтение при помощи, скажем, ICE book reader с включенной автопрокруткой все равно удобнее, чем перевигать страницу мышой.

P.S. Все сугубо IMHO
 
C

cwiz

Guest
Зато не придётся догадываться что имелось ввиду из-за кривого Ocr.
Вобщем-то есть 2 вариант : или хорший Ocr или вообще без оного.
 

Egoizte

ex-Team DUMPz
Регистрация
23.06.2004
Сообщения
783
Реакции
217
Баллы
43
Возраст
40
Местоположение
Сегодня ЗДЕСЬ, а завтра ТАМ
cwiz сказал(а):
...или хорший Ocr или вообще без оного.
Правильно, меня например очень раздражает когда в тексте много ошибок, а вот хороший OCR сделать непросто, придется поработать.
 

Msha

ex-Team DUMPz
Lite
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Ну я лично предпочёл бы подождать лишнее время, но получить в итоге книгу с хорошим OCR. Дело в том, что djvu это хорошо, но поскольку это картинки, то текст не скопируешь - надо самому страницу выдирать и распознавать. А часто (если научную литературу изучаешь) требуется именно скопировать кусок текста или картинку.
И вообще, очень раздражает, когда отсканированные листы идут под разным углом. То с наклоном влево, то вправо.

Да и распечатывать текст (из pdf, chm) гораздо удобнее и на листе выглядит лучше (я часто книги распечатываю)
 

Brainman

Member
Регистрация
02.11.2004
Сообщения
142
Реакции
2
Баллы
18
Возраст
56
Местоположение
Samara reg.
Msha сказал(а):
И вообще, очень раздражает, когда отсканированные листы идут под разным углом. То с наклоном влево, то вправо.
Вообще-то это проблема не формата хранения данных, а проблема изготовителя скана ;) (сам иногда делал криво, пока не познакомился со Scankromsator'ом). Что касается копирования текста, для его дальнейшей вставки, так такая же проблема и с pdf - там текст тоже в виде картинок. Кстати, никто не мешает к djvu добавлять вторым слоем OCR, тогда проблем с копированием текста не возникает, а возможные неточности OCR можно исправить - ведь оригинальный текст перед глазами :)
 

Meshuger

Active member
Регистрация
08.12.2004
Сообщения
181
Реакции
29
Баллы
28
Возраст
56
Местоположение
SPb
Brainman сказал(а):
Что касается копирования текста, для его дальнейшей вставки, так такая же проблема и с pdf - там текст тоже в виде картинок.
Эт только в плохих pdf. В нормальных - текст в формате текста, картинки - в формате картинок. (Чем и ценятся) Так что все (как обычно) зависит от компетентности изготовителя.
 

Msha

ex-Team DUMPz
Lite
Регистрация
12.10.2004
Сообщения
7 155
Реакции
2 481
Баллы
113
Местоположение
UT99
Вообще-то это проблема не формата хранения данных, а проблема изготовителя скана (сам иногда делал криво, пока не познакомился со Scankromsator'ом). Что касается копирования текста, для его дальнейшей вставки, так такая же проблема и с pdf - там текст тоже в виде картинок. Кстати, никто не мешает к djvu добавлять вторым слоем OCR, тогда проблем с копированием текста не возникает, а возможные неточности OCR можно исправить - ведь оригинальный текст перед глазами

Ну я понимаю, что это не проблема формата. Но к сожалению мало кто сканирует каечственно и следит за углом, под которым располагается книга.

Если делать в два слоя, то, как я понимаю один накладывается на другой. причём в оригинальном тексте интервал и размер шрифта одни, а в распознаном другой. Это ещё больший геморой, чем просто распознать и проверить.

PDF-формат вообще-то также может содержать и текст. В него картинки запихивать не целесообразно, они меньше места занимают в DjVu. А вот текст, наоборот.
 

Baka

New member
Регистрация
17.11.2004
Сообщения
8
Реакции
0
Баллы
1
Msha сказал(а):
Ну я понимаю, что это не проблема формата. Но к сожалению мало кто сканирует каечственно и следит за углом, под которым располагается книга.

Если делать в два слоя, то, как я понимаю один накладывается на другой. причём в оригинальном тексте интервал и размер шрифта одни, а в распознаном другой. Это ещё больший геморой, чем просто распознать и проверить.

PDF-формат вообще-то также может содержать и текст. В него картинки запихивать не целесообразно, они меньше места занимают в DjVu. А вот текст, наоборот.

Вообще-то djvu, содержащий OCR слой с виду ничем не отличается от обычного, просто текст есть - для поиска, и когда найдено слово выделяется фрагмент страницы, содержащий это слово. А если печатать, то либо пофигу, что страницы немного под разными углами, либо проще самому через skancromsator прогнать выделенные страницы.
 

Brainman

Member
Регистрация
02.11.2004
Сообщения
142
Реакции
2
Баллы
18
Возраст
56
Местоположение
Samara reg.
Meshuger
Эт только в плохих pdf. В нормальных - текст в формате текста
Вот и опять пришли к тому же - к качественному OCR. Ведь текст там не сам появляется ;)


Msha
Если делать в два слоя, то, как я понимаю один накладывается на другой. причём в оригинальном тексте интервал и размер шрифта одни, а в распознаном другой. Это ещё больший геморой, чем просто распознать и проверить.
Если распознавание тескта проводится FineReader'ом, и если текст потом в скане не править, то расположение будет один к одному. (Проверено на FineReader версии 7.0, про другие не скажу - не пробовал).
 
Последнее редактирование модератором:

Meshuger

Active member
Регистрация
08.12.2004
Сообщения
181
Реакции
29
Баллы
28
Возраст
56
Местоположение
SPb
Brainman сказал(а):
Вот и опять пришли к тому же - к качественному OCR. Ведь текст там не сам появляется ;)
Всеми руками за! Качество и еще раз качество! Я и бОльше скажу - вообще мало что самО появляется! всюду надо руки/голову приложить, чтобы нечто пУтное получилось.
 

Shish

New member
Регистрация
07.05.2005
Сообщения
1
Реакции
0
Баллы
1
Возраст
88
Местоположение
Санкт-Петербург
А проблема, ребята, совсем в другом - надо просто общими усилиями (а нас -компьютерщиков - скоро станет почти миллиард) постепенно переводить ВСЁ культурное достояние человечества в цифровую форму. Что-то будет сделано лучше, что-то хуже, но специфика ИТ, в отличии от старых технологий, заключается в том, что позволяет вносить изменения на любом этапе. Сравните обычную пишущую машинку и самый примитивный текстовый редактор. А уж о мультиедийных средах я и не говорю, когда на одном носителе можно записать ВСЕ виды инфформации.
 

Yoxel

Member
Регистрация
11.08.2005
Сообщения
44
Реакции
25
Баллы
18
Сайт
primus.mylivepage.com
Для меня OCR имеет смысл, если конечно абстрагироваться от размера файла, для литературы, с которой нужно РАБОТАТЬ а не ЧИТАТЬ. Например для справочной литературы, энциклопедий и т.д.
Для простого чтения мне формат абсолютно ортогонален.
 
198 175Темы
635 146Сообщения
3 618 414Пользователи
drakkon12345Новый пользователь
Верх