Нужно отOCRить защищённый PDF и перегнать в DJVU.

Я занят приведением своей огромной библиотеки текстов к единым форматам. Выбор пал на ODF и DJVU. Проблема появилась с файлами PDF. При конвертировании напрямую - очень много ошибок. Поэтому предпочитаю конвертировать их через FineReader.
Нужно:

  1. Снимать с них защиту "только для чтения" - иначе они не отOCRятся.
  2. Преобразовывать их в графические файлы - для конвертации в DjVu. Прямой конвертор из пакета djvutools плоховат.

При этом программы должны работать

  1. БЫСТРО. Особенно в плане настроек - у меня тысячи этих файлов.
  2. Без промежуточной конвертации в PostScript - боюсь спорадических и непредсказуемых глюков - не будешь же каждый файл пролистывать.

Вопрос: подскажите такие программы.
И ещё: в KDE есть псевдопринтер в PDF. А такого же в графический формат никто не видел?

:. OCR

в качестве первого этапа finereader вполне запускает под wine
качество распознования мне не понравилось, хотя в более поздних версиях они сказали что скриношоты должны распозноватся хорошо
есть еще утилитка pdftotext с возможностью использования пароля, на тот случай если в pdf у тебя текст а не картинка.

__
:. Поделись опытом на ru.gentoo-wiki.com или на www.gentoo-wiki.com

FineReader запустил

FineReader запустил давно и надёжно, не в нём дело.
В PDF у меня и текст и картинки и журнальные страницы, а паролей я никогда не знал. Просто KPDF например позволяет печатать документы, запароленные на "только чтение". Но во что их печатать? В PostScript - глючит.

Хехе

Скриншоты. несколько тысяч файлов по несколько сотен страниц. Нанимается отряд обезьян с собственными компьютерами.

Первый вопрос

Первый вопрос отпал. Я просто не сообразил. Можно PDF печатать в PDF же, и пароли не сохранятся. Только с размером страницы морока.

Сохраняется второй вопрос: Как преобразовать один документ PDF в набор графических файлов любого формата, без промежуточного этапа в PS.

pdf --> ppm --> djvu

Если уж postscript вызывает такую неприязнь:
Я бы для начала преобразовал pdf во множество одностраничных ppm-файлов:
pdftoppm -gray kniga.pdf tmp
(по умолчанию преобразование происходит с разрешением 150 dpi, но это можно изменить)
(Эти ppm-файлы можно преобразовать в практически любой графический формат с помощью программы convert)
Можно закодировать и в djvu, см.
http://theorie5.physik.unibas.ch/shalaev/my.linux/pdf_to_djvu.html и http://theorie5.physik.unibas.ch/shalaev/my.linux/djvu.html
Недостаток: текст будет закодирован как картинка, в нём нельзя будет искать.

А может быть, всё-таки стоит попробовать через postscript?
В своё время я без проблем обходил защиту от печати, распечатывая из xpdf в postscript-файл,
а затем с помощью ps2pdf преобразуя обратно в (уже незащищённый) pdf.

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".