Нужно отOCRить защищённый PDF и перегнать в DJVU.
Барра Белый Гепард 7 октября, 2007 - 20:04
Я занят приведением своей огромной библиотеки текстов к единым форматам. Выбор пал на ODF и DJVU. Проблема появилась с файлами PDF. При конвертировании напрямую - очень много ошибок. Поэтому предпочитаю конвертировать их через FineReader.
Нужно:
- Снимать с них защиту "только для чтения" - иначе они не отOCRятся.
- Преобразовывать их в графические файлы - для конвертации в DjVu. Прямой конвертор из пакета djvutools плоховат.
При этом программы должны работать
- БЫСТРО. Особенно в плане настроек - у меня тысячи этих файлов.
- Без промежуточной конвертации в PostScript - боюсь спорадических и непредсказуемых глюков - не будешь же каждый файл пролистывать.
Вопрос: подскажите такие программы.
И ещё: в KDE есть псевдопринтер в PDF. А такого же в графический формат никто не видел?
»
- Для комментирования войдите или зарегистрируйтесь
:. OCR
в качестве первого этапа finereader вполне запускает под wine
качество распознования мне не понравилось, хотя в более поздних версиях они сказали что скриношоты должны распозноватся хорошо
есть еще утилитка pdftotext с возможностью использования пароля, на тот случай если в pdf у тебя текст а не картинка.
__
:. Поделись опытом на ru.gentoo-wiki.com или на www.gentoo-wiki.com
FineReader запустил
FineReader запустил давно и надёжно, не в нём дело.
В PDF у меня и текст и картинки и журнальные страницы, а паролей я никогда не знал. Просто KPDF например позволяет печатать документы, запароленные на "только чтение". Но во что их печатать? В PostScript - глючит.
Хехе
Скриншоты. несколько тысяч файлов по несколько сотен страниц. Нанимается отряд обезьян с собственными компьютерами.
Первый вопрос
Первый вопрос отпал. Я просто не сообразил. Можно PDF печатать в PDF же, и пароли не сохранятся. Только с размером страницы морока.
Сохраняется второй вопрос: Как преобразовать один документ PDF в набор графических файлов любого формата, без промежуточного этапа в PS.
pdf --> ppm --> djvu
Если уж postscript вызывает такую неприязнь:
Я бы для начала преобразовал pdf во множество одностраничных ppm-файлов:
pdftoppm -gray kniga.pdf tmp
(по умолчанию преобразование происходит с разрешением 150 dpi, но это можно изменить)
(Эти ppm-файлы можно преобразовать в практически любой графический формат с помощью программы convert)
Можно закодировать и в djvu, см.
http://theorie5.physik.unibas.ch/shalaev/my.linux/pdf_to_djvu.html и http://theorie5.physik.unibas.ch/shalaev/my.linux/djvu.html
Недостаток: текст будет закодирован как картинка, в нём нельзя будет искать.
А может быть, всё-таки стоит попробовать через postscript?
В своё время я без проблем обходил защиту от печати, распечатывая из xpdf в postscript-файл,
а затем с помощью ps2pdf преобразуя обратно в (уже незащищённый) pdf.