Нужно отOCRить защищённый PDF и перегнать в DJVU.

Барра Белый Гепард 7 октября, 2007 - 20:04

Настройка рабочих станций

Я занят приведением своей огромной библиотеки текстов к единым форматам. Выбор пал на ODF и DJVU. Проблема появилась с файлами PDF. При конвертировании напрямую - очень много ошибок. Поэтому предпочитаю конвертировать их через FineReader.
Нужно:

Снимать с них защиту "только для чтения" - иначе они не отOCRятся.
Преобразовывать их в графические файлы - для конвертации в DjVu. Прямой конвертор из пакета djvutools плоховат.

При этом программы должны работать

БЫСТРО. Особенно в плане настроек - у меня тысячи этих файлов.
Без промежуточной конвертации в PostScript - боюсь спорадических и непредсказуемых глюков - не будешь же каждый файл пролистывать.

Вопрос: подскажите такие программы.
И ещё: в KDE есть псевдопринтер в PDF. А такого же в графический формат никто не видел?

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

:. OCR

Автор Dmitri, дата создания 8 октября, 2007 - 00:06.

в качестве первого этапа finereader вполне запускает под wine
качество распознования мне не понравилось, хотя в более поздних версиях они сказали что скриношоты должны распозноватся хорошо
есть еще утилитка pdftotext с возможностью использования пароля, на тот случай если в pdf у тебя текст а не картинка.

__
:. Поделись опытом на ru.gentoo-wiki.com или на www.gentoo-wiki.com

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

FineReader запустил

Автор Барра Белый Гепард, дата создания 8 октября, 2007 - 18:09.

FineReader запустил давно и надёжно, не в нём дело.
В PDF у меня и текст и картинки и журнальные страницы, а паролей я никогда не знал. Просто KPDF например позволяет печатать документы, запароленные на "только чтение". Но во что их печатать? В PostScript - глючит.

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

Хехе

Автор Барра Белый Гепард, дата создания 8 октября, 2007 - 18:13.

Скриншоты. несколько тысяч файлов по несколько сотен страниц. Нанимается отряд обезьян с собственными компьютерами.

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

Первый вопрос

Автор Барра Белый Гепард, дата создания 8 октября, 2007 - 18:25.

Первый вопрос отпал. Я просто не сообразил. Можно PDF печатать в PDF же, и пароли не сохранятся. Только с размером страницы морока.

Сохраняется второй вопрос: Как преобразовать один документ PDF в набор графических файлов любого формата, без промежуточного этапа в PS.

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

pdf --> ppm --> djvu

Автор Олег Шалаев (не проверено), дата создания 1 декабря, 2007 - 01:52.

Если уж postscript вызывает такую неприязнь:
Я бы для начала преобразовал pdf во множество одностраничных ppm-файлов:
pdftoppm -gray kniga.pdf tmp
(по умолчанию преобразование происходит с разрешением 150 dpi, но это можно изменить)
(Эти ppm-файлы можно преобразовать в практически любой графический формат с помощью программы convert)
Можно закодировать и в djvu, см.
http://theorie5.physik.unibas.ch/shalaev/my.linux/pdf_to_djvu.html и http://theorie5.physik.unibas.ch/shalaev/my.linux/djvu.html
Недостаток: текст будет закодирован как картинка, в нём нельзя будет искать.

А может быть, всё-таки стоит попробовать через postscript?
В своё время я без проблем обходил защиту от печати, распечатывая из xpdf в postscript-файл,
а затем с помощью ps2pdf преобразуя обратно в (уже незащищённый) pdf.

Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".

Меню

Вход на сайт

Навигация

Активные обсуждения форума

Новые записи в блогах

Сейчас на сайте

Сбор новостей