pdf --> text
roman 27 ноября, 2006 - 12:36
Я вот тут скачал pdf-ник (2 штуки, из разных источников). там исходник нужной мне проги. но как текст сохранить не могу (юзаю Акробат Ридер последний) - получаются всякие загогулины. косяк не в кодировке, а в самом pdf-нике. думаю может защищен? :(
как извлечь?? ато набивать 9 страниц нехочецца. :(
PS нашел в портежах прогу pdf2html. никто не юзал?
»
- Для комментирования войдите или зарегистрируйтесь
Это значит, что
Это значит, что там используются встроенные шрифты или не true-type.
Если оно копирует коряво, то это уже не восстановишь (имхо), поскольку могут быть нанушены не только коды символов но и их последовательность.
Как вариант могу предложить попробовать поискать OCR.
По поводу pdfto* - есть стандартная тулза pdftotext из poppler.
Re: Это значит, что
вот ее я уже и заюзал. текст сохранил, но форматирование не сохранилось. пришлось перелопатить немного. но все равно спасибо :)
Проблема решена