Неполное копирование сайтов
emark 9 марта, 2006 - 14:17
Возникла одна проблема, которую не удается красиво решить.
Иногда удобно производить неполное копирование какового либо
сайта. Причем, если сайт постоянно обновляется, хорошо бы
делать update интересующей информации. Чаще всего это wiki.
wget решает проблему, но не полностью. Если его использовать
с изменением скачанных файлов для локального просмотра, то
удваивается размер информации, хранящийся на локальном разделе
и нельзя прервать работу wget, если процесс слишком затянулся
(не будет выполнено преобразование).
Возникла идея отказаться от преобразования файлов, а файлы
сгружать на локальный web сервер. Но такой сервер один,
а сайтов интересных для копирования - много.
»
- Для комментирования войдите или зарегистрируйтесь
Меня тоже
Меня тоже интересует вопрос поддержки локальной копии gentoo-wiki.com
Может кто-то предложит хороший фариант как это сделать?
очень актуальный вопрос
так как там информация может не только добавлятся первым встречным но и удалятся.
HTrack по моему.
HTrack по моему. Умеет обновлять, резюмить закачку. Если сайт на все файлы отдаёт contentlength, или ещё лучше modified - то можно обновлять не напрягаясь. Есть фильтры на файлы и глубина закачки.
А можно
А можно ссылочку на него и на доку(лучше русскую, но можно и английскую, но с примерами)
Re: А можно
emerge -s httrack
* www-client/httrack
Latest version available: 3.23
Latest version installed: [ Not Installed ]
Size of downloaded files: 963 kB
Homepage: http://www.httrack.com/
Description: HTTrack Website Copier, Open Source Offline Browser
License: GPL-2
:)
*
а как настраивать www-client/khttrack ?
добавил сайт, глубину, но он ничего не закачивает
Re: HTrack по моему.
Вроде то, что нужно. Хотя работает значительно медленнее чем wget.
Ну по моему wget
Ну по моему wget парсить html, тем более js не умеет. :-)
Re: Ну по моему wget
Эт да... Алгоритм у httrack значительно сложнее.
Кому интересно, вот:
для gentoo-wiki.com, раздел HOWTO
httrack "http://gentoo-wiki.com/Index:HOWTO" -O "/tmp/www/gentoo-wiki.com" -v -F "Mozilla/4.04 [en] (Win95;I;Nav)" -i
для gentoo-wiki.com, раздел FAQ
httrack "http://gentoo-wiki.com/Index:FAQ" -O "/tmp/www/gentoo-wiki.com" -v -F "Mozilla/4.04 [en] (Win95;I;Nav)" -i
и т.д.
Можно сразу
httrack "http://gentoo-wiki.com/" -O "/tmp/www/gentoo-wiki.com" -v -F "Mozilla/4.04 [en] (Win95;I;Nav)" -i
но ждать придется долго Ж)