Неполное копирование сайтов

Возникла одна проблема, которую не удается красиво решить.
Иногда удобно производить неполное копирование какового либо
сайта. Причем, если сайт постоянно обновляется, хорошо бы
делать update интересующей информации. Чаще всего это wiki.
wget решает проблему, но не полностью. Если его использовать
с изменением скачанных файлов для локального просмотра, то
удваивается размер информации, хранящийся на локальном разделе
и нельзя прервать работу wget, если процесс слишком затянулся
(не будет выполнено преобразование).

Возникла идея отказаться от преобразования файлов, а файлы
сгружать на локальный web сервер. Но такой сервер один,
а сайтов интересных для копирования - много.

Меня тоже

Меня тоже интересует вопрос поддержки локальной копии gentoo-wiki.com
Может кто-то предложит хороший фариант как это сделать?

очень актуальный вопрос

так как там информация может не только добавлятся первым встречным но и удалятся.

HTrack по моему.

HTrack по моему. Умеет обновлять, резюмить закачку. Если сайт на все файлы отдаёт contentlength, или ещё лучше modified - то можно обновлять не напрягаясь. Есть фильтры на файлы и глубина закачки.

А можно

А можно ссылочку на него и на доку(лучше русскую, но можно и английскую, но с примерами)

Re: А можно

ZmiyGorinich написал(а):
А можно ссылочку на него и на доку(лучше русскую, но можно и английскую, но с примерами)

emerge -s httrack

* www-client/httrack
Latest version available: 3.23
Latest version installed: [ Not Installed ]
Size of downloaded files: 963 kB
Homepage: http://www.httrack.com/
Description: HTTrack Website Copier, Open Source Offline Browser
License: GPL-2

:)

*

а как настраивать www-client/khttrack ?
добавил сайт, глубину, но он ничего не закачивает

Re: HTrack по моему.

aircrazy написал(а):
HTrack по моему. Умеет обновлять, резюмить закачку. Если сайт на все файлы отдаёт contentlength, или ещё лучше modified - то можно обновлять не напрягаясь. Есть фильтры на файлы и глубина закачки.

Вроде то, что нужно. Хотя работает значительно медленнее чем wget.

Ну по моему wget

Ну по моему wget парсить html, тем более js не умеет. :-)

Re: Ну по моему wget

aircrazy написал(а):
Ну по моему wget парсить html, тем более js не умеет. :-)

Эт да... Алгоритм у httrack значительно сложнее.

Кому интересно, вот:

для gentoo-wiki.com, раздел HOWTO

httrack "http://gentoo-wiki.com/Index:HOWTO" -O "/tmp/www/gentoo-wiki.com" -v -F "Mozilla/4.04 [en] (Win95;I;Nav)" -i

для gentoo-wiki.com, раздел FAQ

httrack "http://gentoo-wiki.com/Index:FAQ" -O "/tmp/www/gentoo-wiki.com" -v -F "Mozilla/4.04 [en] (Win95;I;Nav)" -i

и т.д.

Можно сразу

httrack "http://gentoo-wiki.com/" -O "/tmp/www/gentoo-wiki.com" -v -F "Mozilla/4.04 [en] (Win95;I;Nav)" -i

но ждать придется долго Ж)

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".