Неполное копирование сайтов

emark 9 марта, 2006 - 14:17

Общие вопросы

Возникла одна проблема, которую не удается красиво решить.
Иногда удобно производить неполное копирование какового либо
сайта. Причем, если сайт постоянно обновляется, хорошо бы
делать update интересующей информации. Чаще всего это wiki.
wget решает проблему, но не полностью. Если его использовать
с изменением скачанных файлов для локального просмотра, то
удваивается размер информации, хранящийся на локальном разделе
и нельзя прервать работу wget, если процесс слишком затянулся
(не будет выполнено преобразование).

Возникла идея отказаться от преобразования файлов, а файлы
сгружать на локальный web сервер. Но такой сервер один,
а сайтов интересных для копирования - много.

Для комментирования войдите или зарегистрируйтесь

Меня тоже

Автор ZmiyGorinich, дата создания 9 марта, 2006 - 15:29.

Меня тоже интересует вопрос поддержки локальной копии gentoo-wiki.com
Может кто-то предложит хороший фариант как это сделать?

Для комментирования войдите или зарегистрируйтесь

очень актуальный вопрос

Автор kiev1, дата создания 9 марта, 2006 - 16:18.

так как там информация может не только добавлятся первым встречным но и удалятся.

Для комментирования войдите или зарегистрируйтесь

HTrack по моему.

Автор aircrazy, дата создания 9 марта, 2006 - 16:57.

HTrack по моему. Умеет обновлять, резюмить закачку. Если сайт на все файлы отдаёт contentlength, или ещё лучше modified - то можно обновлять не напрягаясь. Есть фильтры на файлы и глубина закачки.

Для комментирования войдите или зарегистрируйтесь

А можно

Автор ZmiyGorinich, дата создания 9 марта, 2006 - 18:24.

А можно ссылочку на него и на доку(лучше русскую, но можно и английскую, но с примерами)

Для комментирования войдите или зарегистрируйтесь

Re: А можно

Автор emark, дата создания 9 марта, 2006 - 19:11.

ZmiyGorinich написал(а):

А можно ссылочку на него и на доку(лучше русскую, но можно и английскую, но с примерами)

emerge -s httrack

* www-client/httrack
Latest version available: 3.23
Latest version installed: [ Not Installed ]
Size of downloaded files: 963 kB
Homepage: http://www.httrack.com/
Description: HTTrack Website Copier, Open Source Offline Browser
License: GPL-2

Для комментирования войдите или зарегистрируйтесь

*

Автор kiev1, дата создания 15 марта, 2006 - 14:56.

а как настраивать www-client/khttrack ?
добавил сайт, глубину, но он ничего не закачивает

Для комментирования войдите или зарегистрируйтесь

Re: HTrack по моему.

Автор emark, дата создания 9 марта, 2006 - 23:08.

aircrazy написал(а):

HTrack по моему. Умеет обновлять, резюмить закачку. Если сайт на все файлы отдаёт contentlength, или ещё лучше modified - то можно обновлять не напрягаясь. Есть фильтры на файлы и глубина закачки.

Вроде то, что нужно. Хотя работает значительно медленнее чем wget.

Для комментирования войдите или зарегистрируйтесь

Ну по моему wget

Автор aircrazy, дата создания 10 марта, 2006 - 10:38.

Ну по моему wget парсить html, тем более js не умеет. :-)

Для комментирования войдите или зарегистрируйтесь

Re: Ну по моему wget

Автор emark, дата создания 10 марта, 2006 - 11:39.

aircrazy написал(а):

Ну по моему wget парсить html, тем более js не умеет. :-)

Эт да... Алгоритм у httrack значительно сложнее.

Кому интересно, вот:

для gentoo-wiki.com, раздел HOWTO

httrack "http://gentoo-wiki.com/Index:HOWTO" -O "/tmp/www/gentoo-wiki.com" -v -F "Mozilla/4.04 [en] (Win95;I;Nav)" -i

для gentoo-wiki.com, раздел FAQ

httrack "http://gentoo-wiki.com/Index:FAQ" -O "/tmp/www/gentoo-wiki.com" -v -F "Mozilla/4.04 [en] (Win95;I;Nav)" -i

и т.д.

Можно сразу

httrack "http://gentoo-wiki.com/" -O "/tmp/www/gentoo-wiki.com" -v -F "Mozilla/4.04 [en] (Win95;I;Nav)" -i

но ждать придется долго Ж)

Для комментирования войдите или зарегистрируйтесь

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".

Вход в аккаунт

Меню

Навигация

Обсуждаемые темы

Новые записи в блогах

Сейчас на сайте

Сбор новостей