А можно ли через wget закачивать (зеркалировать) сайты??

WXP 8 июня, 2007 - 01:15

Общие вопросы

Насколько wget может справиться с задачей зеркалирования сайтов, но со следующими условиями.

1. необходимо ходить по ссылкам сайта: http://site/folder (т.е. не выходит из папки, только по уровням вверх)
2. сохранять только .html/.htm (остальное не сохранять)
3. возможность прерывания этого процесса и продолжения через некоторое время

Не знаю какие там флаги могут отвечать за сохранение только .html файлов.. Не подскажите ли?
Ну и ещё желательно список УРЛов по которым ходить разрешено (по _всем_ остальным нельзя).

Кто-нибудь занимался сохранением копий сайтов через wget?

Для комментирования войдите или зарегистрируйтесь

man

Автор evadim, дата создания 8 июня, 2007 - 02:13.

man wget

 -k
--convert-links
After the download is complete, convert the links in the document to make them suitable for local viewing.  This affects not only the visible hyperlinks, but any part of the document that links to external content, such as embedded images, links to style sheets, hyperlinks to non-HTML content, etc.

--page-requisites

Recursive Accept/Reject Options
-A acclist --accept acclist
-R rejlist --reject rejlist
Specify comma-separated lists of file name suffixes or patterns to accept or reject (@pxref{Types of Files} for more details).

и ещё вагон и маленькая тележка про куки, время, прокси, ДНС и ещё чёрт зает что.
ну что - трудно на ман глянуть?

Для комментирования войдите или зарегистрируйтесь

Лучше info wget.

Автор wi, дата создания 8 июня, 2007 - 13:56.

Лучше info wget. Целая книжка однако. С примерами опять жеж.

Для комментирования войдите или зарегистрируйтесь

если не осилите

Автор Шаманыш, дата создания 8 июня, 2007 - 09:10.

если не осилите вгет, то есть замечательная тулза httrack к ней вебморда прилагается :D

Для комментирования войдите или зарегистрируйтесь

а что за морда?

Автор roman, дата создания 8 июня, 2007 - 11:19.

а что за морда? как называется?

Для комментирования войдите или зарегистрируйтесь

вместе с ним и

Автор Шаманыш, дата создания 8 июня, 2007 - 12:00.

вместе с ним и идёт

был в портеджах khttrack, но его выкинули некоторое время назад.

Для комментирования войдите или зарегистрируйтесь

webhttrack морда

Автор WXP, дата создания 8 июня, 2007 - 18:21.

webhttrack
морда называется. Как уже сказали, идёт в комплекте с httrack.

Для комментирования войдите или зарегистрируйтесь

Да я-то как

Автор WXP, дата создания 8 июня, 2007 - 18:22.

Да я-то как раз-таки httack не осилил (-:

так и не смог решить эту проблему с правилами:
http://gentoo.ru/node/7235

почему подумал и о wget..

Для комментирования войдите или зарегистрируйтесь

Кое чего

Автор WXP, дата создания 10 июня, 2007 - 01:56.

Кое чего начинает вырисовываться...

$ wget -r -v -A docs*.html http://site/folder/

т.о. сливаю только docs*.html файлы из всех директорий.

Почему сливается файл "robots.txt"? Под какие правила он подпадает?

Почему-то закачиваются ещё пустые папки (они не подпадают под правило!). Они действительно есть на сайте. Но нафига их качать?
(там они не пустые, у меня пустые)

как такое можно реализовать?

Для комментирования войдите или зарегистрируйтесь

Хм.. а поведение

Автор WXP, дата создания 10 июня, 2007 - 02:14.

Хм.. а поведение в целом интересное..

Командую:

$ wget -r -v -A docs*.html -R file*.html http://site/folder/
...
02:07:02 (46.25 MB/s) - `http://site/folder/file-30.html' saved [29699]
Removing file-30.html since it should be rejected.
....

А почему же он его вообще сохраняет, если адрес у меня в отрицательных правилах??
Что-то совсем не в курю в управление вгэтом.. Ман читаю, не помогает (-:

Реально ли указать ему чтобы он НЕ ХОДИЛ по определённым ссылкам, не то что даже сохранял..?? Вроде указал ему как надо, а такое впечатление что указал я ему "только по этим и ходи" (-: Он всё равно продолжает уверенно топать по ним..

Для комментирования войдите или зарегистрируйтесь

Народ, скажите

Автор WXP, дата создания 13 июня, 2007 - 03:42.

Народ, скажите пожалуйста, а можно ли WGet заставить ходить только по ссылкам удовлетворяющим правилам?? Он ходит по всем абсолютно, сохраняет, а потом удаляет тут же - типа под правило не подошло.

Как ему поставить так, чтобы он ходил только по ссылкам где присутствует подстрока "str"?

Для комментирования войдите или зарегистрируйтесь

Внимательное прочтение man wget ...

Автор Rocker (не зарегистрирован), дата создания 13 июня, 2007 - 11:27.

Внимательное прочтение man wget обогатит твой опыт в нужном объёме.
Опции -A -R действительно скачивают и удаляют файлы. Тебе надо воспользоваться опцией -L типа wget site.com -Lsite.com, странички будут скачиваться только с данного сайта. Продолжение скачивания -с рааботает только в случае с большими файлами. С html её применять почти бесполезно.

Для комментирования войдите или зарегистрируйтесь

"ходить по

Автор WXP, дата создания 13 июня, 2007 - 16:40.

"ходить по указанным сайтам" я уже прочёл. Вопрос был о хождении по указанным урлам, а не сайтам.
По сайту-то он одному ходит, а вот урлы.. Я хочу ему задать правила УРЛов, по которым ему нужно ходить (по остальным не нужно).
Или -L и этим занимается?

Для комментирования войдите или зарегистрируйтесь

че значит твое

Автор DCrystal, дата создания 13 июня, 2007 - 16:58.

че значит твое многозначительное ходить по урлам???
он ходит по сайт, сохраняет страницы. что еще от него требуецо то???

Для комментирования войдите или зарегистрируйтесь

наверно, чтоб

Автор Шаманыш, дата создания 13 июня, 2007 - 17:56.

наверно, чтоб качал только определённые (правилами) страницы с сайта

Для комментирования войдите или зарегистрируйтесь

Как верно

Автор WXP, дата создания 14 июня, 2007 - 00:21.

Как верно сказал Шаманыш - именно так.
Я хочу, чтобы скан проходил только по определённым страницам. (ну нафига мне качать весь сайт (даже если и не сохраняя страницы), если я заранее знаю, что на тех страницах ничего нужного мне нет? )

Я хочу задать правило, скажем переходи только на страницы в которых встречается "story". Он должен ходить по:
http://site/my-story.html
http://site/my-story-2.html
http://site/my-story-3.html
http://site/our-story-1.html
.. и т.д.

А он лазиет по всем страницам непонятно зачем. А я существенно могу сократить ему работу, указав, что на других страницах ничего не будет удовлетворяющего заданным правилам.

Для комментирования войдите или зарегистрируйтесь

врядле вгет

Автор DCrystal, дата создания 14 июня, 2007 - 00:28.

врядле вгет такое умеет...

Для комментирования войдите или зарегистрируйтесь

значит всё-таки

Автор WXP, дата создания 14 июня, 2007 - 15:21.

значит всё-таки прийдётся мучить httrack на эту тему..

Для комментирования войдите или зарегистрируйтесь

насколько я

Автор evadim, дата создания 14 июня, 2007 - 22:18.

насколько я понимаю - лазит он по страницам чтобы ссылки из них брать, иначе как он узнает что там нет тех ссылок что нужно?

Для комментирования войдите или зарегистрируйтесь

Вообще да, но! (-:

Автор WXP, дата создания 15 июня, 2007 - 00:08.

Вообще да, но! (-: Если я знаю, что мне нужен только этот раздел и ссылки на него есть только внутри этого раздела, зачем качать все подряд, другие? В этом же случае получается пустая трата времени..

Для комментирования войдите или зарегистрируйтесь

а как он о них

Автор evadim, дата создания 15 июня, 2007 - 00:25.

а как он о них узнаёт? и как _ему_ узнать что их там нет - нейроинтерфейсов пока нет...
если ты всё знаеш - напиши список ссылок, или страницу ему скорми как список ссылок

Для комментирования войдите или зарегистрируйтесь

Ну ему о них

Автор WXP, дата создания 15 июня, 2007 - 01:35.

Ну ему о них знать-то и не надо.
Список ссылок это уже чуть ближе, но это если ссылки однотипные, что-то типа:
http://site/folder/link-1.html
http://site/folder/link-2.html
http://site/folder/link-5.html

А в целом я пытаюсь заставить его ходить по ссылкам, в которых присутствует определённая подстрока. Ествественно, что в качестве стартовой точки я даю ему именно такую страницу. А чего здесь не понятного, ходить только по данному разделу?
Как определить "только данный раздел"? По наличию вхождения подстроки в урле. А больше ничего я от него и не требую...

Т.е. продвигаться только по тем ссылкам, у которых присутствует определённое вхождение в урл.

(Там можно задать ограничение на хождение в пределах одной папки, но если в "одной папке" несколько "разделов" сайта, то эта опция в данном случае становиться бесполезной)

Для комментирования войдите или зарегистрируйтесь

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".

Вход в аккаунт

Меню

Навигация

Обсуждаемые темы

Новые записи в блогах

Сейчас на сайте

Сбор новостей