А можно ли через wget закачивать (зеркалировать) сайты??
WXP 8 июня, 2007 - 01:15
Насколько wget может справиться с задачей зеркалирования сайтов, но со следующими условиями.
1. необходимо ходить по ссылкам сайта: http://site/folder (т.е. не выходит из папки, только по уровням вверх)
2. сохранять только .html/.htm (остальное не сохранять)
3. возможность прерывания этого процесса и продолжения через некоторое время
Не знаю какие там флаги могут отвечать за сохранение только .html файлов.. Не подскажите ли?
Ну и ещё желательно список УРЛов по которым ходить разрешено (по _всем_ остальным нельзя).
Кто-нибудь занимался сохранением копий сайтов через wget?
»
- Для комментирования войдите или зарегистрируйтесь
man
man wget
и ещё вагон и маленькая тележка про куки, время, прокси, ДНС и ещё чёрт зает что.
ну что - трудно на ман глянуть?
Лучше info wget.
Лучше info wget. Целая книжка однако. С примерами опять жеж.
если не осилите
если не осилите вгет, то есть замечательная тулза httrack к ней вебморда прилагается :D
а что за морда?
а что за морда? как называется?
вместе с ним и
вместе с ним и идёт
был в портеджах khttrack, но его выкинули некоторое время назад.
webhttrack морда
webhttrack
морда называется. Как уже сказали, идёт в комплекте с httrack.
Да я-то как
Да я-то как раз-таки httack не осилил (-:
так и не смог решить эту проблему с правилами:
http://gentoo.ru/node/7235
почему подумал и о wget..
Кое чего
Кое чего начинает вырисовываться...
т.о. сливаю только docs*.html файлы из всех директорий.
Почему сливается файл "robots.txt"? Под какие правила он подпадает?
Почему-то закачиваются ещё пустые папки (они не подпадают под правило!). Они действительно есть на сайте. Но нафига их качать?
(там они не пустые, у меня пустые)
как такое можно реализовать?
Хм.. а поведение
Хм.. а поведение в целом интересное..
Командую:
А почему же он его вообще сохраняет, если адрес у меня в отрицательных правилах??
Что-то совсем не в курю в управление вгэтом.. Ман читаю, не помогает (-:
Реально ли указать ему чтобы он НЕ ХОДИЛ по определённым ссылкам, не то что даже сохранял..?? Вроде указал ему как надо, а такое впечатление что указал я ему "только по этим и ходи" (-: Он всё равно продолжает уверенно топать по ним..
Народ, скажите
Народ, скажите пожалуйста, а можно ли WGet заставить ходить только по ссылкам удовлетворяющим правилам?? Он ходит по всем абсолютно, сохраняет, а потом удаляет тут же - типа под правило не подошло.
Как ему поставить так, чтобы он ходил только по ссылкам где присутствует подстрока "str"?
Внимательное прочтение man wget ...
Внимательное прочтение man wget обогатит твой опыт в нужном объёме.
Опции -A -R действительно скачивают и удаляют файлы. Тебе надо воспользоваться опцией -L типа wget site.com -Lsite.com, странички будут скачиваться только с данного сайта. Продолжение скачивания -с рааботает только в случае с большими файлами. С html её применять почти бесполезно.
"ходить по
"ходить по указанным сайтам" я уже прочёл. Вопрос был о хождении по указанным урлам, а не сайтам.
По сайту-то он одному ходит, а вот урлы.. Я хочу ему задать правила УРЛов, по которым ему нужно ходить (по остальным не нужно).
Или -L и этим занимается?
че значит твое
че значит твое многозначительное ходить по урлам???
он ходит по сайт, сохраняет страницы. что еще от него требуецо то???
наверно, чтоб
наверно, чтоб качал только определённые (правилами) страницы с сайта
Как верно
Как верно сказал Шаманыш - именно так.
Я хочу, чтобы скан проходил только по определённым страницам. (ну нафига мне качать весь сайт (даже если и не сохраняя страницы), если я заранее знаю, что на тех страницах ничего нужного мне нет? )
Я хочу задать правило, скажем переходи только на страницы в которых встречается "story". Он должен ходить по:
http://site/my-story.html
http://site/my-story-2.html
http://site/my-story-3.html
http://site/our-story-1.html
.. и т.д.
А он лазиет по всем страницам непонятно зачем. А я существенно могу сократить ему работу, указав, что на других страницах ничего не будет удовлетворяющего заданным правилам.
врядле вгет
врядле вгет такое умеет...
значит всё-таки
значит всё-таки прийдётся мучить httrack на эту тему..
насколько я
насколько я понимаю - лазит он по страницам чтобы ссылки из них брать, иначе как он узнает что там нет тех ссылок что нужно?
Вообще да, но! (-:
Вообще да, но! (-: Если я знаю, что мне нужен только этот раздел и ссылки на него есть только внутри этого раздела, зачем качать все подряд, другие? В этом же случае получается пустая трата времени..
а как он о них
а как он о них узнаёт? и как _ему_ узнать что их там нет - нейроинтерфейсов пока нет...
если ты всё знаеш - напиши список ссылок, или страницу ему скорми как список ссылок
Ну ему о них
Ну ему о них знать-то и не надо.
Список ссылок это уже чуть ближе, но это если ссылки однотипные, что-то типа:
http://site/folder/link-1.html
http://site/folder/link-2.html
http://site/folder/link-5.html
А в целом я пытаюсь заставить его ходить по ссылкам, в которых присутствует определённая подстрока. Ествественно, что в качестве стартовой точки я даю ему именно такую страницу. А чего здесь не понятного, ходить только по данному разделу?
Как определить "только данный раздел"? По наличию вхождения подстроки в урле. А больше ничего я от него и не требую...
Т.е. продвигаться только по тем ссылкам, у которых присутствует определённое вхождение в урл.
(Там можно задать ограничение на хождение в пределах одной папки, но если в "одной папке" несколько "разделов" сайта, то эта опция в данном случае становиться бесполезной)