[Решено] Небольшой вопрос про wget
Мне нужно скачать сайт по http. На сайте куча страниц - десятки тысяч.
Я запускаю скачивание командой wget -ckr ...
Ключик -c после перезапуска wget даёт возможность продолжить загрузку, не скачивая файлы заново.
Это, конечно, хорошо. Но проблема в том, что файлов очень много. После перезапуска wget начинает идти по файлам с самого начала и пишет "Файл уже загружен полностью; нечего выполнять"
Учитывая то, что файлов уже набралось под сто тысяч, времени на эти пустые операции уходит очень много.
Можно ли сделать так, чтобы wget запоминал, на каком именно файле остановилось скачивание, а также какие ссылки он держал в памяти при рекуррентном проходе сайта для того, чтобы сразу продолжить скачивать, а не тратить время на повторный проход дерева сайта?
В man wget я решения не увидел. В гугле не могу придумать запрос, который не вёл бы к совету поставить ключик "-c" для продолжения скачивания - это я и без гугла знаю.
Может быть, кто-нибудь подскажет, что делать? Или придётся брать в руки perl и что-то ваять на эту тему.
- Для комментирования войдите или зарегистрируйтесь
почему загрузка прерывается?
почему загрузка прерывается? поставте больше таймаут и кол-во попыток
или ищите спец софтину, попробуйте www-client/fetch(сам не юзал)
Ну как сказать ... жизнь
Ну как сказать ... жизнь такая. То электричество отключится, то жена пылесос подключит вместо ноутбука, а у меня в ноутбуке аккумулятор дохлый, через несколько минут отключается.
Софтину надо посмотреть. wget просто роднее как-то.
$BOC(\pi, e)$
.
Возьмите в руки www-client/httrack
а эта строка - это просто подпись
Спасибо за ссылки, буду
Спасибо за ссылки, буду пробовать...
$BOC(\pi, e)$
Да, похоже, httrack решает
Да, похоже, httrack решает поставленную задачу. Более точно посмотрю через сутки.
$BOC(\pi, e)$
Всё проверил, действительно
Всё проверил, действительно httrack имеет такую возможность.
После скачивания 25 тыс. файлов я его перезапустил
httrack --continue
и уже через несколько секунд количество файлов начало расти, т.е. программа не перебирала уже скачанные файлы.
$BOC(\pi, e)$