еще раз про wget
chombo 28 ноября, 2009 - 11:06
проблема в следующем - выкачиваю некий сайт,
в хтаксесе которого написано
--------------
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule ^(.*)$ index.php [L,QSA]
--------------
после завершения начинаю изучать результаты и такое ощущение что при рекурсивной скачки страницы для wget готовятся совсем не так как для браузера. Если надо подробно могу с примерами. Но я уже всю голову сломала почему такое может происходить. Указание агента ничего не дало.
»
- Для комментирования войдите или зарегистрируйтесь
Примеры бы не помешали...
Примеры бы не помешали...
Я не смог понять твой комментарий...
И по этому поводу решил подарить тебе запятую: ",". Используй её с умом!
http://www.mir-podarkov.ru/ca
http://www.mir-podarkov.ru/catalog/classic/55/#content - то что дролжно быть
то что получается
http://www.mir-podarkov.ru/temp/index.html
ps #content - я убираю из ссылок при попытках сгравить сайт.
Wget все делает правильно
Есть такая замечательная штука, как mod_rewrite, коим и пользуется автор сайта. В связи с чем физическая его структура никак не соответствует логической. Wget таких выкрутасов естественно не понимает и сохраняет ту структуру, которую ему этот самый rewrite подкладывает.
Чтобы вам было понятно, как это работает, советую погуглить ЧПУ, mod_rewrite
Я не смог понять твой комментарий...
И по этому поводу решил подарить тебе запятую: ",". Используй её с умом!
ой, мы вероятно друг друга не
ой, мы вероятно друг друга не поняли. Я знаю что такое "ЧПУ, mod_rewrite"
и со структурой там все более или менее нормально в итоге получается. Не нормально с контентом.
http://www.mir-podarkov.ru/temp/index.html - вот это лежит там и где и должно быть file://local/catalog/classic/55/
chombo написал(а):ой, мы
Теперь понял :)
Вообще странно. В самом деле почему-то обрезает страницу. При чем если загрузить ее же отдельно, все нормально...
Что самое странное - все "испорченные" страницы имеют одно и то же содержимое. Даже разница в размере у них порядка 10-15 байт.
Нужно как-то посмотреть, что посылает в GET-запросе wget серверу. Если у вас есть доступ к исходникам движка и вы можете это сделать - добавьте пару строк кода в index.php, чтоб он записывал в файл содержимое GET.
что-то вроде:
Затем выполните
wget http://www.mir-podarkov.ru/ -r -k --level=1 -S --no-cache
После чего выложите, что вам скрипт сохранит.
PS
Не обнаружил более вменяемого способа имеющимися у меня средствами посмотреть, что отправляет серверу wget...
Я не смог понять твой комментарий...
И по этому поводу решил подарить тебе запятую: ",". Используй её с умом!
так бы и попросил. ничего
так бы и попросил. ничего криминального или проливающего свет на то что происходит я там не увидела.
Get везде пустой.
chombo написал(а): так бы и
Ой, шот я туплю.... (((
Гет - ет жешь массив... Да и в правиле rewrite`а ничего в параметрах не передается...
$_SERVER['QUERY_STRING'] надо посмотреть. Или логи апача - и узнать все-таки, чего же у сервера просит wget
Я не смог понять твой комментарий...
И по этому поводу решил подарить тебе запятую: ",". Используй её с умом!
ну да, не парься я знаю что
ну да, не парься я знаю что массив.
я смотрю $_SERVER['REQUEST_URI'] и $_SERVER['QUERY_STRING']
$_SERVER['QUERY_STRING'] - пустой.
Попробуйте вот так:
wget http://www.mir-podarkov.ru/ -r -k --header "Cookie: "
остальные опции по вкусу
Я не смог понять твой комментарий...
И по этому поводу решил подарить тебе запятую: ",". Используй её с умом!
Youshi написал(а): wget
Вариант подошел? Или еще что-то не так?
Я не смог понять твой комментарий...
И по этому поводу решил подарить тебе запятую: ",". Используй её с умом!
пока не смотрела. на выходных
пока не смотрела. на выходных посмотрю.
Как-то сталкивался с выкачкой
Как-то сталкивался с выкачкой веб-сайтов и чем-то вгэт мне не особо угодил.. Попробуйте httrack - очень стоящая вещь! Она создана именно для этих целей.
она делает так же. если это
она делает так же. если это ответить на ваш вопрос.