еще раз про wget

проблема в следующем - выкачиваю некий сайт,
в хтаксесе которого написано
--------------
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d

RewriteRule ^(.*)$ index.php [L,QSA]
--------------
после завершения начинаю изучать результаты и такое ощущение что при рекурсивной скачки страницы для wget готовятся совсем не так как для браузера. Если надо подробно могу с примерами. Но я уже всю голову сломала почему такое может происходить. Указание агента ничего не дало.

Примеры бы не помешали...

Примеры бы не помешали...

Я не смог понять твой комментарий...
И по этому поводу решил подарить тебе запятую: ",". Используй её с умом!

http://www.mir-podarkov.ru/ca

http://www.mir-podarkov.ru/catalog/classic/55/#content - то что дролжно быть

то что получается

http://www.mir-podarkov.ru/temp/index.html

ps #content - я убираю из ссылок при попытках сгравить сайт.

Wget все делает правильно

chombo написал(а):
http://www.mir-podarkov.ru/catalog/classic/55/#content - то что дролжно быть

то что получается

http://www.mir-podarkov.ru/temp/index.html

ps #content - я убираю из ссылок при попытках сгравить сайт.

Есть такая замечательная штука, как mod_rewrite, коим и пользуется автор сайта. В связи с чем физическая его структура никак не соответствует логической. Wget таких выкрутасов естественно не понимает и сохраняет ту структуру, которую ему этот самый rewrite подкладывает.

Чтобы вам было понятно, как это работает, советую погуглить ЧПУ, mod_rewrite

Я не смог понять твой комментарий...
И по этому поводу решил подарить тебе запятую: ",". Используй её с умом!

ой, мы вероятно друг друга не

ой, мы вероятно друг друга не поняли. Я знаю что такое "ЧПУ, mod_rewrite"

и со структурой там все более или менее нормально в итоге получается. Не нормально с контентом.

http://www.mir-podarkov.ru/temp/index.html - вот это лежит там и где и должно быть file://local/catalog/classic/55/

chombo написал(а):ой, мы

chombo написал(а):
ой, мы вероятно друг друга не поняли. Я знаю что такое "ЧПУ, mod_rewrite"

и со структурой там все более или менее нормально в итоге получается. Не нормально с контентом.

http://www.mir-podarkov.ru/temp/index.html - вот это лежит там и где и должно быть file://local/catalog/classic/55/

Теперь понял :)

Вообще странно. В самом деле почему-то обрезает страницу. При чем если загрузить ее же отдельно, все нормально...
Что самое странное - все "испорченные" страницы имеют одно и то же содержимое. Даже разница в размере у них порядка 10-15 байт.

Нужно как-то посмотреть, что посылает в GET-запросе wget серверу. Если у вас есть доступ к исходникам движка и вы можете это сделать - добавьте пару строк кода в index.php, чтоб он записывал в файл содержимое GET.

что-то вроде:

....
$file = fopen ('filename', 'a');
fwrite($file, "GET: '"$_GET . "', QUERY: '" . $_SERVER['QUERY_STRING'] . "'\n");
fclose($file);

Затем выполните wget http://www.mir-podarkov.ru/ -r -k --level=1 -S --no-cache
После чего выложите, что вам скрипт сохранит.

PS
Не обнаружил более вменяемого способа имеющимися у меня средствами посмотреть, что отправляет серверу wget...

Я не смог понять твой комментарий...
И по этому поводу решил подарить тебе запятую: ",". Используй её с умом!

так бы и попросил. ничего

так бы и попросил. ничего криминального или проливающего свет на то что происходит я там не увидела.

Get везде пустой.

chombo написал(а): так бы и

chombo написал(а):
так бы и попросил. ничего криминального или проливающего свет на то что происходит я там не увидела.

Get везде пустой.

Ой, шот я туплю.... (((
Гет - ет жешь массив... Да и в правиле rewrite`а ничего в параметрах не передается...

$_SERVER['QUERY_STRING'] надо посмотреть. Или логи апача - и узнать все-таки, чего же у сервера просит wget

Я не смог понять твой комментарий...
И по этому поводу решил подарить тебе запятую: ",". Используй её с умом!

ну да, не парься я знаю что

ну да, не парься я знаю что массив.

я смотрю $_SERVER['REQUEST_URI'] и $_SERVER['QUERY_STRING']

$_SERVER['QUERY_STRING'] - пустой.

Попробуйте вот так:

wget http://www.mir-podarkov.ru/ -r -k --header "Cookie: "

остальные опции по вкусу

Я не смог понять твой комментарий...
И по этому поводу решил подарить тебе запятую: ",". Используй её с умом!

Youshi написал(а): wget

Youshi написал(а):
wget http://www.mir-podarkov.ru/ -r -k --header "Cookie: "

остальные опции по вкусу

Вариант подошел? Или еще что-то не так?

Я не смог понять твой комментарий...
И по этому поводу решил подарить тебе запятую: ",". Используй её с умом!

пока не смотрела. на выходных

пока не смотрела. на выходных посмотрю.

Как-то сталкивался с выкачкой

Как-то сталкивался с выкачкой веб-сайтов и чем-то вгэт мне не особо угодил.. Попробуйте httrack - очень стоящая вещь! Она создана именно для этих целей.

она делает так же. если это

она делает так же. если это ответить на ваш вопрос.

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".