Рекурсивная загрузка rss-лент с помощью wget - как?
Есть желание продублировать в локальной сети некоторые rss-ленты.
Для простых rss, вроде bash.org и т.п. всё очень просто - скачивается главный xml-файл и сохраняется в каталоге, "расшаренном" через apache:
cd /var/www/localhost/htdocs/bash/ wget http://bash.org.ru/rss/ -O bash.org.ru/index.xml
И теперь эта же rss лента становится доступной по адресу http://172.17.4.13/bash/bash.org.ru на моём сервере (172.17.4.13 - это, соответственно, его IP-адрес).
Но некоторые, в основном новостные, rss содержат в себе лишь краткую информацию о новости, основной же текст (с картинками) доступен по ссылке "под катом" в основном xml-файле. Поэтому есть необходимость загружать помимо этого файла все странички, на которые он ссылается. А ещё желательно, чтобы это как-то кэшировалось, потому что появиться может только одна новость, а качать придётся заново все ссылки.
Можно ли это как-то провернуть используя wget. Что-то я игрался с параметрами -F -r --level=1 -p для рекурсивной загрузки, но не получилось - загружался всё равно только головной xml-файл.
Или для rss есть какие-то более удобные инструменты, специально для этого предназначенные?
- Для комментирования войдите или зарегистрируйтесь
1) То, что вы описали, похоже
1) То, что вы описали, похоже больше на работу кэширующего прокси.
2) Я чего-то не нашел информации от возможности вгетом парсить иксемель.