Jak obejść brakujące „ostatnio zmodyfikowane” nagłówki?


13

Biegam wgettak:

wget --mirror --adjust-extension --convert-links --no-cookies http://tshepang.net -o log-main

Dostaję kilka takich wiadomości:

Last-modified header missing -- time-stamps turned off.

Podejrzewam, że oznacza to, że strony są pobierane ponownie, mimo że mam je lokalnie.

UWAGA : Chcę tego, aby nie musiałem ponownie pobierać istniejących plików za każdym razem, gdy uruchamiam polecenie mirror.


Czy jesteś właścicielem strony (jeśli naprawdę jest to tshepang.net). Jeśli tak, to czy serwer WWW jest apache i czy masz kontrolę nad jego konfiguracją? A przynajmniej jest włączony .htaccess z możliwością zastąpienia opcji?
forcefsck 18.03.11

@forcefsck: Nie, strona jest prowadzona przez Posterous. Mają interfejs API do czytania wszystkich postów, ale dla mnie to technologia uczenia się.
tshepang

Odpowiedzi:


10

Próbowałeś dodać -cparametr?

Fragment instrukcji wget:

-c - kontynuuj

Począwszy od Wget 1.7, jeśli użyjesz -c na niepustym pliku i okaże się, że serwer nie obsługuje dalszego pobierania, Wget odmówi rozpoczęcia pobierania od zera, co skutecznie zrujnuje istniejącą zawartość. Jeśli naprawdę chcesz, aby pobieranie rozpoczynało się od zera, usuń plik.

Począwszy od Wget 1.7, jeśli użyjesz -c pliku o takim samym rozmiarze jak plik na serwerze, Wget odmówi pobrania pliku i wydrukuje komunikat wyjaśniający. To samo dzieje się, gdy plik jest mniejszy na serwerze niż lokalnie (prawdopodobnie dlatego, że został zmieniony na serwerze od ostatniej próby pobrania) --- ponieważ „kontynuowanie” nie ma znaczenia, pobieranie nie następuje.

Po drugiej stronie monety, przy użyciu opcji -c, każdy plik większy na serwerze niż lokalnie będzie uważany za niekompletne pobieranie i tylko bajty „(długość (zdalna) - długość (lokalna))” zostaną pobrane i przeniesione na koniec pliku lokalnego. To zachowanie może być pożądane w niektórych przypadkach --- na przykład możesz użyć wget -c, aby pobrać tylko nową część, która została dołączona do zbioru danych lub pliku dziennika.

Według mojej wiedzy powinien on pomijać pliki, które zostały już pobrane i mają ten sam rozmiar.


Co jeśli plik jest mniejszy?
CJ7
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.