W jakim przypadku wolę używać Wget niż przeglądarki?
Słyszałem, że Richard Stallman używa go zamiast przeglądarki z pewnych powodów anonimowości. A co widzi serwer, gdy dostajesz jego pliki za pomocą Wget?
W jakim przypadku wolę używać Wget niż przeglądarki?
Słyszałem, że Richard Stallman używa go zamiast przeglądarki z pewnych powodów anonimowości. A co widzi serwer, gdy dostajesz jego pliki za pomocą Wget?
Odpowiedzi:
Zazwyczaj nigdy nie używałbyś go „zamiast przeglądarki”. Przeglądarki renderują HTML, umożliwiają klikanie linków (w przeciwieństwie do konieczności ręcznego kopiowania adresu URL do innej komendy wget) itp. Używanie wget jako człowieka nie ma żadnej zalety. Jeśli obawiasz się o prywatność, istnieje milion sposobów na wyczyszczenie przeglądarki (lub możesz użyć mniej funkcjonalnej przeglądarki, takiej jak Lynx, jeśli naprawdę chcesz uzyskać dostęp do sieci bez niszczenia wyglądu interfejsu użytkownika).
Wget jest używany przede wszystkim, gdy potrzebujesz szybkiego, taniego, skryptowalnego / wiersza poleceń sposobu pobierania plików. Na przykład możesz wstawić wget do skryptu, aby pobrać stronę internetową, która jest często aktualizowana o nowe dane, do czego tak naprawdę nie można używać przeglądarki. Możesz użyć różnych opcji wget do indeksowania i automatycznego zapisywania strony internetowej, czego większość przeglądarek nie może zrobić, przynajmniej bez rozszerzeń.
Krótko mówiąc, przeglądarki to aplikacje dla ludzi przeglądających Internet, wget to narzędzie dla maszyn i zaawansowanych użytkowników przenoszących dane przez HTTP. Bardzo podobne w tym, co robią (ściągają pliki ze stron internetowych), ale całkowicie odmienne w użyciu.
Jeśli chodzi o to, które serwery „widzą”, gdy dostajesz rzeczy z wget: wszyscy klienci HTTP (przeglądarki, wget, curl, inne podobne aplikacje) przesyłają tak zwany „User Agent”, który jest po prostu ciągiem opisującym przeglądarkę (lub w dzisiejszych czasach, opisuje, jakie funkcje przeglądarki ma). Można to wykorzystać do wyświetlenia różnych treści w zależności od przeglądarki użytkownika (tzn. Google próbuje nie reklamować Chrome osobom, które już korzystają z Chrome). Niektórzy głupcy próbują zablokować shenanigany zaawansowanych użytkowników, blokując ciąg agenta użytkownika wget, ale możesz po prostu sfałszować ciąg agenta użytkownika Chrome, aby obejść ten problem. Częściej jest po prostu używany do statystyk, dzięki czemu wiesz, jak popularne są różne przeglądarki, więc wiesz, które z nich przetestować najdokładniej.
Jeśli użyjesz funkcji indeksowania wget, serwer zobaczy wiele szybkich żądań w większości alfabetycznej. To jest martwa gratka, że skrobasz ich witrynę. Wygląda zupełnie inaczej niż przeglądanie użytkownika. Gdy użytkownik użytkownika wysyła żądania w przeglądarce, po każdym żądaniu strony pojawiają się wszystkie obrazy na tej stronie, a następnie występuje pewne opóźnienie, a następnie pojawia się żądanie kolejnej losowej strony (lub ewentualnie ciągu stron o wyraźnym celu) .
Jak inni wspominali, wget
ma tę zaletę, że nie jest dołączane do dodatków, plików cookie i pamięci podręcznej, co czyni ją potencjalnie bardziej stabilną i bezpieczną. Ale przeglądarki i wget
faktycznie mają bardzo różne normalne zastosowania.
wget
to narzędzie wiersza polecenia przeznaczone do odzyskiwania treści, a nie jej prezentowania. Można go używać do pobierania i pobierania czegokolwiek za pośrednictwem FTP, HTTP i HTTPS, w tym wszelkich typów plików (HTML, obrazy, pliki binarne itp.).
W przypadku serwera jedyną różnicą, którą zobaczy, jest inna, user agent
chyba że użyjesz jej --user-agent
argumentu do określenia przeglądarki. Jeśli to zrobisz, serwer nie zobaczy żadnej różnicy.
1) pobieranie inicjowane przez skrypt, a nie przez człowieka
2) pobieranie całych witryn (lub ich fragmentów) zamiast oddzielnych stron. (Wget może automatycznie podążać za linkami).
Wget ma kilka opcji wiersza poleceń do kontrolowania tego, co serwer widzi i może myśleć, w tym arbitralne opóźnienia między żądaniami pobrania stron. Ale jeśli serwer witryny ma jakieś zasady anty-bot, często marnujesz dużo czasu i ruchu, zanim uzyskasz akceptowalny wynik.
Podczas korzystania z przeglądarki wszystko w niej jest aktywne, w tym niepożądane dodatki, a nawet złośliwe oprogramowanie, podczas gdy wget jest prostym poleceniem, które pobiera rzeczy i absolutnie nic innego.
Przeglądarka niekoniecznie jest mniej bezpieczna, ale potencjalnie tak.
Serwery „jak zwykle” widzą żądanie pobrania.
Przeglądarka może rejestrować twoje działania w historii i buforować pliki.
wget nie ma pamięci.
To powiedziawszy, przeglądarka jest wygodniejsza i nie obchodzi mnie, czy NSA dowie się, że pobrałem w 4.7.2-040702-generic
zeszłym tygodniu. Używam mojej przeglądarki do bankowości internetowej i paypal, co jest prawdopodobnie bardziej istotne niż większość plików, które mogę pobrać za pomocą wget.
Jako programista, który korzysta ze zdalnych instalacji Ubuntu, instalowanie GUI systemu operacyjnego często nie ma sensu. W środowisku „wiersza poleceń” wget jest niezbędnym narzędziem do pobierania plików z Internetu.
Nie jestem nawet pewien, które przeglądarki można uruchomić z terminala.
wget
„ze względów bezpieczeństwa”?