Naprawdę są tutaj 2 problemy:
- Czy
robots.txt
w Twojej witrynie nie zezwolisz (zablokujesz) Wayback na indeksowanie witryny.
- Czy Wayback zaindeksuje Twoją witrynę.
Dla punktu 1:
Jak powiedzieli inni, poprawny wpis dla pliku robots.txt to:
User-agent: ia_archiver
Disallow:
Pamiętaj, że może to trochę potrwać (być może długo), aby Wayback zauważył wszelkie zmiany wprowadzone w pliku robots.txt.
Aby sprawdzić, czy w robots.txt
witrynie zezwala Wayback na indeksowanie witryny:
- Przejdź do tego adresu URL: https://archive.org/web/
- W polu u góry strony wprowadź adres URL strony w swojej witrynie i kliknij
"Browse History"
przycisk.
- Lub w polu pod „Zapisz stronę teraz” (obecnie w dolnej części po prawej stronie) i wprowadź adres URL strony w swojej witrynie i kliknij
"Save Page"
przycisk.
W tym momencie powinieneś zobaczyć 1 z 3 rzeczy:
- Zobaczysz komunikat o błędzie wskazujący, że Wayback nie może uzyskać dostępu do stron w tej witrynie z powodu „robots.txt”.
- Zobaczysz „kalendarz” historycznych punktów zapisu dla strony w Twojej witrynie. W takim przypadku wiesz, że Wayback NIE jest blokowany w indeksowaniu Twojej witryny.
- Lub zobaczysz komunikat wskazujący, że Wayback nie ma archiwum tej strony oraz ofertę kliknięcia łącza, aby dodać stronę do Wayback. W tym przypadku również wiesz, że Wayback NIE jest blokowany w indeksowaniu Twojej witryny.
A teraz punkt 2:
Czy Wayback zaindeksuje Twoją witrynę?
Tylko dlatego, że Pozwól Wayback do indeksowania witryny, nie oznacza, że będą one (kiedykolwiek) indeksowania witryny.
Zgodnie z Wayback FAQ (wyróżnienie dodane):
Wiele z naszych zarchiwizowanych danych internetowych pochodzi z naszych własnych indeksowań lub z indeksowań Alexa Internet. Żadna organizacja nie ma „zaindeksuj teraz moją witrynę!” proces przesyłania. Przeszukiwania w Archiwum internetowym mają tendencję do znajdowania witryn, które są dobrze połączone z innymi witrynami . Najlepszym sposobem na znalezienie Twojej witryny jest upewnienie się, że znajduje się ona w katalogach online i że podobne / powiązane strony prowadzą do Ciebie.
Alexa Internet używa własnych metod do wykrywania witryn do indeksowania. Pomocne może być zainstalowanie bezpłatnego paska narzędzi Alexa i odwiedzenie witryny, którą chcesz zaindeksować, aby się upewnić.
Niezależnie od tego, kto indeksuje witrynę, należy upewnić się, że reguły „robots.txt” witryny i dyrektywy robotów META na stronie nie nakazują robotom indeksującym omijania witryny.
Aktualizacja: 09 maja 2017 r
Inni zostawili komentarze / odpowiedzi wskazujące, że Archive.org nie honoruje już robots.txt. Być może jest to „praca w toku” i ostatecznie tak będzie, ale nie widziałem jeszcze tego nowego zachowania.
Przyczyna tego wydaje się wynikać z tego artykułu : Robots.txt: ROBOTS.TXT JEST UWAGĄ NA samobójstwo autorstwa archiveteam.org
. Chociaż ta strona ma niewiele, jeśli cokolwiek dobrego do powiedzenia na temat „Robots.txt”, nigdzie nie wspomina, że Archive.org nie będzie dłużej honorować robots.txt.
Warto również zauważyć: ten artykuł jest hostowany archiveteam.org
, co zdecydowanie nie jest archive.org
, i nie jestem pewien, czy istnieje (oficjalny) związek między archive.org
i archiveteam.org
.
W rzeczywistości ta strona o zespole archiwalnym wydaje się zawierać rozróżnienie między i (podkreślenie dodane):archive.org
archive.org
archiveteam.org
Założony w 2009 r. Zespół archiwalny ( nie mylić z zespołem archive.org Archive-It) jest nieuczciwym kolektywem archiwistów zajmującym się zapisywaniem kopii szybko umierających lub usuniętych stron internetowych ze względu na historię i dziedzictwo cyfrowe. ...
W każdym razie postanowiłem spróbować i odkryłem, że przynajmniej w tym momencie Archive.org STILL honoruje plik robots.txt:
- Znalazłem losowy element na eBayu: Produkt nr: 131795294232
- Kliknij, aby wyświetlić sprzedane przedmioty:
- Zostanie otwarta strona „Przedmioty sprzedane”: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Skopiuj link do schowka.
- Przejdź do web.archive.org i wklej link z serwisu eBay.
- Zobaczysz, że
archive.org
oznacza to, że „Strona nie może zostać wyświetlona z powodu pliku robots.txt”.
Więc w tej chwili nie jestem przekonany, ale chciałbym, aby udowodniono, że się mylę ... byłoby wspaniale, gdyby to była prawda.