Naprawdę są tutaj 2 problemy:
- Czy
robots.txtw Twojej witrynie nie zezwolisz (zablokujesz) Wayback na indeksowanie witryny.
- Czy Wayback zaindeksuje Twoją witrynę.
Dla punktu 1:
Jak powiedzieli inni, poprawny wpis dla pliku robots.txt to:
User-agent: ia_archiver
Disallow:
Pamiętaj, że może to trochę potrwać (być może długo), aby Wayback zauważył wszelkie zmiany wprowadzone w pliku robots.txt.
Aby sprawdzić, czy w robots.txtwitrynie zezwala Wayback na indeksowanie witryny:
- Przejdź do tego adresu URL: https://archive.org/web/
- W polu u góry strony wprowadź adres URL strony w swojej witrynie i kliknij
"Browse History"przycisk.
- Lub w polu pod „Zapisz stronę teraz” (obecnie w dolnej części po prawej stronie) i wprowadź adres URL strony w swojej witrynie i kliknij
"Save Page"przycisk.
W tym momencie powinieneś zobaczyć 1 z 3 rzeczy:
- Zobaczysz komunikat o błędzie wskazujący, że Wayback nie może uzyskać dostępu do stron w tej witrynie z powodu „robots.txt”.
- Zobaczysz „kalendarz” historycznych punktów zapisu dla strony w Twojej witrynie. W takim przypadku wiesz, że Wayback NIE jest blokowany w indeksowaniu Twojej witryny.
- Lub zobaczysz komunikat wskazujący, że Wayback nie ma archiwum tej strony oraz ofertę kliknięcia łącza, aby dodać stronę do Wayback. W tym przypadku również wiesz, że Wayback NIE jest blokowany w indeksowaniu Twojej witryny.
A teraz punkt 2:
Czy Wayback zaindeksuje Twoją witrynę?
Tylko dlatego, że Pozwól Wayback do indeksowania witryny, nie oznacza, że będą one (kiedykolwiek) indeksowania witryny.
Zgodnie z Wayback FAQ (wyróżnienie dodane):
Wiele z naszych zarchiwizowanych danych internetowych pochodzi z naszych własnych indeksowań lub z indeksowań Alexa Internet. Żadna organizacja nie ma „zaindeksuj teraz moją witrynę!” proces przesyłania. Przeszukiwania w Archiwum internetowym mają tendencję do znajdowania witryn, które są dobrze połączone z innymi witrynami . Najlepszym sposobem na znalezienie Twojej witryny jest upewnienie się, że znajduje się ona w katalogach online i że podobne / powiązane strony prowadzą do Ciebie.
Alexa Internet używa własnych metod do wykrywania witryn do indeksowania. Pomocne może być zainstalowanie bezpłatnego paska narzędzi Alexa i odwiedzenie witryny, którą chcesz zaindeksować, aby się upewnić.
Niezależnie od tego, kto indeksuje witrynę, należy upewnić się, że reguły „robots.txt” witryny i dyrektywy robotów META na stronie nie nakazują robotom indeksującym omijania witryny.
Aktualizacja: 09 maja 2017 r
Inni zostawili komentarze / odpowiedzi wskazujące, że Archive.org nie honoruje już robots.txt. Być może jest to „praca w toku” i ostatecznie tak będzie, ale nie widziałem jeszcze tego nowego zachowania.
Przyczyna tego wydaje się wynikać z tego artykułu : Robots.txt: ROBOTS.TXT JEST UWAGĄ NA samobójstwo autorstwa archiveteam.org. Chociaż ta strona ma niewiele, jeśli cokolwiek dobrego do powiedzenia na temat „Robots.txt”, nigdzie nie wspomina, że Archive.org nie będzie dłużej honorować robots.txt.
Warto również zauważyć: ten artykuł jest hostowany archiveteam.org, co zdecydowanie nie jest archive.org, i nie jestem pewien, czy istnieje (oficjalny) związek między archive.orgi archiveteam.org.
W rzeczywistości ta strona o zespole archiwalnym wydaje się zawierać rozróżnienie między i (podkreślenie dodane):archive.org archive.orgarchiveteam.org
Założony w 2009 r. Zespół archiwalny ( nie mylić z zespołem archive.org Archive-It) jest nieuczciwym kolektywem archiwistów zajmującym się zapisywaniem kopii szybko umierających lub usuniętych stron internetowych ze względu na historię i dziedzictwo cyfrowe. ...
W każdym razie postanowiłem spróbować i odkryłem, że przynajmniej w tym momencie Archive.org STILL honoruje plik robots.txt:
- Znalazłem losowy element na eBayu: Produkt nr: 131795294232
- Kliknij, aby wyświetlić sprzedane przedmioty:

- Zostanie otwarta strona „Przedmioty sprzedane”: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Skopiuj link do schowka.
- Przejdź do web.archive.org i wklej link z serwisu eBay.
- Zobaczysz, że
archive.orgoznacza to, że „Strona nie może zostać wyświetlona z powodu pliku robots.txt”.

Więc w tej chwili nie jestem przekonany, ale chciałbym, aby udowodniono, że się mylę ... byłoby wspaniale, gdyby to była prawda.