Jak poprawnie (nie) zezwolić botowi archive.org? Czy coś się zmieniło, jeśli tak, to kiedy?

10

Mam stronę internetową, w której przeważnie nie chcę być indeksowana przez wyszukiwarki, ale chcę ją zachować na wieczność na archive.org. Więc robots.txtzaczynam od tego:

User-agent: *
Disallow: /

Dzisiaj, zgodnie z archive.org, muszę dodać następujące w moim, robots.txtaby pozwolić ich botom:

User-agent: ia_archiver
Disallow:

Ale już zrobiłem to, co wskazali kilka lat temu, przynajmniej dodałem następujące:

User-agent: archive.org_bot
Disallow:

Jest też inne źródło, w którym twierdzisz, że musisz dodać dwa powyższe Disallows, plus jeszcze jedno:

User-agent: ia_archiver-web.archive.org 
Disallow:

Pamiętaj, że musisz Disallow: /to zrobić , jeśli nie chcesz, aby bot archiwizował twoją stronę.

Czy nastąpiła zmiana w bocie IA? Jeśli tak, to kiedy?

Jaki jest zalecany sposób? Czy powinienem na razie pozwolić wszystkim trzem i mieć nadzieję, że IA nie zmieni swojej nazwy bota w przyszłości?

web-crawlers robots.txt internet-archive

— kqw
źródło

Byłem świadomy tylko ia_archiver. Inne są dla mnie niespodzianką. Czy masz do tego linki? Pytam dlatego, że archive.org i tak odwiedza moją stronę i musiałem je zablokować według adresu IP. Również wspomnieć, że Czy chcesz zezwolić archive.org ale wtedy mówić o blokując go. Chcę tylko wyjaśnić tę kwestię, a linki mogą nam wszystkim pomóc. Z góry dziękuję!

— closetnoc

Zaktualizowałem pytanie. Mam nadzieję, że teraz jest wyraźniej. Mała wersja: nie chcę botów wyszukiwarek na tej stronie, chcę boty archive.org. Ale może powinienem odwrócić pytanie, ponieważ tego właśnie szuka większość ludzi?

— kqw

W rzeczywistości, jeśli nie korzystasz z żadnego z nich, zezwalasz na archive.org, pod warunkiem, że nie blokujesz wyciągiem zbiorczym.

— closetnoc

Użycie tylko „ia_archiver” powinno również zablokować „ia_archiver-web.archive.org”, więc późniejsze wydawałoby się niepotrzebne (pod warunkiem, że ten bot działa zgodnie ze standardem).

— MrWhite

Czy widzisz bota ia-archiver (lub archive.org_bot) w swoich dziennikach dostępu?

— MrWhite

9

Aktualizacja : Jak zauważa @KevinFegan w komentarzach, ich dokumentacja uległa zmianie. Poniższa część opisuje, jak archiwum internetowe radziło sobie z tym w przeszłości (przynajmniej w 2014 r.).

Często zadawane pytania Jak mogę wykluczyć strony mojej witryny z Wayback Machine? odnosi się do usuwania dokumentów z Wayback Machine , które dokumentuje, że ich bot jest nazywany ia_archiver.

Ten zapis powinien pozwolić robotowi na zindeksowanie całej witryny:

User-agent: ia_archiver
Disallow:

— unor
źródło

Kolejność grup nie powinna mieć znaczenia. Najbardziej specyficzny (np. Najdłuższy) kliencka że mecze to taka, która wygrywa. *Mecze grupowe tylko wtedy, gdy żadna inna grupa dopasowane.

— MrWhite

@ w3d: Masz rację, usunąłem tę część. Dzięki za informację :)

— unor

1

Najwyraźniej zmieniło się to z czasem. Nie mogę znaleźć „ia_archiver” na podanej stronie FAQ oraz na tej stronie Blog Archive.org od 25 kwietnia 2017 r. Mark Graham mówi: Agent użytkownika „ia_archiver” jest używany przez Alexa Internet, a nie Archiwum Internetowe.

— Kevin Fegan

@KevinFegan: Dziękujemy za powiadomienie! Zaktualizowałem swoją odpowiedź, aby link do zarchiwizowanych wersji dokumentacji zawierającej nazwę.

— unor

Podoba mi się, jak celowo komplikują sprawy, aby mogli uciec!

— Ultralisk

5

Naprawdę są tutaj 2 problemy:

Czy robots.txtw Twojej witrynie nie zezwolisz (zablokujesz) Wayback na indeksowanie witryny.
Czy Wayback zaindeksuje Twoją witrynę.

Dla punktu 1:
Jak powiedzieli inni, poprawny wpis dla pliku robots.txt to:

User-agent: ia_archiver
Disallow:

Pamiętaj, że może to trochę potrwać (być może długo), aby Wayback zauważył wszelkie zmiany wprowadzone w pliku robots.txt.

Aby sprawdzić, czy w robots.txtwitrynie zezwala Wayback na indeksowanie witryny:

Przejdź do tego adresu URL: https://archive.org/web/
W polu u góry strony wprowadź adres URL strony w swojej witrynie i kliknij "Browse History"przycisk.
Lub w polu pod „Zapisz stronę teraz” (obecnie w dolnej części po prawej stronie) i wprowadź adres URL strony w swojej witrynie i kliknij "Save Page"przycisk.

W tym momencie powinieneś zobaczyć 1 z 3 rzeczy:

Zobaczysz komunikat o błędzie wskazujący, że Wayback nie może uzyskać dostępu do stron w tej witrynie z powodu „robots.txt”.
Zobaczysz „kalendarz” historycznych punktów zapisu dla strony w Twojej witrynie. W takim przypadku wiesz, że Wayback NIE jest blokowany w indeksowaniu Twojej witryny.
Lub zobaczysz komunikat wskazujący, że Wayback nie ma archiwum tej strony oraz ofertę kliknięcia łącza, aby dodać stronę do Wayback. W tym przypadku również wiesz, że Wayback NIE jest blokowany w indeksowaniu Twojej witryny.

A teraz punkt 2:

Czy Wayback zaindeksuje Twoją witrynę?

Tylko dlatego, że Pozwól Wayback do indeksowania witryny, nie oznacza, że będą one (kiedykolwiek) indeksowania witryny.

Zgodnie z Wayback FAQ (wyróżnienie dodane):

Jak mogę włączyć moją witrynę do Wayback Machine?

Wiele z naszych zarchiwizowanych danych internetowych pochodzi z naszych własnych indeksowań lub z indeksowań Alexa Internet. Żadna organizacja nie ma „zaindeksuj teraz moją witrynę!” proces przesyłania. Przeszukiwania w Archiwum internetowym mają tendencję do znajdowania witryn, które są dobrze połączone z innymi witrynami . Najlepszym sposobem na znalezienie Twojej witryny jest upewnienie się, że znajduje się ona w katalogach online i że podobne / powiązane strony prowadzą do Ciebie.

Alexa Internet używa własnych metod do wykrywania witryn do indeksowania. Pomocne może być zainstalowanie bezpłatnego paska narzędzi Alexa i odwiedzenie witryny, którą chcesz zaindeksować, aby się upewnić.

Niezależnie od tego, kto indeksuje witrynę, należy upewnić się, że reguły „robots.txt” witryny i dyrektywy robotów META na stronie nie nakazują robotom indeksującym omijania witryny.

Aktualizacja: 09 maja 2017 r

Inni zostawili komentarze / odpowiedzi wskazujące, że Archive.org nie honoruje już robots.txt. Być może jest to „praca w toku” i ostatecznie tak będzie, ale nie widziałem jeszcze tego nowego zachowania.

Przyczyna tego wydaje się wynikać z tego artykułu : Robots.txt: ROBOTS.TXT JEST UWAGĄ NA samobójstwo autorstwa archiveteam.org. Chociaż ta strona ma niewiele, jeśli cokolwiek dobrego do powiedzenia na temat „Robots.txt”, nigdzie nie wspomina, że Archive.org nie będzie dłużej honorować robots.txt.

Warto również zauważyć: ten artykuł jest hostowany archiveteam.org, co zdecydowanie nie jest archive.org, i nie jestem pewien, czy istnieje (oficjalny) związek między archive.orgi archiveteam.org.

W rzeczywistości ta strona o zespole archiwalnym wydaje się zawierać rozróżnienie między i (podkreślenie dodane):archive.org archive.orgarchiveteam.org

Założony w 2009 r. Zespół archiwalny ( nie mylić z zespołem archive.org Archive-It) jest nieuczciwym kolektywem archiwistów zajmującym się zapisywaniem kopii szybko umierających lub usuniętych stron internetowych ze względu na historię i dziedzictwo cyfrowe. ...

W każdym razie postanowiłem spróbować i odkryłem, że przynajmniej w tym momencie Archive.org STILL honoruje plik robots.txt:

Znalazłem losowy element na eBayu: Produkt nr: 131795294232
Kliknij, aby wyświetlić sprzedane przedmioty:

Zostanie otwarta strona „Przedmioty sprzedane”: http://offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232 Skopiuj link do schowka.
Przejdź do web.archive.org i wklej link z serwisu eBay.
Zobaczysz, że archive.orgoznacza to, że „Strona nie może zostać wyświetlona z powodu pliku robots.txt”.

Więc w tej chwili nie jestem przekonany, ale chciałbym, aby udowodniono, że się mylę ... byłoby wspaniale, gdyby to była prawda.

— Kevin Fegan
źródło

Blokowanie Archive.org za pomocą robots.txt już nie działa:

— Wortwart

@wortwart - Byłoby świetnie, gdyby tak było (patrz aktualizacja, którą dodałem do mojej odpowiedzi). Czy masz linki do informacji na ten temat?

— Kevin Fegan

Pewnie: blog.archive.org/2017/04/17/... „Kilka miesięcy temu przestaliśmy odwoływać się do plików robots.txt na stronach rządowych i wojskowych USA (...) Teraz chcemy to zrobić szerzej. „

— wortwart

4

Aktualizacja 2017

Archiwum bota teraz nie dba o plik robots.txt.

Jeśli naprawdę chcesz to zablokować, wyślij im wiadomość e-mail zgodnie z tą stroną lub zablokuj ich adres IP przez htaccess.

— Goyllo
źródło

2

Zobacz aktualizację maja 2017 na moją odpowiedź: Jak prawidłowo (DIS) pozwalają bot Archive.org ...? . Bot archiwum nadal dba o plik robots.txt, z wyjątkiem stron rządowych. Zauważ, że wspomniany artykuł pochodzi z www.archiveteam.org, który nie jest powiązany z Archive.org. --->

— Kevin Fegan

---> Chociaż ta strona ma niewiele, jeśli cokolwiek dobrego do powiedzenia na temat „Robots.txt”, nie wspomina nigdzie, że Archive.org nie będzie dłużej honorować robots.txt. Odpowiedni artykuł Archive.org: Robots.txt przeznaczony dla wyszukiwarek nie działa dobrze dla archiwów internetowych . „Kilka miesięcy temu przestaliśmy odwoływać się do plików robots.txt na amerykańskich stronach rządowych i wojskowych (...) Teraz chcemy to zrobić szerzej.”

— Kevin Fegan

Tak. Teraz Archiwum całkowicie ignoruje żądania usunięcia.

— Ultralisk

3

Plik robots.txt ia_archiver Disallow (z „/”) powinien być odpowiedni do opisanej potrzeby („zachować na wieczność”, ale jeszcze nie publicznie).

Właśnie zrobiłem szybki test, komentując pozycję ia_archiver Disallow dla witryny, która miała ją przez co najmniej 10 lat. Potem przejrzałem stronę na archive.org/web i pokazałem, że zebrałem ją w 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 i 2017! Oznacza to, że Archive.org nigdy nie przestrzegało ściśle tego, co inni uważali za oświadczenie „nie archiwizuj” w tych latach, po prostu nie ujawniało zarchiwizowanych kopii.

— mikrofon
źródło

2

„ia_archiver” jest teraz (ab) używany przez Alexę, niektóre źródła podają: 1 , 2 .
Archive.org teraz (2018) NIE szanuje już w ogóle „robots.txt”. 3 Nie tylko dla stron mil / gov, ale dla wszystkich stron. Jak mam doświadczenie z moją prywatną stroną internetową, która ma i miała m.in. robots.txt od 2012 roku; a teraz nagle odkryłem, że przez lata pełzali i ocalali, a teraz cała historia jest widoczna. To uczucie bycia zdradzonym. > :-(

— Carl
źródło

1

Wypróbowałem tę robots.txtmetodę i nie zadziałała. Więc skontaktowałem się z witryną na ich adres e-mail info@archive.org:

Witaj,

Czy możesz usunąć moją osobistą stronę internetową dimitarnestorov.com ze swojego archiwum?

Dzięki!

Dimitar

I otrzymałem następującą odpowiedź:

Witaj,

Archiwum internetowe może wykluczyć strony internetowe z Wayback Machine (web.archive.org), ale najpierw z szacunkiem prosimy, abyś pomógł nam zweryfikować, czy jesteś właścicielem witryny lub autorem treści dimitarnestorov.com, wykonując jedną z następujących czynności:

(Uwaga: niektóre z tych opcji mogą odnosić się do treści znajdujących się w poprzednich rejestrach Wayback Machine i / lub dokumentacji, która mogła mieć związek z określonym okresem).

opublikuj zapytanie w bieżącej wersji strony (i wyślij nam link).

wyślij zapytanie od głównego kontaktu e-mail wymienionego w witrynie i wskaż nam, gdzie można go znaleźć (jeśli jest obecny).

wyślij żądanie z adresu e-mail rejestrującego (jeśli jest publicznie dostępny podczas wyszukiwania WHOIS, do którego możesz nas połączyć) lub e-maila dla webmastera wymienionego na stronie.

wskaż nam miejsce, w którym Twoje dane osobowe (imię i nazwisko, punkt kontaktowy, obraz siebie) pojawiają się na stronie w sposób, który identyfikuje Cię jako właściciela witryny lub autora treści, które chcesz wykluczyć - w tym przypadku prosimy w celu weryfikacji tożsamości poprzez skan ważnego dokumentu tożsamości ze zdjęciem (poufne informacje, takie jak data urodzenia, adres lub numer telefonu mogą zostać zredagowane).

przekaż nam informację od firmy hostingowej lub rejestratora skierowanej do Ciebie jako właściciela domeny.

(Uwaga: sama wzmianka o czyimś imieniu / nazwie użytkownika i / lub hiperłączu / przekierowaniu między stronami / stronami / kontami sama w sobie zwykle nie wystarcza, aby wykluczyć archiwa).

Jeśli żadna z tych opcji nie jest dla Ciebie dostępna, daj nam znać w odpowiedzi na tego e-maila.

Bylibyśmy wdzięczni, gdybyś pomógł nam zachować jak najwięcej archiwum. W związku z tym daj nam znać, jeśli istnieją tylko określone adresy URL lub katalogi, których dotyczy Twój problem, abyśmy mogli pozostawić resztę archiwów dostępną.

Jak zapewne wiesz, Internet Archive to cyfrowa biblioteka non-profit, której celem jest utrzymanie za pośrednictwem Wayback Machine swobodnie dostępnego historycznego zapisu Internetu. Materiały w archiwach nie są wykorzystywane przez Internet Archive do celów komercyjnych.

Zespół archiwum internetowego

Utworzyłem wayback-removal-request.htmlz następującą zawartością (nawet niepoprawny HTML):

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

Przesłałem go i odpowiedziałem na swój adres e-mail, pod którym URL był dostępny, a później otrzymałem następującą odpowiedź:

Witaj,

Witryna / adres URL wymieniony w poniższym e-mailu został teraz zgłoszony do wykluczenia z Wayback Machine pod adresem http://www.archive.org (w odniesieniu do wszystkich poprzednich przechwyceń):

dimitarnestorov.com

Zautomatyzowane etapy procesu mogą potrwać do jednego dnia, a zmiany zaczną obowiązywać.

Zespół archiwum internetowego

Gdy sprawdziłem kilka godzin później, moja witryna została usunięta.

— Dimitar Nestorov
źródło