Jak skonfigurować plik robots.txt, aby wszystko zezwalało?

116

My robots.txtw Narzędziach Google dla webmasterów pokazuje następujące wartości:

User-agent: *
Allow: /

Co to znaczy? Nie mam wystarczającej wiedzy na ten temat, więc szukam twojej pomocy. Chcę zezwolić wszystkim robotom na indeksowanie mojej witryny. Czy to właściwa konfiguracja?

robots.txt

— Raajpoot
źródło

Zezwalaj nie jest rozumiane przez wszystkie roboty sieciowe, użyj zamiast tego disavow: (tj. Bez adresu URL po znaku:). Jest bezpieczniej (patrz: youtu.be/G29Zt-UH_Ko )

— Jérôme Verstrynge

153

Ten plik umożliwi dostęp wszystkim robotom

User-agent: *
Allow: /

Zasadniczo umożliwia to wszystkim agentom użytkownika (*) dostęp do wszystkich części witryny (znak /).

— Jim
źródło

11

Prawidłowo, chyba że musisz zanegować część zezwalającą. Nie ma opcji „zezwalaj”, więc zrób to: „User-agent: * Disallow:” tak, jak pokazują tutaj: robotstxt.org/robotstxt.html

— vsdev

Jest część zezwalająca. Sprawdź oficjalne dokumenty Google developers.google.com/search/reference/robots_txt#allow

— Hasan Sefa Ozalp

60

Jeśli chcesz, aby każdy bot mógł indeksować wszystko, jest to najlepszy sposób na określenie tego w pliku robots.txt:

User-agent: *
Disallow:

Zauważ, że Disallowpole ma pustą wartość, co oznacza zgodnie ze specyfikacją :

Każda pusta wartość oznacza, że można pobrać wszystkie adresy URL.

Twój sposób (z Allow: /zamiast Disallow:) też działa, ale Allownie jest częścią oryginalnej specyfikacji pliku robots.txt , więc nie jest obsługiwany przez wszystkie boty (obsługuje go jednak wiele popularnych, na przykład Googlebot ). To powiedziawszy, nierozpoznane pola muszą zostać zignorowane, a dla botów, które nie rozpoznają Allow, wynik i tak byłby taki sam w tym przypadku: jeśli nic nie jest zabronione do przeszukiwania (z Disallow), wszystko jest dozwolone.
Jednak formalnie (zgodnie z oryginalną specyfikacją) jest to nieprawidłowy rekord, ponieważ Disallowwymagane jest co najmniej jedno pole:

Rekord musi zawierać co najmniej jedno pole Disallow.

— unor
źródło

17

Rozumiem, że jest to dość stare pytanie i ma całkiem dobre odpowiedzi. Ale oto moje dwa centy ze względu na kompletność.

Zgodnie z oficjalną dokumentacją istnieją cztery sposoby zezwolenia na pełny dostęp robotów do Twojej witryny.

Czysty:

Określ globalny element dopasowujący z segmentem zakazu, jak wspomniano w @unor. Więc twój /robots.txtwygląd wygląda tak.

User-agent: *
Disallow:

Hack:

Utwórz /robots.txtplik bez zawartości. Które domyślnie zezwalają na wszystkie dla wszystkich typów Bots.

Nie obchodzi mnie sposób:

Nie twórz /robots.txtcałkowicie. Co powinno dać dokładnie takie same wyniki jak powyższe dwa.

Brzydki:

Z dokumentacji robotów dotyczącej metatagów można użyć następującego metatagu na wszystkich swoich stronach w witrynie, aby poinformować Bots, że te strony nie powinny być indeksowane.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Aby zastosować to w całej witrynie, musisz dodać ten metatag do wszystkich swoich stron. Ten tag powinien być ściśle umieszczony pod HEADtagiem strony. Więcej o tym metatagu tutaj .

— Raja Anbazhagan
źródło

Jednak żaden plik robots.txt i Wordpress nie jest złym połączeniem, ponieważ WordPress generuje wirtualny plik robots.txt. Chyba że jesteś zadowolony z tego, który generuje WordPress.

— Jesper

8

Oznacza to, że zezwalasz każdemu ( *) agentowi użytkownika / robotowi indeksującemu na dostęp do katalogu głównego ( /) witryny. Jesteś w porządku.

— Jordi
źródło

5

nie ma pola „Zezwalaj”, zgodnie z robotstxt.org/robotstxt.html, więc uważam, aby go użyć. Wikipedia wspomina „Niektóre główne roboty wspierać Pozwól dyrektywy, które mogą przeciwdziałać następującą dyrektywę zezwalaj.”: En.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive

— Mackaaij