Jak skonfigurować plik robots.txt, aby wszystko zezwalało?


116

My robots.txtw Narzędziach Google dla webmasterów pokazuje następujące wartości:

User-agent: *
Allow: /

Co to znaczy? Nie mam wystarczającej wiedzy na ten temat, więc szukam twojej pomocy. Chcę zezwolić wszystkim robotom na indeksowanie mojej witryny. Czy to właściwa konfiguracja?


Zezwalaj nie jest rozumiane przez wszystkie roboty sieciowe, użyj zamiast tego disavow: (tj. Bez adresu URL po znaku:). Jest bezpieczniej (patrz: youtu.be/G29Zt-UH_Ko )
Jérôme Verstrynge

Odpowiedzi:


153

Ten plik umożliwi dostęp wszystkim robotom

User-agent: *
Allow: /

Zasadniczo umożliwia to wszystkim agentom użytkownika (*) dostęp do wszystkich części witryny (znak /).


11
Prawidłowo, chyba że musisz zanegować część zezwalającą. Nie ma opcji „zezwalaj”, więc zrób to: „User-agent: * Disallow:” tak, jak pokazują tutaj: robotstxt.org/robotstxt.html
vsdev

Jest część zezwalająca. Sprawdź oficjalne dokumenty Google developers.google.com/search/reference/robots_txt#allow
Hasan Sefa Ozalp

60

Jeśli chcesz, aby każdy bot mógł indeksować wszystko, jest to najlepszy sposób na określenie tego w pliku robots.txt:

User-agent: *
Disallow:

Zauważ, że Disallowpole ma pustą wartość, co oznacza zgodnie ze specyfikacją :

Każda pusta wartość oznacza, że ​​można pobrać wszystkie adresy URL.


Twój sposób (z Allow: /zamiast Disallow:) też działa, ale Allownie jest częścią oryginalnej specyfikacji pliku robots.txt , więc nie jest obsługiwany przez wszystkie boty (obsługuje go jednak wiele popularnych, na przykład Googlebot ). To powiedziawszy, nierozpoznane pola muszą zostać zignorowane, a dla botów, które nie rozpoznają Allow, wynik i tak byłby taki sam w tym przypadku: jeśli nic nie jest zabronione do przeszukiwania (z Disallow), wszystko jest dozwolone.
Jednak formalnie (zgodnie z oryginalną specyfikacją) jest to nieprawidłowy rekord, ponieważ Disallowwymagane jest co najmniej jedno pole:

Rekord musi zawierać co najmniej jedno pole Disallow.


17

Rozumiem, że jest to dość stare pytanie i ma całkiem dobre odpowiedzi. Ale oto moje dwa centy ze względu na kompletność.

Zgodnie z oficjalną dokumentacją istnieją cztery sposoby zezwolenia na pełny dostęp robotów do Twojej witryny.

Czysty:

Określ globalny element dopasowujący z segmentem zakazu, jak wspomniano w @unor. Więc twój /robots.txtwygląd wygląda tak.

User-agent: *
Disallow:

Hack:

Utwórz /robots.txtplik bez zawartości. Które domyślnie zezwalają na wszystkie dla wszystkich typów Bots.

Nie obchodzi mnie sposób:

Nie twórz /robots.txtcałkowicie. Co powinno dać dokładnie takie same wyniki jak powyższe dwa.

Brzydki:

Z dokumentacji robotów dotyczącej metatagów można użyć następującego metatagu na wszystkich swoich stronach w witrynie, aby poinformować Bots, że te strony nie powinny być indeksowane.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Aby zastosować to w całej witrynie, musisz dodać ten metatag do wszystkich swoich stron. Ten tag powinien być ściśle umieszczony pod HEADtagiem strony. Więcej o tym metatagu tutaj .


Jednak żaden plik robots.txt i Wordpress nie jest złym połączeniem, ponieważ WordPress generuje wirtualny plik robots.txt. Chyba że jesteś zadowolony z tego, który generuje WordPress.
Jesper

8

Oznacza to, że zezwalasz każdemu ( *) agentowi użytkownika / robotowi indeksującemu na dostęp do katalogu głównego ( /) witryny. Jesteś w porządku.


5
nie ma pola „Zezwalaj”, zgodnie z robotstxt.org/robotstxt.html, więc uważam, aby go użyć. Wikipedia wspomina „Niektóre główne roboty wspierać Pozwól dyrektywy, które mogą przeciwdziałać następującą dyrektywę zezwalaj.”: En.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive
Mackaaij
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.