Oprócz przestrzegania pliku robots.txt, słuchaj nofollow
oraz noindex
w <meta>
elementach i linkach:
Jest wielu, którzy uważają, że plik robots.txt nie jest właściwym sposobem blokowania indeksowania iz tego punktu widzenia, poinstruował wielu właścicieli witryn, aby polegali na <meta name="robots" content="noindex">
tagu i informowali roboty indeksujące strony, aby nie indeksowały strony.
Jeśli próbujesz utworzyć wykres połączeń między stronami internetowymi (coś podobnego do PageRank),
(i <meta name="robots" content="nofollow">
) ma oznaczać, że witryna źródłowa nie ufa stronie docelowej na tyle, aby zapewnić jej odpowiednie poparcie. Chociaż możesz indeksować witrynę docelową, nie powinieneś przechowywać relacji między tymi dwiema stronami.
SEO jest bardziej sztuką niż prawdziwą nauką i jest praktykowane przez wielu ludzi, którzy wiedzą, co robią, i wielu ludzi, którzy czytają streszczenia ludzi, którzy wiedzą, co robią. Będziesz mieć problemy z blokowaniem stron za robienie rzeczy, które inne strony uznają za całkowicie akceptowalne z powodu pewnych zasad, które ktoś podsłuchał lub przeczytał w poście na blogu na SEOmoz, które mogą, ale nie muszą być poprawnie interpretowane.
Z powodu tego elementu ludzkiego, chyba że jesteś Google, Microsoft lub Yahoo !, jesteś uważany za złośliwego, chyba że udowodniono inaczej. Musisz zachować szczególną ostrożność, aby zachować się tak, jakby nie stanowił zagrożenia dla właściciela strony internetowej, i postępować zgodnie z tym, w jaki sposób chciałbyś, aby działał potencjalnie złośliwy (ale miejmy nadzieję łagodny) robot:
- przestań indeksować witrynę po wykryciu, że jesteś blokowany: 403 / 401s na stronach, o których wiesz, że pracujesz, dławienie, limity czasu itp.
- unikaj wyczerpujących indeksowań w stosunkowo krótkim czasie: zaindeksuj część witryny i wróć później (kilka dni później), aby zaindeksować inną część. Nie składaj równoległych wniosków.
- unikaj indeksowania potencjalnie wrażliwych obszarów:
/admin/
na przykład adresów URL z nimi zawartych.
Nawet wtedy będzie to bitwa pod górę, chyba że skorzystasz z technik czarnych kapeluszów, takich jak podszywanie się pod UA lub celowe maskowanie wzorców indeksowania: wielu właścicieli witryn z tych samych powodów zablokuje widok nieznanego robota zamiast brać szansa, że ktoś nie próbuje „zhakować swojej witryny”. Przygotuj się na wiele niepowodzeń.
Jedną z rzeczy, które możesz zrobić, aby zwalczyć negatywny obraz nieznanego przeszukiwacza, jest wyjaśnienie w łańcuchu klienta użytkownika, kim jesteś:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
Gdzie http://example.com/aarobot.html
wyjaśnia, co próbujesz osiągnąć i dlaczego nie jesteś zagrożeniem. Ta strona powinna zawierać kilka rzeczy:
- Informacje na temat bezpośredniego kontaktu z tobą
- Informacje o tym, co gromadzi przeszukiwacz i dlaczego je gromadzi
- Informacje na temat rezygnacji i usunięcia zebranych danych
Ta ostatnia jest kluczowa: dobra rezygnacja jest jak zwrot pieniędzy i zapewnia nieuzasadnioną wartość dobrej woli. Powinien być humanitarny: jeden prosty krok (adres e-mail lub, najlepiej, formularz) i wyczerpujący (nie powinno być żadnych „gotchas”: rezygnacja oznacza, że przestaniesz indeksować bez wyjątku).