Mam w swojej witrynie kilka stron, od których chcę trzymać wyszukiwarki z daleka, dlatego nie zezwalam na to w moim robots.txt
pliku w następujący sposób:
User-Agent: *
Disallow: /email
Jednak ostatnio zauważyłem, że Google nadal czasami zwraca linki do tych stron w wynikach wyszukiwania. Dlaczego tak się dzieje i jak mogę to zatrzymać?
Tło:
Kilka lat temu stworzyłem prostą stronę internetową dla klubu, w którym brał udział mój krewny. Chcieli mieć na swoich stronach linki e-mail, więc staraj się, aby adresy te nie kończyły się na zbyt wielu listy spamowe, zamiast korzystać z bezpośrednich mailto:
linków, sprawiłem, że te linki wskazują na prosty skrypt pułapki przekierowującego / zbierającego adresy działający na mojej stronie. Ten skrypt zwróci przekierowanie 301 do faktycznego mailto:
adresu URL lub, jeśli wykryje podejrzany wzorzec dostępu, stronę zawierającą wiele losowych fałszywych adresów e-mail i łącza do większej liczby takich stron. Aby utrzymać prawidłowe boty wyszukiwania z dala od pułapki, skonfigurowałem robots.txt
zasadę pokazaną powyżej, nie zezwalając na całą przestrzeń zarówno legalnych linków przekierowujących, jak i stron pułapek.
Jednak niedawno jedna z osób w klubie szukała w Google własnego nazwiska i była dość zaskoczona, gdy jednym z wyników na pierwszej stronie był link do skryptu przekierowującego, a następnie tytuł składający się z adresu e-mail po moim imieniu Oczywiście natychmiast wysłali mi e-mail i chcieli dowiedzieć się, jak uzyskać adres z indeksu Google. Byłem też dość zaskoczony, ponieważ nie miałem pojęcia, że Google w ogóle indeksuje takie adresy URL, najwyraźniej naruszając moją robots.txt
zasadę.
Udało mi się przesłać prośbę o usunięcie do Google i wygląda na to, że zadziałało, ale chciałbym wiedzieć, dlaczego i jak Google obchodzi moje robots.txt
podobne sposoby i jak upewnić się, że żadna niedozwolona strona nie pojawi się na ich wyniki wyszukiwania.
Ps. Właściwie znalazłem możliwe wyjaśnienie i rozwiązanie, które opublikuję poniżej, przygotowując to pytanie, ale pomyślałem, że i tak go zadam, na wypadek gdyby ktoś miał ten sam problem. Prosimy o zamieszczanie własnych odpowiedzi. Chciałbym również wiedzieć, czy robią to inne wyszukiwarki i czy te same rozwiązania również działają.
robots.txt
plik jest jak mały „No Trespassing” znak obok czyjegoś podjazdu. To nie jest magia i (chyba, że gość wyraźnie jej szuka), mogą wędrować po twojej nieruchomości bez najmniejszego wpływu na jej istnienie. Istnieją internetowe odpowiedniki reflektorów i ogrodzeń z żyletek, ale jeśli to jest to, czego chcesz,robots.txt
prawda?