Na podstawie moich badań na ten temat stwierdziłem, że nie ma w 100% oczywistej metody zapobiegania indeksowaniu i buforowaniu danych, ale możesz podejść bardzo blisko (zakładając, że chcesz poradzić sobie ze zwiększonym ruchem botów). Oto jak zinterpretowałem informacje.
Można by pomyśleć, że plik robots.txt służy do definiowania informacji o robotach w całej witrynie, a do szczegółowych informacji na temat strony używane są metatagi. Myślę, że duch 2 jest dokładnie taki, ale w praktyce tak nie jest.
Nie twórz pliku robots.txt
Działa to ze wszystkich głównych dostawców wyszukiwania, aby zapobiec pojawianiu się treści na SERP, ale nie nie zapobiec indeksowania. Zapobiega to również indeksowaniu stron przez roboty, dlatego też metatagi robotów (patrz poniżej) są również ignorowane. Z tego powodu nie możesz używać 2 razem i dlatego, jeśli chcesz zapobiec indeksowaniu, nie powinieneś używać pliku robots.txt.
Uwaga dodatkowa: Google obsługuje użycie Noindex: /
pliku robots.txt, ale jest to nieudokumentowane (kto wie, kiedy się zepsuje) i nie wiadomo, czy to działa dla kogokolwiek innego.
Użyj nagłówków HTTP lub tagów HTML META, aby wszystko zapobiec
W przeciwieństwie do pliku robots.txt, metatag robots (i nagłówek HTTP) jest szeroko obsługiwany i, co zaskakujące, bogaty w funkcje. Został zaprojektowany do ustawienia na każdej stronie, ale niedawne przyjęcie X-Robots-Tag
nagłówka ułatwia ustawienie w całej witrynie. Jedyną wadą tej metody jest to, że boty będą indeksować Twoją witrynę. Można to ograniczyć, używając nofollow
, ale nie wszystkie boty naprawdę szanują nofollow
.
Znalazłem mnóstwo informacji w tym nieaktualnym wpisie na blogu . Pierwszą wersją było 2007, ale ponieważ wiele informacji na jego temat to nowsze funkcje, od tego czasu wydaje się, że jest regularnie aktualizowana.
Podsumowując, powinieneś wysłać nagłówek HTTP z X-Robots-Tag: noindex,nofollow,noodp,noydir
. Oto podział, dlaczego:
nofollow
powinien ograniczyć liczbę stron zaindeksowanych w Twojej witrynie, ograniczając ruch botów. * noindex
mówi silnikom, aby nie indeksowały strony.
- Teraz możesz założyć, że to
noindex
może wystarczyć. Przekonałem się jednak, że nawet jeśli uważasz, że noindex
Twoja witryna może być indeksowana z powodu linkowania do niej innych witryn. Najlepszy sposób, aby zapobiec typowym linkom do stron od Y! Directory ( noydir
) i Open Directory ( noodp
).
- Użycie nagłówka HTTP stosuje również dane robotów do plików, obrazów i innych plików innych niż HTML! TAK!
Będzie to działać w 99% przypadków. Pamiętaj jednak, że w niektórych przypadkach nadal istnieje możliwość indeksowania przez niektórych dostawców. Google twierdzi, że w pełni szanuje noindex
, ale mam swoje podejrzenia.
Wreszcie, jeśli zostaniesz zaindeksowany lub już zostałeś zindeksowany, jedynym sposobem na usunięcie zindeksowanych informacji jest skorzystanie z różnych środków od każdego dostawcy, aby zażądać usunięcia witryny / adresu URL. Oczywiście oznacza to, że prawdopodobnie będziesz chciał monitorować witryny / strony za pomocą czegoś takiego jak Alerty Google (dzięki @Joe).