Google wciąż indeksuje i indeksuje moje stare, fałszywe strony testowe, których nie znaleziono 404

Skonfigurowałem moją witrynę z przykładowymi stronami i danymi (lorem ipsum itp.) I Google zaindeksował te strony. Usunąłem wszystkie te strony i faktycznie dodałem prawdziwą treść, ale w narzędziach dla webmasterów nadal pojawia się wiele błędów 404, które Google próbuje zaindeksować. Ustawiłem je tak, aby „oznaczały jako rozwiązane”, ale niektóre strony wciąż powracają jako 404.

Co więcej, wciąż mam wiele takich przykładowych stron, kiedy przeszukuję moją witrynę w Google. Jak je usunąć. Myślę, że te nieistotne strony szkodzą mojej ocenie.

Naprawdę chciałem usunąć wszystkie te strony i zacząć indeksować moją witrynę jako nową, ale czytam, że to niemożliwe? (Przesłałem mapę witryny i użyłem „Pobierz jako Google”).

search-engine-indexing 404

— As
źródło

Odpowiedzi:

W porządku. Najpierw najważniejsze. Nie oznaczaj 404 jako naprawionego . W rzeczywistości przedłużasz ten problem. Google spróbuje pobrać stronę, która zwraca 404 kilka razy, zanim się podda. Jest tak, ponieważ błąd 404 wskazuje na tymczasową sytuację, w której błąd 410 mówi, że strona zniknęła . Dlatego za każdym razem, gdy oznaczysz 404 jako naprawiony , w rzeczywistości każesz Google spróbować ponownie, rozpoczynając proces eliminacji od nowa.

Po prostu pozwól tym stronom 404 na chwilę, a Google przestanie ich szukać i usunie strony z indeksu. Zajmie to trochę czasu, ale bez błędu 410 jest to najłatwiejszy sposób. Błąd 410 przyspieszyłby proces, ale trudniej jest przedstawić błąd 410, a domyślny błąd 404 sprawia, że jest to łatwiejsze i bardziej naturalne rozwiązanie.

Usunięte strony znikną za około 30–60 dni, jeśli możesz poczekać. To zależy od tego, jak często Google odwiedza twoje strony. Może to potrwać dłużej, ale gdy zostaną znalezione 404, Google lubi najpierw sprawdzić na miejscu, a następnie, w zależności od liczby 404, może bardziej agresywnie pająkować.

Korzystanie z mapy witryny zasadniczo nie rozwiązuje żadnych problemów z indeksem. To tylko ułatwia życie wyszukiwarkom. Nigdy nie jest traktowana jako kompletna lista stron, które ma każda witryna. Jeśli wyszukiwarka odczyta mapę witryny i nadal znajdzie strony niewymienione w mapie witryny, będzie nadal indeksować te strony.

Jedną z opcji, jeśli ma to sens, jest umieszczenie tych stron w pliku robots.txt. Jeśli nie ma ich zbyt wiele (co oznacza, że możesz zrobić, a plik robots.txt nie byłby zbyt długi), byłoby to szybsze rozwiązanie. W przeciwnym razie po prostu poczekam i pozwolę, aby błędy 404 same wygasły.

Ostatnie słowo. Będzie dobrze. Naprawdę. Wszystko będzie dobrze, jeśli będziesz cierpliwy.

— closetnoc
źródło

Dodanie 404 stron do pliku robots.txt brzmi jak zła praktyka. Spowoduje to jedynie zamieszanie robota i zajmie dużo całkowicie niepotrzebnego sprzątania.

— Dorus

@Dorus W ogóle nie. Jeden nie ma nic wspólnego z drugim. Dodanie dowolnej strony do pliku robots.txt spowoduje szybkie usunięcie strony z indeksu. Również wyszukiwarka nie będzie próbowała uzyskać dostępu do pliku, a zatem nie ma 404.

— closetnoc

Jak mówisz, jeśli dodasz go do pliku robots.txt, wyszukiwarka nie będzie próbowała uzyskać dostępu do strony, ale strona nadal będzie istnieć. Więc jeśli pewnego dnia usuniesz go z robotów, indeksowanie zwróci. Lepszym rozwiązaniem jest pozwolić 404 lub 410 na wykonanie pracy.

@closetnoc Co miałeś na myśli it is harder to present a 410 error?

— Evgeniy,

@Evgeniy Błąd 404 jest domyślnie podawany (przynajmniej Apache i starsze IIS). Błąd 410 musiałby być celowy i wymagać trochę pracy. Z technicznego punktu widzenia nie jest to trudne zadanie, jednak wymaga pewnej wiedzy, choć niewiele. Twoje zdrowie!!

— closetnoc

Po opublikowaniu strony Google nigdy o niej nie zapomni. Mam witryny, z których usunąłem strony 15 lat temu. Googlebot wciąż wraca i od czasu do czasu sprawdza te strony.

Aby zapobiec wyświetlaniu się stron w wyszukiwarce, błędy 404 wykonają zadanie. Usunięcie strony z indeksu może zająć Google dzień po tym, jak Googlebot zaindeksuje ją następnie. Jeśli chcesz go usunąć szybciej, zwróć zamiast tego status „410 Gone”. Google usuwa 410 stron natychmiast po ich zaindeksowaniu zamiast czekać dziennie. Google nie usuwa od razu 404 stron, aby uniemożliwić webmasterom zastrzelenie się w stopę, jak opisuje Matt Cutts :

Więc z 404, wraz z myślami 401, a może 403, jeśli zobaczymy stronę i otrzymamy 404, będziemy chronić tę stronę przez 24 godziny w systemie indeksowania, więc trochę czekamy i mówimy, że to była przejściowy 404, może tak naprawdę nie było przeznaczone do nie znalezienia strony.

Inną metodą, którą możesz rozważyć, jest przekierowanie. 301 przekierowanie starej strony do zamiennika zapobiegnie wyświetlaniu się jako błąd w Narzędziach Google dla webmasterów. Jest to możliwe tylko wtedy, gdy dla każdej ze starych stron jest nowa strona. Przekierowanie wszystkich stron testowych na stronę główną nie pomoże, ponieważ Google uważa przekierowania na stronę główną za „miękkie błędy 404”, które nadal będą się pojawiać w tym raporcie.

Błędy 404 w Narzędziach dla webmasterów nie zaszkodzą. Występowanie około 404 błędów w witrynie może nawet pomóc, ponieważ pokazuje Googlebotowi, że witryna jest poprawnie skonfigurowana. Oto, co John Mueller z Google (pracujący w Narzędziach dla webmasterów i mapach witryn) ma do powiedzenia na temat błędów 404 pojawiających się w narzędziach dla webmasterów :

WSPARCIE! MOJA STRONA MA 939 BŁĘDÓW WYCIĄGANIA !! 1

Widzę tego rodzaju pytania kilka razy w tygodniu; nie jesteś sam - wiele witryn ma błędy indeksowania.

Błędy 404 w nieprawidłowych adresach URL w żaden sposób nie naruszają indeksowania ani rankingu witryny . Nie ma znaczenia, czy jest ich 100 czy 10 milionów, nie zaszkodzą one rankingowi Twojej witryny. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html

W niektórych przypadkach błędy indeksowania mogą wynikać z uzasadnionego problemu strukturalnego w witrynie lub systemie CMS. Jak to powiedzieć Sprawdź dokładnie przyczynę błędu indeksowania. Jeśli w Twojej witrynie jest uszkodzony link, w statycznym kodzie HTML strony, zawsze warto to naprawić. (dzięki + Martino Mosna )

Co z funky, które są „wyraźnie uszkodzone”? Kiedy nasze algorytmy lubią Twoją witrynę, mogą próbować znaleźć na niej więcej świetnych treści, na przykład próbując odkryć nowe adresy URL w JavaScript. Jeśli wypróbujemy te „adresy URL” i znajdziemy 404, to jest świetne i oczekiwane. Po prostu nie chcemy przegapić niczego ważnego (wstaw tutaj nadmiernie załączony mem Googlebota). http://support.google.com/webmasters/bin/answer.py?answer=1154698

Nie musisz naprawiać błędów indeksowania w Narzędziach dla webmasterów. Funkcja „oznacz jako ustaloną” służy wyłącznie pomocą, jeśli chcesz śledzić swoje postępy; nic nie zmienia w naszym potoku wyszukiwania w sieci, więc możesz go zignorować, jeśli go nie potrzebujesz. http://support.google.com/webmasters/bin/answer.py?answer=2467403

Błędy indeksowania wyświetlamy w Narzędziach dla webmasterów według priorytetów, które są oparte na kilku czynnikach. Jeśli pierwsza strona błędów indeksowania jest wyraźnie nieistotna, prawdopodobnie nie znajdziesz ważnych błędów indeksowania na kolejnych stronach. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html

Nie ma potrzeby „naprawiania” błędów indeksowania w witrynie. Znalezienie 404 jest normalne i oczekuje się od zdrowej, dobrze skonfigurowanej strony internetowej. Jeśli masz równoważny nowy adres URL, dobrym pomysłem jest przekierowanie do niego. W przeciwnym razie nie powinieneś tworzyć fałszywych treści, nie powinieneś przekierowywać na swoją stronę główną, nie powinieneś robots.txt blokować tych adresów URL - wszystkie te rzeczy utrudniają nam rozpoznanie struktury Twojej witryny i prawidłowe jej przetwarzanie. Nazywamy te „miękkimi błędami 404”. http://support.google.com/webmasters/bin/answer.py?answer=181708

Oczywiście - jeśli te błędy indeksowania pojawiają się w przypadku adresów URL, na których Ci zależy, być może adresów URL w pliku mapy witryny, należy natychmiast podjąć odpowiednie działania. Jeśli Googlebot nie może zaindeksować ważnych adresów URL, mogą zostać usunięte z naszych wyników wyszukiwania i użytkownicy mogą nie mieć do nich dostępu.

— Stephen Ostermiller
źródło

To wcale nie było moje doświadczenie. Google chce świeżego indeksu i dość szybko usuwa strony. To, co widzę, wydaje się podobne do tego, co opisujesz, polega na tym, że inne witryny korzystające z Google API w przeszłości nie odświeżają swoich danych i będą cytować starszą pracę. Często są to strony z spamem / śmieciami, które mogą pojawiać się / pozostać / zniknąć / pojawić się ponownie. Widzę to przede wszystkim dlatego, że interfejs API Google był raczej rozwiązany i nie jest już dłużej, dlatego dane spamu są znacznie starsze, ponieważ nowe dane są bardzo trudne do zdobycia, szczególnie jeśli spam był w przeszłości.

— closetnoc

Googlebot ma tryb indeksowania, który nazywam „znaleźliśmy pole adresów URL w piwnicy”. W tym trybie indeksowania może indeksować tysiące adresów URL z Twojej witryny z rzędu, z których żaden nie był używany od lat. Adresy URL zwykle nie zawierają linków przychodzących, nawet ze stron skrobaków. Są one indeksowane według długości, najpierw krótsze adresy URL.

— Stephen Ostermiller

To może być prawda. Google to oczywiście duże zbiory danych. Każda duża baza danych zawiera szum. To jest nieuniknione. To może być to, czego doświadczasz. Możliwe jest, że różne bazy danych są uzgadniane. To ma sens. Ale ostrzegam również, że niepotrzebne strony mogą pojawiać się tylko przez 2 godziny ze starymi linkami i starymi cytatami. Widzę to codziennie. Są przede wszystkim w Rosji i Polsce. Witryny te służą do gry w lokalnych wyszukiwarkach, ale wpływają na ruch do dowolnej witryny i mogą zostać odebrane przez Google. Codziennie otrzymuję około 12 z nich. Zasadniczo tylko 1 na 12 witryn pozostaje w dowolnym okresie.

— closetnoc

Co to jest błąd 939?

— Greg Nickoloff

939 to liczba błędów, nie jest to rodzaj błędu.

— Stephen Ostermiller

Google prawdopodobnie będzie nadal próbował indeksować te strony przez długi czas. Webmasterzy popełniają błędy lub witryny stają się niedostępne z jakiegokolwiek powodu, więc Google nie usunie treści przy pierwszym znaku 404.

Zamiast tego możesz podać 410 Gone. Jest to znacznie silniejszy (tj. Celowy) sygnał, że strona dosłownie „zniknęła” i nie wraca. Może to skłonić Google do wcześniejszego usunięcia strony z SERP.

Ustawiłem je tak, aby „oznaczały jako rozwiązane”, ale niektóre strony wciąż powracają jako 404.

Są „rozwiązane” tylko wtedy, gdy odłożyłeś stronę z powrotem. Jeśli oznaczysz go jako rozwiązany, a strona nie istnieje, błąd indeksowania po prostu się powtórzy. Jeśli strona nie istnieje, zostaw ją taką, jaka jest.

Oryginalne 404 nie szkodzą Twojemu rankingowi wyszukiwania. Raport 404 w GWT jest przede wszystkim dla twojej korzyści, dzięki czemu możesz zobaczyć, kiedy coś pójdzie nie tak ... kiedy nie można znaleźć stron, które powinny zostać znalezione!

Te nieistotne strony w SERP są być może drobną irytacją dla użytkowników, ale czego szukają, aby znaleźć lorem ipsum ?

— MrWhite
źródło