Jak usunąć tysiące adresów URL z pamięci podręcznej Google?


13

Google zbuforowało tysiące plików PDF z mojej witryny, które nie powinny być publiczne. Zaktualizowałem nagłówki, ale muszę usunąć istniejącą pamięć podręczną Szybki podgląd.

Narzędzie Google dla webmasterów pozwala mi je usuwać jeden po drugim - jednak nie jest to praktyczne ze względu na liczbę plików do usunięcia.

Czy ktoś wie, jak mogę wsadowo usunąć pliki PDF z pamięci podręcznej Google? Idealnie chciałbym znaleźć sposób, aby usunąć wszystko, co pasuje do „site: mysite.com * .pdf”


3
Szybkie wyszukiwanie w Google wskazuje, że nie jest możliwe grupowe usunięcie za pomocą Google API, musisz stworzyć własny skrypt, który usuwa linki jeden po drugim

Odpowiedzi:


9

Wygląda na to, że już wymyśliłeś, jak poprosić o usunięcie jednego adresu URL , co oczywiście nie wchodzi w rachubę. Drugi etap tego procesu pozwala również zażądać usunięcia całego katalogu , jeśli adresy URL plików są przewidywalne w ten konkretny sposób. (Jeśli masz tysiące plików PDF, mam nadzieję, że są one przynajmniej nieco uporządkowane.) Jeśli nie, nie masz praktycznie żadnych opcji.


2

Ostatnio miałem włamanie, które dodało do mojej witryny kilka tysięcy fałszywych stron.

Przesłałem poprawioną mapę witryny do Google Search Console (wcześniej nazywanej Narzędziami dla webmasterów) i zmieniłem wszystkie linki na 410, ale Google nadal indeksował większość z nich.

Użyłem Narzędzi WebMaster - masowe usuwanie adresów URL Rozszerzenie Chrome, aby automatycznie przesłać adresy URL do usunięcia. Zasadniczo jest to skrypt, który pobiera listę adresów URL, a następnie przesyła je za Ciebie, pojedynczo. Przekazanie ich wszystkich zajmie godziny, ale przynajmniej nie będziesz musiał tego robić sam. Oto artykuł o tym, jak z niego korzystać .

Możesz uzyskać listę adresów URL indeksowanych przez Google, pobierając dane bezpośrednio z Search Console. Przejdź do Status> Pokrycie indeksu i wybierz prawidłowe wyniki, a następnie przewiń w dół. Zobaczysz, że Google zaindeksował mnóstwo adresów URL, które nie znajdują się w mapie witryny. Możesz pobrać pierwsze 1000 wyników. Najwyraźniej istnieje sposób na zdobycie wszystkich, nie tylko pierwszych tysięcy, ale obejmuje połączenia API z programu Excel. Czekałem tylko kilka dni między tysiącami, gdy powoli wypadały z indeksu.

Migawka pokrycia indeksu Google

Inną drogą jest utworzenie mapy witryny przez wtyczkę WP, a następnie odfiltrowanie plików PDF lub cokolwiek, na co celujesz. Prawdopodobnie będziesz musiał tutaj wykonać ręczne kopiowanie / wklejanie / usuwanie. Dla bezpieczeństwa powoli przewijałem listę około 2700 adresów URL spamu i usunąłem prawidłowe adresy URL. Zajęło to tylko około 20 minut.

Jeśli nie próbujesz trwale zniszczyć czegoś, takiego jak spam, a zamiast tego próbujesz zaciemnić zasoby premium, powinieneś użyć innych metod, aby zapobiec indeksowaniu tych zasobów, takich jak plik robota. Ale jeśli okaże się, że Google nie słucha lub upuściłeś piłkę, przynajmniej teraz możesz naprawić problem i usunąć je z indeksu w ciągu zaledwie kilku dni.

W moich szczególnych okolicznościach zastanawiam się, dlaczego Google nie ma przycisku wehikułu czasu ani nie cofa go, ani nie resetuje. Chodzi o to, że mogę powiedzieć Google, że witryna została zaatakowana kilka dni temu, ale naprawiliśmy ją, dlatego cofnij ostatnią x liczbę dni indeksowania i indeksowania. Ale to byłoby zbyt łatwe.


1

Jeśli pliki „nie powinny być publiczne”, powinny znajdować się w publicznym Internecie. Możesz usunąć pliki z aukcji Google (za pomocą robots.txt i innych metod), ale jeśli pliki nadal tam są, każdy może je pobrać.

Powinieneś trzymać je za jakimś uwierzytelnieniem. Na przykład przenieś pliki z publicznego katalogu internetowego i podaj je ze skryptu, który sprawdza, czy użytkownik jest poprawny jako pierwszy.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.