Jak zaindeksować dziesiątki milionów stron przez bota Google?


12

Obecnie opracowujemy witrynę, która ma obecnie 8 milionów unikalnych stron, które od razu wzrosną do około 20 milionów, a ostatecznie do około 50 milionów lub więcej.

Zanim skrytykujesz ... Tak, zapewnia unikalną, przydatną treść. Nieprzerwanie przetwarzamy nieprzetworzone dane z rejestrów publicznych i wykonując pewne operacje czyszczenia danych, zestawiania encji i mapowania relacji, byliśmy w stanie wygenerować wysokiej jakości treści, tworząc stronę, która jest całkiem przydatna, a także wyjątkowa, częściowo ze względu na szerokość dane.

Jego PR wynosi 0 (nowa domena, brak linków), a my jesteśmy oczerniani w tempie około 500 stron dziennie, co daje nam około 30 000 zaindeksowanych do tej pory stron. Przy takim tempie indeksowanie wszystkich naszych danych zajęłoby ponad 400 lat.

Mam dwa pytania:

  1. Czy wskaźnik indeksowania jest bezpośrednio skorelowany z PR, a przez to mam na myśli, że jest on wystarczająco skorelowany, że kupując starą domenę z dobrym PR, doprowadzi nas do realnego wskaźnika indeksowania (w okolicach 100 000 stron dziennie).
  2. Czy są konsultanci SEO specjalizujący się we wspieraniu samego procesu indeksowania? Jesteśmy inaczej robi bardzo dobrze z SEO, na -page zwłaszcza poza tym konkurencja dla naszego „długim ogonem” fraz jest dość niska, więc nasze zawiasy sukces głównie na liczbę stron indeksowanych.

Nasz główny konkurent osiągnął indeksowanie około 20 milionów stron w nieco ponad rok, wraz z rankingiem Alexa 2000.

Godne uwagi cechy, które posiadamy:

  • prędkość pobierania strony jest całkiem dobra (250-500 ms)
  • brak błędów (brak błędów 404 lub 500 przy wykręcaniu)
  • korzystamy z narzędzi Google dla webmasterów i logujemy się codziennie
  • przyjazne adresy URL na miejscu
  • Boję się przesyłać mapy witryn. Niektóre posty społeczności SEO sugerują nową stronę z milionami stron i żaden PR nie jest podejrzany. Istnieje film Google Matta Cuttsa mówiącego o zainscenizowanym wprowadzaniu na pokład również dużych witryn , aby uniknąć wzmożonej kontroli (około 2:30 w filmie).

  • Klikalne linki witryny dostarczają wszystkich stron, nie więcej niż czterech stron głębokości i zwykle nie więcej niż 250 (-ish) wewnętrznych linków na stronie.
  • Tekst kotwicy dla linków wewnętrznych jest logiczny i dodaje hierarchicznie trafność do danych na stronach szczegółowych.
  • Wcześniej ustawiliśmy najwyższą szybkość indeksowania w narzędziach dla webmasterów (maksymalnie około strony co dwie sekundy, maksymalnie). Niedawno zmieniłem to z powrotem na „pozwól Google zdecydować”, co jest zalecane.


6
Naprawdę chciałbym zobaczyć 50 milionów stron dostarczających unikalne przydatne treści. To fajne, że Wikipedia nie ma tak dużej wiedzy w porównaniu do Twojej witryny, że dziś ma tylko 3,5 miliona stron [ref. en.wikipedia.org/wiki/File:EnwikipediaArt.PNG]
Marco Demaio

3
:) Patrząc poza sarkazm ... to nie liczba stron sprawia, że ​​Wikipedia jest ogromnym źródłem wiedzy - oczywiście, tak - bardziej użytecznym. Nasza strona generuje stronę dla każdego rekordu osoby i stronę dla każdego rekordu firmy w naszej bazie danych. Korzystamy z analizy i czyszczenia danych, aby dynamicznie generować relacje między partnerami biznesowymi, przedstawiając graficznie sieć biznesową powiązanych ludzi i korporacji. Liczba stron jest funkcją ilości danych, które mamy. Dzięki wykrywalności poprzez wyszukiwanie sprawia, że ​​jest bardziej przydatny dla wszystkich. Dziękuję za Twój komentarz.
Chris Adragna,

1
Zdobądź więcej PageRank, zdobywając więcej linków. Link do stron ze stron, które mają PageRank.
Alex Black

Odpowiedzi:


20

Niektóre potencjalne strategie:

  • Narzędzia Google dla webmasterów pozwalają zażądać zwiększenia szybkości indeksowania. Spróbuj to zrobić, jeśli jeszcze tego nie zrobiłeś.
  • Spójrz jeszcze raz na architekturę nawigacji, aby sprawdzić, czy nie możesz poprawić dostępu do większej ilości treści. Spójrz na to z perspektywy użytkownika: jeśli użytkownikowi trudno jest znaleźć konkretną informację, może być również trudna dla wyszukiwarek.
  • Upewnij się, że nie masz zduplikowanej treści z powodu niespójnych parametrów adresu URL lub niewłaściwego użycia ukośników. Eliminując duplikaty treści, skracasz czas, przez który Googlebot indeksuje coś, co już zostało zaindeksowane.
  • W miarę możliwości korzystaj z powiązanych treści i linków w obrębie treści.
  • Losuj wybrane linki. Pasek boczny z losową zawartością wewnętrzną jest świetnym wzorem do użycia.
  • Używaj dat i innych mikroformatów .
  • Korzystaj z kanałów RSS tam, gdzie to możliwe. Kanały RSS będą działać tak samo jak mapa witryny (w rzeczywistości Narzędzia dla webmasterów umożliwiają przesłanie kanału jako mapy witryny).
  • Jeśli chodzi o mapy witryn, zobacz to pytanie .
  • Znajdź sposoby na uzyskanie zewnętrznych linków do swoich treści. Może to przyspieszyć proces indeksowania. Jeśli jest to odpowiednie do rodzaju treści, ułatwi to dzielenie się społecznie lub za pośrednictwem poczty e-mail.
  • Podaj interfejs API, aby zachęcić do korzystania z danych i zewnętrznych linków do danych. Możesz mieć link atrybucji jako wymóg wykorzystania danych.
  • Przyjmij społeczność. Jeśli trafisz do właściwych osób we właściwy sposób, otrzymasz linki zewnętrzne za pośrednictwem blogów i Twittera.
  • Poszukaj sposobów na stworzenie społeczności wokół swoich danych. Znajdź sposób, aby uczynić go społecznym. Pomagają interfejsy API, mashupy, widżety społecznościowe, ale także blog, prezentacje społeczności, fora i mechanika gier (zobacz także ten film ).
  • Priorytetowo zindeksuj treść. Przy tak dużej ilości danych nie wszystkie będą absolutnie niezbędne. Podejmij strategiczną decyzję, która treść jest najważniejsza, np. Będzie ona najbardziej popularna, będzie miała najlepszą szansę na ROI, będzie najbardziej użyteczna itp. I upewnij się, że treść ta jest najpierw zaindeksowana.
  • Przeprowadź szczegółową analizę tego, co robi Twój konkurent, aby zindeksować swoje treści. Spójrz na ich architekturę strony, nawigację, linki zewnętrzne itp.

Na koniec powinienem to powiedzieć. Pozycjonowanie stron i indeksowanie to tylko małe części prowadzenia witryny biznesowej. Nie trać koncentracji na ROI ze względu na SEO. Nawet jeśli masz duży ruch z Google, nie ma znaczenia, czy nie możesz go przekonwertować. SEO jest ważne, ale należy zachować perspektywę.

Edytuj :

Jako uzupełnienie twojego przypadku użycia: możesz rozważyć oferowanie recenzji lub referencji dla każdej osoby lub firmy. Ponadto rozdawanie odznak użytkownika, takich jak StackOverflow, może zachęcić przynajmniej niektóre osoby do utworzenia linku do własnego profilu w witrynie. To zachęciłoby niektóre zewnętrzne linki do twoich głębokich stron, co może oznaczać szybsze indeksowanie.


1
+1 - Zawsze trzeba wspomnieć, że SEO to mikrokosmos większego problemu związanego z promocją biznesu; jest to również najłatwiejsze (przynajmniej dla osób z technicznego punktu widzenia) zagubienie się. Więcej osób ogląda teraz telewizję niż w jakimkolwiek momencie w historii - w zależności od tego, co oferujesz, reklama telewizyjna może mieć lepszą ROI niż PPC ...
danlefree,

Dobry pomysł na mikroformaty. To nie jest srebrna kula, ale mamy wiele miejsc, w których znaczniki semantyczne przy użyciu obowiązujących standardów mikroformatów mogą być pomocne.
Chris Adragna,

1
Nie wiem, czy jakiekolwiek mikroformaty (inne niż prawdopodobnie znacznik czasu) oznaczałyby szybsze indeksowanie, ale korzystanie z nich może wiązać się z innymi korzyściami SEO. Przynajmniej ułatwia to indeksowanie stron i może pomóc wyróżnić wpis na stronie wyników wyszukiwania (w zależności od mikroformatu).
Virtuosi Media,

5

Jak zaindeksować dziesiątki milionów stron przez bota Google?

Nie stanie się to z dnia na dzień, jednak gwarantuję, że szybciej zobaczysz więcej stron, jeśli linki przychodzące do głębokiej treści (szczególnie strony map witryn lub indeksy katalogów wskazujące na jeszcze głębszą treść) zostały dodane z podobnie dużych witryn, które są już od jakiegoś czasu.

Czy starsza domena wystarczy do indeksowania 100 000 stron dziennie?

Wątpliwe, chyba że mówisz o starszej domenie, która przez lata była w niej bardzo aktywna (tj. Nagromadzona treść i linki przychodzące).

Czy są konsultanci SEO specjalizujący się we wspieraniu samego procesu indeksowania?

Kiedy zadajesz takie pytanie, jestem pewien, że znajdziesz wielu SEO, którzy głośno głoszą „tak!” ale pod koniec dnia sugestie Virtuosi Media są tak dobrą radą, jak można uzyskać od któregokolwiek z nich (nie mówiąc już o potencjalnie złej radzie).

Z tego wynika, że ​​powinieneś rozważyć wykorzystanie kanałów rozwoju biznesu i public relations do budowania rankingu witryny w tym momencie - uzyskaj więcej linków do swoich treści (najlepiej poprzez partnerstwo z istniejącą witryną, która oferuje treści ukierunkowane regionalnie, aby połączyć się z Twoją na przykład treść podzielona regionalnie), zachęć więcej osób do przeglądania Twojej witryny (niektórzy będą mieć zainstalowany pasek narzędzi Google, aby ich ruch mógł działać w kierunku odkrywania stron) i, ​​jeśli to możliwe, zachęć Twoją firmę do wiadomości lub w społecznościach osób, które tego potrzebują (jeśli planujesz pobierać opłaty za niektóre usługi, rozważ reklamę bezpłatnego okresu próbnego, aby uzyskać zainteresowanie).


3

Są dwie możliwe opcje, o których wiem, że mogą być pomocne.

Po pierwsze: mała sztuczka, którą wypróbowałem na stronie internetowej, która miała trzy miliony stron, która zadziwiająco dobrze działała, była tym, co mój kolega stworzył pętlę indeksowania. Być może trzeba trochę zmanipulować pomysł, aby pasował do Twojej witryny.

Zasadniczo ustaliliśmy dzień, w którym nie sądziliśmy, że będziemy mieli duży ruch (święta) i dosłownie skopiowaliśmy listę każdego linku na naszej stronie i wkleiliśmy każdy z nich do pliku php, który był wywoływany na każdej stronie internetowej. (Plik php paska bocznego)

Następnie zmusiliśmy się do przejścia do konsoli wyszukiwania Google (dawniej narzędzia Google dla webmasterów) i poprosiliśmy google o pobranie adresu URL i zaindeksowanie każdego linku na tej stronie.

Ponieważ masz tak wiele linków, a strony, do których prowadzą te linki, mają również dużą liczbę linków, google przechodzi w pętlę i indeksuje witrynę w znacznie szybszy sposób. Na początku byłem sceptyczny, ale działało to jak urok.

Zanim to zrobisz, musisz upewnić się, że masz wyjątkowo wydajną konfigurację bazy danych i bardzo wydajny serwer, w przeciwnym razie może to albo przeciążać serwer, albo zaszkodzić Twojemu SEO ze względu na długi czas ładowania strony.

Jeśli nie jest to opcja dla ciebie, zawsze możesz zajrzeć do apli Google Cloud Console. Mają interfejs API konsoli wyszukiwania, dzięki czemu można napisać skrypt, aby dodać każdą stronę jako własną instancję witryny w konsoli wyszukiwania lub aby Google pobierał każdy z twoich adresów URL.

Api mogą się bardzo szybko komplikować, ale są niesamowitym narzędziem, gdy są właściwie stosowane.

Powodzenia!


1
Łączenie stron ze sobą to świetna strategia ich indeksowania. O wiele lepsze niż próba polegania na mapie witryny XML. Jednak pozostawiłbym te linki cały czas na miejscu, a nie tylko w Boże Narodzenie. Gdy tylko usuniesz linki, Google zauważy, że strony utraciły linki i przestanie je indeksować.
Stephen Ostermiller

2

Granie w system nigdy nie jest dobrym pomysłem, jeśli prowadzisz legalną firmę, która ceni sobie reputację online. Ponadto, jeśli twoja strona naprawdę zapewnia wartość, to im dłużej jest w pobliżu (zakładam, że robisz jakąś formę marketingu?), Tym więcej będzie linków wstecznych, więc twój PR wzrośnie, a twoja szybkość indeksowania wzrośnie.

Ponadto, jeśli masz dobrą strukturę linków w witrynie (wszystkie strony można wykryć za pomocą rozsądnej liczby kliknięć / linków), musisz przesłać główne indeksy tylko za pomocą mapy witryny. Po zaindeksowaniu tych stron przez Google będą one indeksowane przez Google, a Google samodzielnie zindeksuje pozostałe strony.


+1 RE: granie w system - choć myślę, że należy zauważyć, że istnieje wiele alternatyw dla grania w system, które pozwalają webmasterowi generować prawidłowe linki zwrotne (przydatne dla odwiedzających) na jego stronie.
danlefree,

@danlefree: Zdecydowanie. Miałem na myśli jedynie kupowanie wygasłych nazw domen, aby uzyskać ich resztkowy PR / ruch. Ale jeśli możesz reklamować swoją witrynę, wysyłać komunikaty prasowe do publikacji handlowych, stron z recenzjami aplikacji itp., To są to bardzo dobre sposoby na generowanie legalnych linków zwrotnych.
Lèse majesté

2

Jedną z rzeczy, które zauważam w przypadku narzędzi Google dla webmasterów, jest to, że zaczynają od dopuszczenia maksymalnej szybkości indeksowania około dwóch żądań na sekundę. Mniej więcej tydzień później, jeśli stwierdzą, że często odwiedzany jest ten serwis, pozwolą ci zwiększyć limit.

Współprowadzę witrynę, na której znajduje się ponad 500 000 oryginalnych obrazów, a czasami mój maksymalny limit to 10 żądań na sekundę, ponieważ otrzymuję co najmniej 700 do 1000 wyświetleń dziennie, jeśli nie więcej.

Warto więc co tydzień sprawdzać za pomocą narzędzi dla webmasterów, czy można zwiększyć limit indeksowania. Gdy zmienisz limit indeksowania, Google zresetuje go do preferowanych ustawień po upływie określonego dnia (który pokaże interfejs). Następnie tego dnia ponownie podnieś limit.


2

Mam doświadczenie z tego rodzaju witryną. Wiele lat temu prowadziłem katalog artykułów, a% zaindeksowanych stron i, co ważniejsze, faktycznie działający, był prawie bezpośrednio skorelowany z liczbą domen odsyłających - tj. Liczbą unikalnych witryn łączących się ze sobą. Duża witryna z milionami stron potrzebuje kilku tysięcy rozsądne domeny łączące się w celu samodzielnego działania.

Na pewno nie wydarzy się to z dnia na dzień, ale jeśli zbudujesz 5-10 dobrych linków dziennie, zacznie się to dziać, wtedy będziesz w stanie generować dochód i używać go do opłacania profesjonalnego sprzętu SEO do budowania linków dla Was.

Obecnie buduję podobną, bogatą w informacje witrynę, jej początki, ale mam ten sam problem z około 4 milionami stron treści z szybkością indeksowania 700–1000 stron dziennie.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.