W porządku. Będzie to jeden z tych przypadków, w których będę pracować nad tym procesem, aby stał się jaśniejszy. To będzie trochę długie, ale mam nadzieję, że nie będzie boleśnie długie.
Zacznijmy od początku, prawda?
Zaczynając od tego, co wiemy o tym, jak działa Google w oparciu o artykuł badawczy Brina i Page w 1997 roku, wiemy o kilku rzeczach, które są bardzo prawdopodobne, że nadal są w grze.
Google ma adres URL w indeksie i kolejce pobierania oraz pobiera stronę. Kod strony jest przechowywany w bazie danych dla różnych form przetwarzania. Jednym z procesów byłoby znalezienie nowych linków. Każdy link znaleziony przez Google zostanie najpierw umieszczony w indeksie linków, jeśli taki istnieje. W przeciwnym razie link zostanie dodany do tabeli łączy i dodany do kolejki pobierania.
Każdy link w tabeli łączy zawiera co najmniej te elementy, adres URL łącza, źródłowy adres URL i tekst łącza. Prawdopodobnie istnieją inne elementy danych, które jednak nie przyspieszają dyskusji. Każdy link dodany do tabeli łączy ma zweryfikowany źródłowy adres URL, ale niekoniecznie docelowy adres URL. Korzystając z relacyjnych baz danych jako przykład, źródłowy i docelowy adres URL może być identyfikatorem adresu URL w tabeli adresów URL, a tabela łączenia łączyłaby źródłowy adres URL tabeli URL i elementy docelowego adresu URL za pomocą identyfikatora z powrotem do tabeli adresów URL. Zmieszany? Nie bądź
W każdym przypadku, gdy strona docelowa nie została pobrana, link w tabeli łączy jest uważany za link zwisający. Po pobraniu strony łącze w tabeli łączy jest gotowe. Jeśli strona docelowa nie istnieje, wówczas link w tabeli łączy jest uszkodzonym łączem. Prosty?
Tylko pełne linki mogą przekazywać wartość. Algorytm PageRank wymaga pełnego łącza do obliczenia wartości. Wszystkie wiszące i zepsute łącza zatrzymują wszelkie obliczenia przy użyciu łącza. Poprzednio PR był procesem rekurencyjnym, który obliczał wartości łączy za pomocą tabeli łączy w kółko, dopóki wartość, którą można dostosować do dowolnego łącza, nie mieści się w wartości liczbowej, która jest tak mała, że w rzeczywistości nie ma znaczenia. Jestem pewien, że nadal występuje to jako proces utrzymania domu. Jednak dzisiejszy PR jest obliczany za pomocą innej metody podobnej do chmielu w sieci, która mierzy odległość od jednej strony do drugiej ze względnym znaczeniem. Opiera się na modelu sieci zaufania, który został zaprojektowany do emulacji oryginalnego modelu PageRank. Link to głosowanie zaufania od jednego podmiotu do drugiego. Choć staje się to bardziej skomplikowane, Dostajesz obraz. Skutecznie robi to samo, co proces rekurencyjny, wykorzystując obliczenia w czasie rzeczywistym, choć prawdopodobnie mniej dokładne, ale wystarczająco precyzyjne, aby były niezawodne. Wymaga to kompletnych łączy, ponieważ wartości zaufania (przy użyciu modelu sieci zaufania) nie mogą zostać przekazane, jeśli zaufanie nie zostanie ustanowione. Pamiętaj, że link to głosowanie zaufania lub link w modelu sieci zaufania. PageRank jest reprezentowany jako wartość zaufania w sieci zaufania.
Teraz, gdy rozumiesz linki i ich znaczenie, przejdźmy dalej.
W przypadku wyszukiwarki usunięcie adresu URL nie ma sensu. Jeśli adres URL nie istnieje w tabeli adresów URL, oznacza to, że nie możesz nic wiedzieć o adresie URL i byłby on zagubiony. Adresy URL zazwyczaj nie są usuwane, chyba że ma to sens, na przykład, jeśli adres URL już nie istnieje. Jednak gdy strona jest ustawiona na NOINDEX, wyszukiwarka została wyraźnie poinstruowana, aby NIE indeksować strony. Ponieważ strona internetowa w indeksie składa się z dwóch rzeczy: adresu URL i kodu źródłowego HTML, NOINDEX skutecznie usuwa stronę w tym momencie. Linki do strony NOINDEX są przynajmniej wiszące.
Teraz, gdy wiesz, jak wygląda indeksowana strona, przejdźmy dalej.
Istnieje wiele sposobów na ukaranie strony internetowej lub witryny przez wyszukiwarkę. Jednym z nich jest usunięcie z listy. Jest to najsurowsza ze wszystkich kar i jej odzyskanie zajmuje dużo czasu. Tę kategorię kar możesz udowodnić, ponieważ strony nie można i nie można jej znaleźć. Ponadto Google Search Console w pewien sposób powiadomi Cię, że strony są usuwane. Z pozostałych kar są one stosowane w filtrach SERP.
Gdy wykonywane jest zapytanie wyszukiwania, w rzeczywistości istnieje jednocześnie kilka zapytań dotyczących indeksu, które są następnie mieszane w zestawie wyników na podstawie części algorytmu. Pozostały algorytm, który często nazywamy pojedynczym bytem, jest serią stosunkowo prostych algorytmów SERP. Główne algorytmy, które będą zmieniać kolejność zestawu wyników w oparciu o więcej wskaźników w czasie rzeczywistym, takich jak trendy. Z algorytmów te, które usuwają wpisy z zestawu wyników lub poważnie obniżają położenie pozycji w zestawie wyników, nazywane są filtrami. Jednym z zastosowanych jest filtr, który obsługuje DMCA, jak pokazano...we have removed 1 result(s) from this page...
Skoro już wiesz, w jaki sposób nakładane są kary, czy linki, PR i filtry DMCA są połączone?
Dzięki temu wiemy, że zastosowano filtr, jednak nie ma to nic wspólnego z indeksem linków, który jest obliczany przez PageRank. Jest tak daleko od procesu link / PR, jak to możliwe. Odsyłacze i PR znajdują się na początku procesu indeksowania, podczas gdy usunięcie strony ukaranej DMCA znajduje się na końcu procesu zapytania. W rzeczywistości są to dwa całkowicie oddzielne silniki. Tak więc chociaż strona może zostać usunięta z powodu skargi DMCA, nie jest tak naprawdę usuwana z indeksu, a zatem linki do i ze strony są nadal obliczane.
Czyste jak błoto? Mam nadzieję, że dobrze to wytłumaczyłem. Daj mi znać, jeśli mogę coś dla ciebie wyjaśnić.
[Aktualizacja]
Wyjątek, który nie dotyczy scenariusza PO.
@StephenOstermiller porusza dobry punkt, który nie podważa powyższego, chciałbym jednak dodać go dla kompletności.
Jak dobrze wiadomo, ocenianie witryny lub strony w wyszukiwarce wymaga wielu czynników. Chociaż nie jest to tak techniczne lub mistyczne, jak możesz sobie wyobrazić, wciąż jest wiele do rozważenia. Zapomniałem o wyniku oceny zaufania głównie dlatego, że nie miała ona zastosowania w przypadku PO. Więc dodaję to tutaj.
Oczywiście są witryny, które nie są dobre, takie jak strony ze spamem. W ramach tej klasyfikacji witryn są witryny, które zwykle wykorzystują treści chronione prawem autorskim. To był ogromny problem wiele lat temu, gdy skrobaczki treści budowały witryny z twojej ciężkiej pracy. Przez długi czas nic nie zostało zrobione. Witryny z oryginalną treścią przegrywałyby ze stronami zgarniającymi dość konsekwentnie. Powinienem wiedzieć. Miałem dwie witryny PR 8, które straciły prawie cały ruch z powodu witryn zgarniających, bez żadnych możliwości ucieczki.
Jednak wszystko się zmieniło. I minęły tylko w przybliżeniu cztery lata od rozpoczęcia znaczących zmian.
W przypadku tej specjalnej klasyfikacji witryn wynik zaufania witryn może zostać znacznie obniżony. To jest dobrze znane. Odbudowywanie wyników zaufania zajmuje lata, a w przypadku niektórych witryn może się to nigdy nie zdarzyć. Dlaczego, na przykład, myślisz, że osoby zarabiające na domenach są tak chętne do całkowitego usunięcia witryny, w której setki tysięcy oczekują na to samo nadużycie? Jest tak, ponieważ w rzeczywistości domena może zrujnować swoją wartość poza odkupieniem.
Istnieje wiele czynników, które wpływają na budowanie zaufania. Nie wchodzę w to tutaj. Jednak wiedz, że zaufanie jest głównym elementem budowania rangi w każdej witrynie.
To powiedziawszy, dla każdej strony, która poważnie narusza DMCA z dość obszerną historią, spotka się z poważnym pogorszeniem jej poziomu zaufania. To nie jest scenariusz opisany przez PO. Jest to jednak scenariusz, który tutaj zakładam.
Łącza i tworzenie PageRank mają więcej niż jeden składnik. Jednym z nich jest PageRank (autorytet) samej strony. W przypadku stron o wysokiej wiarygodności obowiązuje ograniczenie uprawnień. Strona PR 8 nie będzie dzielić wartości 8 między linkami na tej stronie. Jest to część oryginalnego algorytmu PageRank mającego na celu nadanie PR bardziej naturalnej krzywej. W przeciwnym razie prawie nie byłoby możliwe, aby nowa strona konkurowała ze stroną o wysokich autorytetach nawet po długim czasie. Wartość samego linku jest oceniana na podstawie kilku czynników, w tym wartości semantycznej tekstu linku, adresu URL linku, lokalizacji linku (widoczności), wartości semantycznej bloku treści, który zawiera link, jeśli dotyczy, itp. Wszystkie linki są oceniane od 0 do .9. Obliczenie autorytetu i wyniku linku jest wartością przekazywaną przez dowolny link.
Cóż i dobrze. Jak to wpływa na witrynę, która jest znaczącym naruszeniem ustawy DMCA?
Wartość jakiegokolwiek linku przychodzącego niekoniecznie miałaby wpływ na wynik zaufania witryny docelowej, ponieważ wartość linków pochodzi z witryny źródłowej. Jednak każdy link wychodzący może być. Autorytet każdej witryny, która jest znaczącym podmiotem naruszającym przepisy DMCA, miałby wpływ na wynik zaufania. W końcu autorytet pochodzi z zaufania. W ten sposób wartość łącza przychodzącego nie byłaby przekazywana przez łącza wychodzące bez obniżenia w zależności od wyniku zaufania.
To nieco zmienia odpowiedź.
Chociaż nie dotyczy to scenariusza PO, istnieje scenariusz, w którym wartość łącza przychodzącego nie jest całkowicie przekazywana przez witrynę z naruszeniem DMCA. Jest to jednak trudny przypadek i dlatego próg, zanim to nastąpi, jest znaczący.