Używanie rel = kanoniczny z syndykowaniem

Pracuję w witrynie, która umożliwia syndykowanie treści (poprzez API i zrzuty danych). Stwierdzamy, że wiele witryn, które ponownie publikują nasze treści, pojawiają się wyżej w wynikach wyszukiwania Google, mimo że jesteśmy oryginalnym wydawcą. To jest frustrujące.

Rozważamy włączenie się rel=canonical do naszych wymagań dotyczących atrybucji. Google twierdzi, że używanie go w różnych domenach i w scenariuszach syndykowania jest uzasadnione .

Czy to zrobiłeś i czy Google bierze pod uwagę kanoniczny adres URL w rankingach wyszukiwania? Czy pomoże nam to ograniczyć taki „spam” SERP?

— Matt Sherman
źródło

To, co opisujesz, nie jest spamem. Ludzie robią to, o co ich prosisz - syndykowanie treści. Spam to niechciane reklamy e-mail i strony internetowe tworzone wyłącznie w celu bombardowania ludzi reklamami, a nie tworzenia niczego wartościowego. Jeśli są to typy witryn syndykujących Twoje treści, musisz przemyśleć swój model syndykacji lub źle to odzwierciedli w Twojej witrynie (tylko poprzez skojarzenie). Ale po prostu lepszy ranking wyszukiwania niż ty nie powoduje spamu witryny.

— Lèse majesté

@ Lèse naprawdę? witryny te wydają się być sprzeczne z zasadą „niewielkiej ilości oryginalnej treści lub jej wcale” ustanowioną przez Google google.com/support/webmasters/bin/answer.py?answer=66361

— Jeff Atwood

@Jeff: Do jakich stron konkretnie się odnosisz? Mówię o samym użyciu syndykacji sieciowej, co robi wiele legalnych witryn. Witryna ze spamem nie musi korzystać z treści syndykowanych, a samo korzystanie z treści syndykowanych nie czyni witryny spamerską (nawet jeśli uzyska lepszą pozycję w rankingu od Ciebie). W tym przypadku wiele głównych publikacji prasowych wykorzystuje treści syndykowane z AP w celu uzupełnienia własnych treści. Czy to jest powielona treść? Tak. Ale czy to spam? Nie. Nie sądzę też, by AP promowało spamowanie.

— Lèse majesté

@ Słowa kluczowe tutaj są uzupełnieniem ich własnych treści . Jeśli WSZYSTKIE treści zostaną skopiowane, co dokładnie tworzy się wartość lub zainteresowanie?

— Jeff Atwood,

@Jeff: Z pytania Matta nie wynika jasno, że są to strony, do których się odwołuje. Po prostu stwierdził, że istnieją witryny publikujące ponownie jego treść (która ma na celu zapewnienie interfejsu API syndykacji), które mają wyższą pozycję w rankingu niż treść oryginalna. Dla mnie nie oznacza to, że są to (koniecznie) strony ze spamem. Ale może moja interpretacja pytania jest nieprawidłowa.

— Lèse majesté

Odpowiedzi:

Jeff ma 100% racji we wszystkim, co powiedział.

Innym problemem związanym z żądaniem korzystania z witryny syndykacyjnej <link rel="canonical" href="http://example.com/foo">jest to, że informuje Google, że strona syndykacyjna nie powinna mieć PageRank i http://example.com/foozamiast tego powinna uzyskać całą.

To stwarza dwa główne problemy.

Strona syndykacji w ogóle nie pojawiałaby się w wynikach wyszukiwania Google, ponieważ nie ma rankingu strony. Witryna syndykacji nie byłaby z tego powodu najmniej zadowolona. Jest mało prawdopodobne, aby byli gotowi dokonać zmiany, gdyby mogli.
Może to nie wpłynąć na twoją stronę tak, jak lubisz, ponieważ skutecznie nie łączysz się z witryną Syndication. Zastanawiam się, jak Google sobie z tym poradzi. To prawda, że zezwalają one na rel site rel = "canonical", ale uważam, że celem tego jest migracja witryny i posiadanie wielu witryn pod jednym hostem o tej samej zawartości, aby mieć jedną stronę defacto w porównaniu do kilku podobnych / tych samych stron.

— Ben Hoffman
źródło

To kilka dobrych punktów. Myślę, że syndykowanie jest jednym z obszarów, w których istnieje uzasadniony powód, aby istnieć powielona treść. W takim przypadku lepiej zostawić zduplikowaną treść w spokoju i zaakceptować, że na tym polega syndykowanie. Oczywiście idealnie Google powinien dawać pierwszeństwo oryginalnej stronie, a nie stronom partnerów syndykacyjnych. Być może trzeba utworzyć nowy tag, który jest czymś pomiędzy tagiem rel="canonical"HTML5 <cite>. W ten sposób wyszukiwarki mogą wiedzieć, która strona jest oryginalna dla zgodnych z prawem zduplikowanych treści.

— Lèse majesté

potwierdzone, zobacz moją odpowiedź od Matta Cuttsa poniżej.

— Jeff Atwood,

Moje badania wykazały, że wymaganie powrotu linku - i że link NIE powinien być nieobserwowany - było zdecydowanie najważniejszym kryterium.

Jeśli witryna „syndykująca” nie przypisuje treści linkom z powrotem do oryginału, które są ważne dla wyszukiwarek, wyszukiwarki mają znacznie trudniejsze śledzenie pochodzenia treści i muszą zastosować złożone „znaleźć zduplikowaną treść tekstową w całym heurystyka w całym internecie.

Nie jestem pewien, czy to konieczne.

Powiązany film Matt Cutts

http://www.youtube.com/watch?v=x8XdFb6LGtM

Matt powiedział, że dobrym pomysłem byłoby użycie rel = "canonical", aby wskazać stronę, z której pochodzi artykuł - tak jak często sugerował, że artykuły syndykowane zawierają konwencjonalne linki (tj. <a>Tag nchor) wskazujące na oryginalny artykuł.

Pamiętaj, że kanoniczny to nie tylko uderzenie rel="canonical"w <a>tag; to bardziej tak:

<html>
    <head>
         <link rel="canonical" href="http://example.com/foo">
    </head>
...

Wymaga to więc innego rodzaju pracy, musisz zmodyfikować każdy nagłówek strony. Nie jestem pewien, czy wiele z tych „syndykatorów” będzie miało taki poziom kontroli w porównaniu z prostym linkiem ( sans nofollow!) Z powrotem do źródła.

— Jeff Atwood
źródło

Sugeruję również przeczytanie wpisu na blogu Jeffa na ten temat, Wymagana obrona atrybucji - blog.stackoverflow.com/2010/08/defending-attribution-required

— Scott Mitchell,

@scott zauważa, że pierwotnie nie wymagaliśmy podążania za linkiem, ale zmieniliśmy to, ponieważ w pająku Google brakowało rzeczy, które były w naszym zrzucie danych, z których część skrobaków korzysta ... a brakujący link, który nie jest obserwowany, nie pomaga go przywrócić w indeksie Google!

— Jeff Atwood,

@Jeff: W niewielkiej stycznej jedną rzeczą, która mnie zepsuła, jest to, że linki w odpowiedzi Stackoverflow mają rel = "nofollow". Czy użytkownicy z określonym przedstawicielem nie powinni korzystać z braku rel = "nofollow" w linkach, które publikują?

— Scott Mitchell,

@ scott pole witryny w Twoim profilu, w dowolnej witrynie Stack Exchange usunięto nofollow przy 2k przedstawicieli jako uprzejmość.

— Jeff Atwood

@Jeff, mówię o linkach w odpowiedzi Stackoverflow. Na przykład, jeśli wykonam przeglądanie / źródło na tej samej stronie, widzę linki w twojej odpowiedzi (takiej jak ta do YouTube) mają rel = "nofollow". Przypuszczam, że ma to na celu zniechęcenie spamerów, ale jednocześnie wydaje się, że brakuje Ci okazji do poprawy trafności wyników wyszukiwania dla innych, nie wspominając już o „nieudzielaniu” (w oczach Google) osobie, która napisała artykuł / wpis na blogu / itp. który jest powiązany.

— Scott Mitchell,

Dodanie innej odpowiedzi, ponieważ otrzymałem ostateczną odpowiedź od Matta Cuttsa na ten temat:

rel=canonicaldziała w różnych domenach, ale działa w zasadzie jak przekierowanie 301 , więc strony docelowej strony trafiłyby prosto do Twojej witryny w Google. Każda witryna korzystająca z treści zostanie w zasadzie usunięta z wyszukiwarek.

Jak mówi Matt, najlepszym sposobem na myślenie rel=canonicaljest stałe przekierowanie 301 .

Dlatego wymaganie między domenami rel=canonicaljako zestawu warunków atrybucji byłoby jak poproszenie ich o przekierowanie do Ciebie 301! Ojej. : P

Wiedząc o tym, jasne jest, że rel=canonicaljest przeznaczony wyłącznie do użytku w witrynach, nad którymi osobiście sprawujesz kontrolę - na przykład podczas przenoszenia domen i gdy potrzebujesz treści jednej domeny, aby zastąpić drugą.

— Jeff Atwood
źródło