W jaki sposób Google rozpoznaje datę opublikowania postu


17

Kiedy szukam czegoś w Google, czasami widzę datę publikacji posta / artykułu poniżej. Szukałem również własnego artykułu, który mam na mojej stronie opartej na Wordpress, a Google rozpoznaje również datę jego opublikowania.

Kiedy otwieram źródło mojej witryny, nie widzę żadnych specjalnych tagów ani niczego, co wskazywałoby na datę publikacji. Jest napisany tylko zwykłym divem, bez specjalnego znacznika, który powiedziałby SE, że jest to data publikacji (mógłbym mieć także inne daty innych rzeczy na stronie).

Czy to jest zapisane w Google dokładne miejsce daty publikacji Wordpress w drzewie DOM, czy coś mi brakuje?

Tworzę nową stronę internetową z własnym CMS i próbuję dowiedzieć się, jak wdrożyć rozpoznawanie według daty.


2
Z pewnością czegoś brakuje: spojrzałeś tylko na HTML, ale są też nagłówki HTTP, które mówią, kiedy strona została zmodyfikowana. Co zgłaszają na link bezpośredni do Twojego artykułu? Domyślam się, że Google używa tego w połączeniu z własnymi zapisami, jak bardzo zmieniła się strona, ale nie mam faktycznych dowodów - stąd komentarz, a nie odpowiedź.
Peter Taylor

tak, moja była „trudna” próba.
Zajmę się

@ Peter Nie ma wątpliwości, że nagłówki HTTP (zwłaszcza nagłówek Last-Modified) są miarą używaną przez SE. Wątpię jednak, aby odgrywało to dużą rolę w określaniu „daty publikacji” artykułu - a przynajmniej nie tego, co Google wyświetla jako datę publikacji. (Wydaje się, że inne SE nie wyświetlają „daty opublikowania”?) Data opublikowania artykułu prawdopodobnie nie jest datą ostatniej modyfikacji dokumentu. Większość stron w dynamicznych witrynach (nawet w przypadku postów Wordpress) wydaje się zwracać blisko bieżącej daty / godziny. IMO Nagłówek ostatniej modyfikacji służy przede wszystkim do buforowania.
MrWhite

myślę, że ma to coś wspólnego z
mapą

Ostatnia modyfikacja HTTP stackoverflow.com/questions/204010/… lub niektóre pół-standardowe metadane HTML: stackoverflow.com/questions/4575967/... to inne możliwości, ale nie jestem pewien, czy Google naprawdę ich używa.
Ciro Santilli 17 改造 中心 法轮功 六四 事件

Odpowiedzi:


4

powinieneś przejść przez mapę witryny XML lub wersję kanału RSS, aby zindeksować swoje dane publikowane w głównych wyszukiwarkach, takich jak Google, Yahoo i MSN. Wygeneruj mapę witryny XML dla swojej witryny i prześlij ją w narzędziach wzorcowych do indeksowania.


7

Właśnie miałem problem z tym, że wszystkie moje główne strony zostały zaktualizowane ponad 4 lata temu, mimo że Google wie , że to nieprawda, ponieważ strony były indeksowane przez tak długi czas i zmieniały się znacząco z miesiąca na miesiąc. Po tym, jak byłem naprawdę zdziwiony, a potem naprawdę zirytowany, a potem ponownie zaintrygowany, w końcu znalazłem problem. Nasze warunki prawne były obsługiwane w ukrytym div z komunikatem „Ostatnia aktualizacja: 30 października 2007 r.”, A div był ładowany na prawie wszystkich naszych stronach. (Ponieważ pojawia się przy rejestracji) Usunąłem go i teraz zakładam, że data albo zniknie, albo zostanie poprawiona na coś bardziej sensownego.

Przestroga i jeszcze jeden dowód, że sprawdzają semantykę witryny bardziej niż szczegóły techniczne lub własną historię indeksowania.


Czy podajesz datę ostatniej modyfikacji swoich stron w dowolnym miejscu na stronie, kanał RSS lub mapę witryny XML?
MrWhite

Nie robię tego, ponieważ strona nie jest witryną z wiadomościami i wolałbym jej nie podkreślać. Idealnie byłoby, gdyby moja strona nie miała daty. Wyobrażam sobie również, że prawdopodobnie przyjmują one lastmod z dużym ziarnem soli - wiem, że bym to zrobił.
mmdanziger

7

Bardzo wątpię, aby data opublikowania postu lub artykułu była oparta na <lastmod>wpisie w mapie witryny XML (jak sugerują inni) lub nagłówku HTTP Last-Modified. Mapa witryny XML ma jedynie charakter doradczy, a nie wiarygodny. Data ostatniej modyfikacji dokumentu prawdopodobnie nie jest taka sama jak (oryginalna) data publikacji artykułu. I, jak wspomniałem w moim komentarzu na górze strony, data ostatniej modyfikacji dokumentu jest prawdopodobnie ważniejsza dla buforowania i być może określania szybkości indeksowania. Ostatnio zmodyfikowany nagłówek HTTP dynamicznie generowanych stron jest często bardzo zbliżony do faktycznej daty / godziny (tak jak w przypadku blogów WordPress).

Z drugiej strony kanał RSS / Atom zawiera ten konkretny samorodek informacji. I rzeczywiście, w witrynach Wordpress, które nie zawierają daty publikacji w treści, data publikacji nadal pojawia się w wynikach wyszukiwania Google. I o ile mi wiadomo, odpowiada to dacie w kanale RSS.

EDYCJA 1: Jednak kanał RSS niekoniecznie zawiera wszystkie strony. W większości przypadków powinien on zawierać tylko najnowsze lub ostatnio zaktualizowane strony. Ale nie ma powodu, aby Google zapomniał o tym, co już przeczytał, a pod warunkiem, że treść tej strony nie uległa zmianie, data ostatniej modyfikacji również nie powinna.

Jeśli nie ma kanału RSS, myślę, że Google jest wystarczająco sprytny, aby analizować zawartość strony. Zwłaszcza jeśli daty są oznaczane „semantycznie” za pomocą mikroformatów . Jest całkowicie wykonalne, że Google zobaczy następujące informacje jako wiarygodną datę opublikowania artykułu, który jest zawarty w:

<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>

Google z pewnością odczytuje mikroformaty - hCard, hReview itp.

Dodajmy, że nie sądzę, aby Google podał datę publikacji, chyba że byłby w stanie znaleźć coś wiarygodnego, co by to sugerowało. Nie będzie wyznaczać „daty publikacji” na podstawie danych spekulacyjnych, ponieważ niepoprawna „data publikacji” nikomu się nie przyda, a Google będzie się za nią trzymać!

I tylko dla zapisu (jeśli @Tom sugeruje inaczej :) Myślę, że posty / artykuły powinny mieć widoczną datę publikacji. Wielu tego nie robi, co może być frustrujące dla czytelnika, szczególnie podczas badania problemów technologicznych, a po przeczytaniu artykułu w połowie jest on nieaktualny!

EDYCJA 2: Od tego czasu doświadczyłem podobnego rozdrażnienia, które @mmdanziger szczegółowo opisuje w swojej odpowiedzi. Na jednej ze starych stron mam tekst w formie „Witryna Ostatnia aktualizacja nie 17 czerwca 2012” (nie oznaczony w żaden specjalny sposób) u góry każdej strony (zapisanej na stronie za pomocą JavaScript !!). Ta sama data została wybrana przez Google i teraz pojawia się obok kilku (ale nie wszystkich) stron, które pojawiają się w SERPS - z pewnością nie jest to data publikacji strony. Wygląda na to, że Google po prostu usuwa ze strony ciąg znaków w postaci „ostatniej aktualizacji ( datestring )” (po przetworzeniu JavaScript !!). Ta konkretna strona nie ma kanału RSS. Witryna ma plik Sitemap.xml, ale daty są różne.

Zauważyłem również podobne zachowanie na innych stronach.


Jak rozpoznaje prawidłową datę na podstawie tego? <div class="footer"> <div class="links"> April 24, 2011 | <a href=...To jest jedyne miejsce, które odnosi się do opublikowanej daty mojego wpisu, a Google ją znajduje i wyświetla poprawnie w wynikach wyszukiwania
Can Poyrazoğlu,

Czy po kotwicy jest coś konkretnego? Z drugiej strony może nie być. Czy masz również kanał RSS (powiązany z tagami META dokumentu)?
MrWhite

Szukałem odpowiedzi „jak Google określa datę?” ale zauważyłem to samo! Google próbuje znaleźć ciąg czasu na samej stronie, a nie w ostatniej modyfikacji nagłówka lub Sitemap.xml <lastmod>! Dzięki za potwierdzenie moich myśli!
evilReiko,

5

Myślę, że Google używa mapy witryny i kanału RSS do rozpoznania opublikowanej daty. Możesz zastosować tę funkcję w swoim CMS, tworząc mapę witryny xml zgodnie ze standardami .

<lastmod>2011-08-18</lastmod>

2

Według Jonha Muellera z Google:

Używamy różnych sygnałów, aby określić, która data ma zostać wyświetlona lub czy ma sens pokazywanie w ogóle; nie jest powiązany z jednym konkretnym atrybutem.

John Mueller - Twitter

Jednak najbardziej prawdopodobne jest, że Google szuka dat na stronach internetowych w następujących miejscach:

  • Widoczny na stronie za pomocą uczenia maszynowego
  • Schema.org ustrukturyzowane dane, szczególnie jeśli dane można również znaleźć na stronie na widoku

1

Myślę, że inteligentnie wyszukuje wszelkie daty na stronie, a gdy ma pewność, że jest to odpowiednia data, używa go.

Czasami jest to trochę trudne, ponieważ myślę, że może mieć negatywny wpływ na zdolność klikania SERP, przypuszczam, że może mieć tymczasowy pozytywny wpływ, jeśli jest to najnowszy artykuł / post, ale jestem całkiem pewien, że moje strony byłyby lepsze bez tego (Jednak bez wyszukiwarki Google nie byłoby lepiej!)

Nie ma opcji kontrolowania go za pośrednictwem Google, tylko własnymi metodami. Możesz albo:

  • Zamień daty dynamicznie generowanymi obrazami, aby powstrzymać Google przed ich wykryciem, ale może to prowadzić do innych problemów, takich jak wyrównanie wizualne / spójne wyświetlanie czcionek / dostępność itp.
  • Usuń wszystkie daty ze stron (to może być frustrujące dla odwiedzających / użytkowników, którzy chcą odkryć wiek źródła, jeśli masz odpowiednie informacje).

Z tych powodów po prostu zignorowałbym to.


Nie próbuję usunąć daty :) Próbuję dodać funkcję daty do nowej strony, którą
tworzę
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.