Bardzo wątpię, aby data opublikowania postu lub artykułu była oparta na <lastmod>
wpisie w mapie witryny XML (jak sugerują inni) lub nagłówku HTTP Last-Modified. Mapa witryny XML ma jedynie charakter doradczy, a nie wiarygodny. Data ostatniej modyfikacji dokumentu prawdopodobnie nie jest taka sama jak (oryginalna) data publikacji artykułu. I, jak wspomniałem w moim komentarzu na górze strony, data ostatniej modyfikacji dokumentu jest prawdopodobnie ważniejsza dla buforowania i być może określania szybkości indeksowania. Ostatnio zmodyfikowany nagłówek HTTP dynamicznie generowanych stron jest często bardzo zbliżony do faktycznej daty / godziny (tak jak w przypadku blogów WordPress).
Z drugiej strony kanał RSS / Atom zawiera ten konkretny samorodek informacji. I rzeczywiście, w witrynach Wordpress, które nie zawierają daty publikacji w treści, data publikacji nadal pojawia się w wynikach wyszukiwania Google. I o ile mi wiadomo, odpowiada to dacie w kanale RSS.
EDYCJA 1: Jednak kanał RSS niekoniecznie zawiera wszystkie strony. W większości przypadków powinien on zawierać tylko najnowsze lub ostatnio zaktualizowane strony. Ale nie ma powodu, aby Google zapomniał o tym, co już przeczytał, a pod warunkiem, że treść tej strony nie uległa zmianie, data ostatniej modyfikacji również nie powinna.
Jeśli nie ma kanału RSS, myślę, że Google jest wystarczająco sprytny, aby analizować zawartość strony. Zwłaszcza jeśli daty są oznaczane „semantycznie” za pomocą mikroformatów . Jest całkowicie wykonalne, że Google zobaczy następujące informacje jako wiarygodną datę opublikowania artykułu, który jest zawarty w:
<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>
Google z pewnością odczytuje mikroformaty - hCard, hReview itp.
Dodajmy, że nie sądzę, aby Google podał datę publikacji, chyba że byłby w stanie znaleźć coś wiarygodnego, co by to sugerowało. Nie będzie wyznaczać „daty publikacji” na podstawie danych spekulacyjnych, ponieważ niepoprawna „data publikacji” nikomu się nie przyda, a Google będzie się za nią trzymać!
I tylko dla zapisu (jeśli @Tom sugeruje inaczej :) Myślę, że posty / artykuły powinny mieć widoczną datę publikacji. Wielu tego nie robi, co może być frustrujące dla czytelnika, szczególnie podczas badania problemów technologicznych, a po przeczytaniu artykułu w połowie jest on nieaktualny!
EDYCJA 2: Od tego czasu doświadczyłem podobnego rozdrażnienia, które @mmdanziger szczegółowo opisuje w swojej odpowiedzi. Na jednej ze starych stron mam tekst w formie „Witryna Ostatnia aktualizacja nie 17 czerwca 2012” (nie oznaczony w żaden specjalny sposób) u góry każdej strony (zapisanej na stronie za pomocą JavaScript !!). Ta sama data została wybrana przez Google i teraz pojawia się obok kilku (ale nie wszystkich) stron, które pojawiają się w SERPS - z pewnością nie jest to data publikacji strony. Wygląda na to, że Google po prostu usuwa ze strony ciąg znaków w postaci „ostatniej aktualizacji ( datestring )” (po przetworzeniu JavaScript !!). Ta konkretna strona nie ma kanału RSS. Witryna ma plik Sitemap.xml, ale daty są różne.
Zauważyłem również podobne zachowanie na innych stronach.