Czy wyszukiwarki indeksują pliki PDF, a jeśli tak, to czy istnieją jakieś zasady, których należy przestrzegać przy ich tworzeniu


22

Witryna, nad którą pracuję, zawiera kilkaset plików PDF. Nie sądzę, żebym kiedykolwiek widział jakikolwiek z nich powraca w wyszukiwaniu, ale są one powiązane bezpośrednio z naszej strony. Są również pełne słów kluczowych, ponieważ są dokumentami produktu.

Czy jest coś specjalnego, co musimy zrobić, aby Google lub inne wyszukiwarki zaindeksowały je?

Czy istnieją twarde i szybkie zasady tworzenia plików PDF, które pomogą Google bardziej je polubić? Na przykład czy powinienem je uruchomić przez ghostscript, aby wyczyścić uszkodzone tagi PDF, które Adobe tworzy podczas generowania?


Dodaj do swojej mapy witryny xml, aby upewnić się, że są ich świadomi?
artlung

Odpowiedzi:


17

Google zdecydowanie indeksuje pliki PDF i możesz wyszukiwać tylko pliki PDF, dodając filetype:pdfdo zapytania ( przykład ).

Powiedziałbym, że najważniejsze rzeczy, które należy zrobić, aby zoptymalizować plik PDF, aby można go było łatwo zindeksować:

  • Nadaj mu sensowną nazwę pliku
  • Uzupełnij wszystkie właściwości metadanych dokumentu (tytuł, autor, słowa kluczowe itp.)
  • Upewnij się, że plik PDF zawiera rzeczywisty tekst, a nie zeskanowane obrazy
  • Upewnij się, że masz dobrą treść z prawidłowym użyciem nagłówków, tak jak w przypadku dokumentu HTML

Aby uzyskać więcej porad, przeczytaj Optymalizowanie dokumentów PDF i Jedenaście Porad dotyczących optymalizacji plików PDF dla wyszukiwarek



@ Christofian Thanks - Zaktualizowałem link. Pozostawiam czytelnikowi docenienie ironii firmy SEO, która zmienia nazwy swoich linków bez żadnych 301 przekierowań!
Dan Diplo

@ DanDiplo w odniesieniu do SEO plików PDF Sugeruję dodanie linku do treści, jeśli dotyczy.
Anagio

1

Nie jestem pewien co do innych wyszukiwarek, ale jeśli chodzi o Google, główną zasadą byłoby nie wykluczać ich za pośrednictwem robots.txt

To była ich pierwsza zapowiedź obsługi wyszukiwania PDF.


1

Podobnie jak dostosowanie strony internetowej nie może zaszkodzić Twojemu SEO, udostępnienie pliku PDF nie zaszkodzi. Wbudowany moduł sprawdzania dostępności Adobe jest daleki od ideału, ale przynajmniej naprawienie tych obszarów pozwoli Ci zacząć.

Prawdopodobnie spędzam 5 minut na każdym 4 lub 5, głównie tekstowych plikach PDF, które umieszczamy online. Czas rośnie równomiernie w zależności od liczby stron i stopnia złożoności tych stron.

Zakładając, że masz Adobe Acrobat Pro do edycji:

  • Przeprowadź pełną kontrolę dostępności. (Szybkie sprawdzanie jest dla mnie dość bezcelowe)
  • Zaktualizuj meta informacje we właściwościach dokumentu (słowa kluczowe, temat, język itp.)
  • Upewnij się, że tagi zostały dodane
  • Upewnij się, że tekst jest oznaczony jako tekst, obrazy jako obrazy, a tło jako tło
  • Oznacz bezużyteczny puch (jak dekoracja lub projekt) jako tło
  • Dodaj dobry tekst alternatywny do zdjęć
  • Upewnij się, że w kolejności czytania tekst jest uporządkowany poprawnie
  • Na pasku narzędzi zawartości upewnij się, że tekst nie jest powielony ani rażąco źle przetłumaczony
  • Użyj skanera OCR na zeskanowanych stronach

Do bardziej zaawansowanych edycji, takich jak tabele i naprawdę dziwne błędy Adobe, używamy wtyczki o nazwie CommonLook. CommonLook wykonuje zadanie, ale nienawidzę go tak samo, jak nienawidzę narzędzi Adobe.

Zapoznaj się z narzędziem Retusz kolejności czytania, paskiem narzędzi Tagi, paskiem kolejności czytania i paskiem zawartości. Moja praca wymaga w pełni zgodnych dokumentów przed wyjściem do Internetu, ale każdy może skorzystać z prostych tagów i właściwości dokumentu.


Nasza strona miała ponad 5000 plików PDF, które musieliśmy cofnąć i doprowadzić do pełnej zgodności z 508. Nauczenie się zajęło trochę czasu, Adobe zasugerował, że trener nie pomógł, ale kiedy się go nauczysz, możesz go naprawdę rozpakować.
MrChrister
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.