publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
1 skomentuj »

TAGI: google , pdf , wyszukiwarka , indeks

2011-09-05 12:00  |  Adam Golański

Google rozwiewa wątpliwości co do indeksowania PDF-ów w wyszukiwarce

Google rozwiewa wątpliwości co do indeksowania PDF-ów w wyszukiwarce

Choć wiele uczyniono na drodze do tego, żeby PDF-y stały się uniwersalnym i łatwym w obsłudze formatem rozpowszechniania dokumentów, wciąż treści zapisane w formacie od Adobe'a nie są równie łatwe do odczytania i znalezienia, jak te, które zapisano w HTML. Wyświetlenie staje się prostsze, odkąd w Chrome wbudowano czytnik tego formatu (niebawem javascriptowy czytnik PDF pojawić się ma też w Firefoksie) – a jak wygląda kwestia indeksowania i wyszukiwania takich treści? Google postanowiło wyjaśnić dokładnie tę kwestię.

Na łamach bloga Webmaster Central pojawił się zbiór pytań i odpowiedzi, które wyjaśniają, co dzieje się z dokumentami PDF, do których dobrały się roboty wyszukiwarki Google'a. Roboty te PDF-ami żywią się już od 10 lat, od tamtego czasu pochłonęły setki milionów dokumentów. Typ pliku im bowiem nie przeszkadza. „Nasze algorytmy nie dają się spowolnić różnym typom plików. Ciężko pracujemy nad wydobyciem odpowiednich treści i właściwym ich zindeksowaniu dla naszej wyszukiwarki” – napisał Gary Ilyes, analityk Google'a.

Ilyes wyjaśnia, że obecnie Google pozyskuje wszelki tekst z PDF-ów (o ile nie są zabezpieczone hasłem). Jeśli PDF to po prostu skany tekstu, wyszukiwarka wykorzystuje swój engine OCR, starając się przekształcić go do tekstowej postaci.

Jeśli jednak w PDF-ie znajdą się obrazki, to nie zostaną zindeksowane. Webmasterzy, którzy chcieliby, by grafiki takie znalazły się w indeksie Google'a, powinni umieścić je normalnie na swoich witrynach. Z kolei hiperlinki w PDF-ach są traktowane tak samo, jak hiperlinki w dokumentach HTML, co więcej, wliczają się do rankingu pozycji strony.

Skoro już mowa o rankingu, to dokumenty w PDF, jeśli są relewantne do zapytania, mogą uzyskać bardzo wysoką pozycję, nawet zająć pierwsze miejsce. Warto jednak przy tym zadbać o to, by nie stanowiły one duplikatu treści zapisanych w HTML, ustalając kanoniczność strony w HTML, lub w nagłówkach HTTP zasobu w PDF.

Aby zadbać zaś o sposób prezentacji dokumentu PDF w ywszukiwarce, trzeba przyjrzeć się dwóm kwestiom – metadanym w pliku i opisom kotwic wskazujących na URL danego PDF-u. Na ich bowiem podstawie algorytmy Google'a generują tytuł dokumentu wyświetlany w liście wyników.

Na koniec warto pamiętać, że aby zabronić robotom indeksowania plików PDF na witrynie, należy dodać do nagłówka strony serwującej te dokumenty znacznik "X-Robots-Tag: noindex". Więcej dowiecie się z uwag Matta Cuttsa w poniższym wideo, przedstawiającego najlepsze praktyki dla optymalizacji PDF-ów.

googlewebmastercentral.blogspot.com

publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
1 skomentuj »

Komentarze

  • KOREKTOR

    #1 KOREKTOR 2011-09-06 20:58:31 0

    ywszukiwarce

    Aby zadbać zaś o sposób prezentacji dokumentu PDF w ywszukiwarce, trzeba przyjrzeć się dwóm kwestiom – metadanym w pliku i opisom kotwic wskazujących na URL danego PDF-u. Na ich bowiem podstawie algorytmy Google'a generują tytuł dokumentu wyświetlany w liście wyników.

    IP: 89.229.71.[...] Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.220 Safari/535.1

Uwaga! Możesz zarejestrować się w serwisie i w ten sposób zarezerwować swój nick oraz ominąć konieczność ciągłego odczytywania wyrazów.

Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka (słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.

Polecane książki

Czytaj Webhosting

Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.

Zarejestruj domenę

Sprawdź dostępność swojej domeny:

.pl: 0 zł   .com: 19.90 zł
.com.pl: 0 zł   .eu: 19.90 zł