Google rozwiewa wątpliwości co do indeksowania PDF-ów w wyszukiwarce
Choć wiele uczyniono na drodze do tego, żeby PDF-y stały się uniwersalnym i łatwym w obsłudze formatem rozpowszechniania dokumentów, wciąż treści zapisane w formacie od Adobe'a nie są równie łatwe do odczytania i znalezienia, jak te, które zapisano w HTML. Wyświetlenie staje się prostsze, odkąd w Chrome wbudowano czytnik tego formatu (niebawem javascriptowy czytnik PDF pojawić się ma też w Firefoksie) – a jak wygląda kwestia indeksowania i wyszukiwania takich treści? Google postanowiło wyjaśnić dokładnie tę kwestię.
Na łamach bloga Webmaster Central pojawił się zbiór pytań i odpowiedzi, które wyjaśniają, co dzieje się z dokumentami PDF, do których dobrały się roboty wyszukiwarki Google'a. Roboty te PDF-ami żywią się już od 10 lat, od tamtego czasu pochłonęły setki milionów dokumentów. Typ pliku im bowiem nie przeszkadza. „Nasze algorytmy nie dają się spowolnić różnym typom plików. Ciężko pracujemy nad wydobyciem odpowiednich treści i właściwym ich zindeksowaniu dla naszej wyszukiwarki” – napisał Gary Ilyes, analityk Google'a.
Ilyes wyjaśnia, że obecnie Google pozyskuje wszelki tekst z PDF-ów (o ile nie są zabezpieczone hasłem). Jeśli PDF to po prostu skany tekstu, wyszukiwarka wykorzystuje swój engine OCR, starając się przekształcić go do tekstowej postaci.
Jeśli jednak w PDF-ie znajdą się obrazki, to nie zostaną zindeksowane. Webmasterzy, którzy chcieliby, by grafiki takie znalazły się w indeksie Google'a, powinni umieścić je normalnie na swoich witrynach. Z kolei hiperlinki w PDF-ach są traktowane tak samo, jak hiperlinki w dokumentach HTML, co więcej, wliczają się do rankingu pozycji strony.
Skoro już mowa o rankingu, to dokumenty w PDF, jeśli są relewantne do zapytania, mogą uzyskać bardzo wysoką pozycję, nawet zająć pierwsze miejsce. Warto jednak przy tym zadbać o to, by nie stanowiły one duplikatu treści zapisanych w HTML, ustalając kanoniczność strony w HTML, lub w nagłówkach HTTP zasobu w PDF.
Aby zadbać zaś o sposób prezentacji dokumentu PDF w ywszukiwarce, trzeba przyjrzeć się dwóm kwestiom – metadanym w pliku i opisom kotwic wskazujących na URL danego PDF-u. Na ich bowiem podstawie algorytmy Google'a generują tytuł dokumentu wyświetlany w liście wyników.
Na koniec warto pamiętać, że aby zabronić robotom indeksowania plików PDF na witrynie, należy dodać do nagłówka strony serwującej te dokumenty znacznik "X-Robots-Tag: noindex". Więcej dowiecie się z uwag Matta Cuttsa w poniższym wideo, przedstawiającego najlepsze praktyki dla optymalizacji PDF-ów.
googlewebmastercentral.blogspot.com
Komentarze
Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka
(słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.
Popularne
Nazwa padła ofiarą szantażystów, inni polscy hosterzy też zagrożeni?
19
Premiera Diablo 3 wzbudziła dyskusję na temat gier, które zawsze chcą być online
19
Darmowy Internet od Aero2. Jak go zdobyć i jakie są prawdziwe koszta? Instrukcja krok po kroku
11
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
17
Nowy problem z Windows 8: bootuje się za szybko
10
Amerykańscy rodzice straszeni „e-narkotykami” dostępnymi w Sieci
21
Z okazji wypuszczenia akcji Facebooka przypomnijmy sobie, kim jest Zuckerberg
10
Blueseed: libertariańska sztuczna wyspa przyciągnęła już ponad sto startupów z całego świata
8
Rewolucja w Firefoksie, nowa łatka czterokrotnie ograniczyła zużycie pamięci
20
Darmowy Internet od Aero2. Jak go zdobyć i jakie są prawdziwe koszta? Instrukcja krok po kroku
11
CVDazzle: makijaż jest w stanie pokonać automatyczne systemy ulicznego monitoringu
3
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
17
Co czeka programistów po czterdziestce?
27
Ubuntu 12.04 LTS już dostępny: stabilna dystrybucja na następne pięć lat?
28
Społeczność
voluu A ja mam problem. MIanowicie, po dodaniu kodu z tego poradnika miniaturki...
Sebek Pozycjonowanie stron za pośrednictwem firm oferujących
swoje usługi nie...
asdosad jak to zrobić na xp??
lol Jak ktoś tu wcześniej zauważył - artykuł jest o niczym, a właściwie ukrytą...
grzybecki To raczej powinien być znak dla programistów Social Media, aby swoje...
facebug @rychu
Strona wchodzi, ślamazarnie ale wchodzi mam takie...
Dave Smith Jestem Pastor Dave Smith prywatny pożyczkodawca pieniądze, z czego ponad...
- Najdmen.pl: Konta www z wyłączonym licznikiem transferu od IONIC.pl (1)
- 2BE.PL: [Oferta] Promocja jak złoto w 2BE.PL (1)
- gardius: Dobra hurtownia sportowa (1)
- gardius: Tanie książki gdzie warto kupować? (1)
- Najdmen.pl: PROMOCJA, 500 DOMEN .EU ZA 1 PLN NETTO ! (1)
- VMLine: [Oferta] Serwery VPS Xen-HVM/OpenVZ z darmową administracją (2)
- Marek: Generowanie PDFa (2)
Polecane książki
Praca
Czytaj Webhosting
Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.
Zarejestruj domenę
Sprawdź dostępność swojej domeny:
| .pl: | 0 zł | .com: | 19.90 zł | |
|---|---|---|---|---|
| .com.pl: | 0 zł | .eu: | 19.90 zł |









#1 KOREKTOR 2011-09-06 20:58:31 0
IP: 89.229.71.[...] Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.220 Safari/535.1