Google zindeksuje ukrytą Sieć
Google pochwaliło się wreszcie efektem swoich kilkumiesięcznych prac, związanych z próbą zindeksowania tzw. niewidzialnych zasobów Sieci za pomocą dobrze znanego Googlebota.
Deep Web, hidden Web czy invisible Web. Którejkolwiek nazwy użyjemy, każda oznacza to samo – przestrzeń zasobów internetowych, które są niedostępne lub trudno dostępne dla wyszukiwarek i robotów przez nie używanych. Jej wielkość nie jest dokładnie znana, ale szacuje się ją, w zależności od źródeł, na od 7,5 do nawet 95 tysięcy terabajtów. Są to głównie strony wymagające szczególnej autoryzacji, dynamicznie generowane zawartości serwisów, a także – albo przede wszystkim – rozmaite witryny, do których dociera się przez linki stworzone w JavaScripcie. Spowodowało to powstanie wielu serwisów, które specjalizują się w katalogowaniu ukrytej Sieci.
Wciąż jednak treści te nie są dostępne dla osób poszukujących ich przez wyszukiwarki internetowe. Sytuację tę postanowiło zmienić Google, które od kilku miesięcy pracuje nad indeksowaniem nowych stron, kryjących się za HTML-owymi formularzami. Jak możemy przeczytać w oficjalnej notce na blogu Google'a, robot po napotkaniu fragmentu kodu reprezentującego formularz (<form>) automatycznie go wypełnia, podając kilkakrotnie różne dane. W ten sposób Googlebot generuje nową stronę, która – jeśli spełnia kryteria jakości – zostaje dodana do indeksu.
Google zapewnia, że cała procedura odbywa się w stu procentach zgodnie z prawem i nie wyrządza żadnej szkody. Jeżeli tylko robot napotka w robots.txt stosowną informację, że nie jest na danej stronie mile widziany, natychmiast się z niej wynosi. Według przedstawicieli Google'a system obejmie jedynie tzw. „high-quality sites”, czyli tylko nieliczne, wybrane strony. Nie jest na razie jasne, które strony Google zamierza definiować jako „high-quality”.
Dzięki tym zabiegom już wkrótce w znacznym stopniu powinien zmniejszyć się rozmiar zasobów, które nie dają się wyszukać w tradycyjny sposób. Google chce dzięki temu powiększyć swoje zasoby o terabajty wciąż „nieodkrytych” materiałów, a przez to dostarczyć użytkownikom wielu bezcennych informacji i danych.
źródło: Google blog
Komentarze
Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka
(słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.
Popularne
Nazwa padła ofiarą szantażystów, inni polscy hosterzy też zagrożeni?
22
Darmowy Internet od Aero2. Jak go zdobyć i jakie są prawdziwe koszta? Instrukcja krok po kroku
11
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
17
Premiera Diablo 3 wzbudziła dyskusję na temat gier, które zawsze chcą być online
19
Nowy problem z Windows 8: bootuje się za szybko
10
Amerykańscy rodzice straszeni „e-narkotykami” dostępnymi w Sieci
21
Anonymous upubliczniają 1,7 GB danych wykradzionych Departamentowi Sprawiedliwości USA
12
Blueseed: libertariańska sztuczna wyspa przyciągnęła już ponad sto startupów z całego świata
8
Rewolucja w Firefoksie, nowa łatka czterokrotnie ograniczyła zużycie pamięci
20
Darmowy Internet od Aero2. Jak go zdobyć i jakie są prawdziwe koszta? Instrukcja krok po kroku
11
CVDazzle: makijaż jest w stanie pokonać automatyczne systemy ulicznego monitoringu
3
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
17
Ubuntu 12.04 LTS już dostępny: stabilna dystrybucja na następne pięć lat?
28
Zostań webmasterem polskiego rządu, zarobisz na komfortowe życie dla siebie i swojej rodziny
33
Społeczność
xyz @bartez® : Uważasz, że Apple nie ogranicza programistów? buahahaha
anga star za droga ludzie wy myślicie!?Jestem 4 klasistką rodzice się nigdy nie...
Jan Zwyczajnych filmów tak kręcić się nie da co najwyżej krótkie scenki jak w...
piotrek____ @asdfgh - yup, też tak sądzę.
Tak jak wtedy ten przeciek o żołnierzu...
gonzales Javowcy pozdrawiają dotnetowców xD
kaziks Galaxy S II - u mnie po aktualizacji Firefox działa strasznie zacina się...
Doniek Szkoda że strona z demo nie działa - non stop się przeładowuje
- Najdmen.pl: Konta www z wyłączonym licznikiem transferu od IONIC.pl (1)
- 2BE.PL: [Oferta] Promocja jak złoto w 2BE.PL (1)
- gardius: Dobra hurtownia sportowa (1)
- gardius: Tanie książki gdzie warto kupować? (1)
- Najdmen.pl: PROMOCJA, 500 DOMEN .EU ZA 1 PLN NETTO ! (1)
- VMLine: [Oferta] Serwery VPS Xen-HVM/OpenVZ z darmową administracją (2)
- Marek: Generowanie PDFa (2)
Polecane książki
Praca
Czytaj Webhosting
Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.
Zarejestruj domenę
Sprawdź dostępność swojej domeny:
| .pl: | 0 zł | .com: | 19.90 zł | |
|---|---|---|---|---|
| .com.pl: | 0 zł | .eu: | 19.90 zł |








