Google zindeksuje ukrytą Sieć
Google pochwaliło się wreszcie efektem swoich kilkumiesięcznych prac, związanych z próbą zindeksowania tzw. niewidzialnych zasobów Sieci za pomocą dobrze znanego Googlebota.
Deep Web, hidden Web czy invisible Web. Którejkolwiek nazwy użyjemy, każda oznacza to samo – przestrzeń zasobów internetowych, które są niedostępne lub trudno dostępne dla wyszukiwarek i robotów przez nie używanych. Jej wielkość nie jest dokładnie znana, ale szacuje się ją, w zależności od źródeł, na od 7,5 do nawet 95 tysięcy terabajtów. Są to głównie strony wymagające szczególnej autoryzacji, dynamicznie generowane zawartości serwisów, a także – albo przede wszystkim – rozmaite witryny, do których dociera się przez linki stworzone w JavaScripcie. Spowodowało to powstanie wielu serwisów, które specjalizują się w katalogowaniu ukrytej Sieci.
Wciąż jednak treści te nie są dostępne dla osób poszukujących ich przez wyszukiwarki internetowe. Sytuację tę postanowiło zmienić Google, które od kilku miesięcy pracuje nad indeksowaniem nowych stron, kryjących się za HTML-owymi formularzami. Jak możemy przeczytać w oficjalnej notce na blogu Google'a, robot po napotkaniu fragmentu kodu reprezentującego formularz (<form>) automatycznie go wypełnia, podając kilkakrotnie różne dane. W ten sposób Googlebot generuje nową stronę, która – jeśli spełnia kryteria jakości – zostaje dodana do indeksu.
Google zapewnia, że cała procedura odbywa się w stu procentach zgodnie z prawem i nie wyrządza żadnej szkody. Jeżeli tylko robot napotka w robots.txt stosowną informację, że nie jest na danej stronie mile widziany, natychmiast się z niej wynosi. Według przedstawicieli Google'a system obejmie jedynie tzw. „high-quality sites”, czyli tylko nieliczne, wybrane strony. Nie jest na razie jasne, które strony Google zamierza definiować jako „high-quality”.
Dzięki tym zabiegom już wkrótce w znacznym stopniu powinien zmniejszyć się rozmiar zasobów, które nie dają się wyszukać w tradycyjny sposób. Google chce dzięki temu powiększyć swoje zasoby o terabajty wciąż „nieodkrytych” materiałów, a przez to dostarczyć użytkownikom wielu bezcennych informacji i danych.
źródło: Google blog
Polecamy
Reklama
Komentarze
Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka
(słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.
Popularne
Firefox 10 już jest. Wiele atrakcji dla programistów, użytkownicy raczej nic nie zauważą
9
Źle się dzieje z Chrome, ze stabilnością coraz gorzej. Gdzie się podziała słynna izolacja procesów?
26
MSWiA zamówiło narzędzia do „złamania” Tora i podsłuchiwania internautów. Czy złamało przy tym prawo?
89
Pobieraczek.pl pozwie internautów, którzy nie chcą płacić abonamentu
1455
Debata w sprawie ACTA: internauci spodziewali się chyba czegoś innego
13
Nowa polityka prywatności Google'a już za miesiąc wejdzie w życie. Mamy się czego bać?
16
PHP 5.3.9 nie pozwoli hakerom zawiesić serwera. Pozwoli za to przejąć nad nim kontrolę
28
MSWiA zamówiło narzędzia do „złamania” Tora i podsłuchiwania internautów. Czy złamało przy tym prawo?
89
[Aktualizacja] Facebook zablokował Demotywatory.pl. W czym zawiniły?
36
FBI zamknęło Megaupload. Anonimowi dali się sprowokować. Teraz ich akcja uzasadni potrzebę SOPA?
17
Pobieraczek.pl pozwie internautów, którzy nie chcą płacić abonamentu
1455
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
15
Rząd Tuska zablokował dostęp do tańszych leków z internetowych aptek
61
„Donald matole, twój rząd dopadną kibole” – hakerska elita przyłącza się do walki z ACTA
23
Społeczność
pablo1919191 Thunderbolt to jest technolgia intela wiec skora appel wpakowal jako...
BartekBb Już wiem skąd kopiujecie artykuły, bo zrobiliście ten sam błąd co na...
Marr moglibyście się zdecydować. W newsach podajecie, że systemy wymiany (czyli...
setXYZ I jeszcze warto poczytać co o tym myśli sam MS http://webhosting.pl/Koniec...
setXYZ IE7 to archaiczny gniot. Z jednej strony chcemy HTML5 i grafiki 3D, a z...
sLn Wow, ale odkrycie, witamy w gronie oświeconych :)
Ole Tak, wycięte.Oleole, okazje.info.pl, opineo. Pierwsza strona wyników...
- gardius: Dobra hurtownia sportowa (1)
- gardius: Tanie książki gdzie warto kupować? (1)
- Najdmen.pl: PROMOCJA, 500 DOMEN .EU ZA 1 PLN NETTO ! (1)
- VMLine: [Oferta] Serwery VPS Xen-HVM/OpenVZ z darmową administracją (2)
- Marek: Generowanie PDFa (2)
- Marek: problem z menu (2)
- Marek: Własne checkboxy w HTML,CSS (1)
Polecane książki
Praca
Czytaj Webhosting
Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.
Zarejestruj domenę
Sprawdź dostępność swojej domeny:
| .pl: | 0 zł | .com: | 19.90 zł | |
|---|---|---|---|---|
| .com.pl: | 0 zł | .eu: | 19.90 zł |








