Ładowanie Ładowanie

News: > Google zindeksuje ukrytą Sieć

wydrukuj: print publikuj: wykop dodaj do flakera Dodaj jako nius na OSnews.pl! delicious

Google zindeksuje ukrytą Sieć

2008-04-15 11:06:29 | Dominik Szarek
Google zindeksuje ukrytą Sieć

Google pochwaliło się wreszcie efektem swoich kilkumiesięcznych prac, związanych z próbą zindeksowania tzw. niewidzialnych zasobów Sieci za pomocą dobrze znanego Googlebota.




Deep Web, hidden Web czy invisible Web. Którejkolwiek nazwy użyjemy, każda oznacza to samo – przestrzeń zasobów internetowych, które są niedostępne lub trudno dostępne dla wyszukiwarek i robotów przez nie używanych. Jej wielkość nie jest dokładnie znana, ale szacuje się ją, w zależności od źródeł, na od 7,5 do nawet 95 tysięcy terabajtów. Są to głównie strony wymagające szczególnej autoryzacji, dynamicznie generowane zawartości serwisów, a także – albo przede wszystkim – rozmaite witryny, do których dociera się przez linki stworzone w JavaScripcie. Spowodowało to powstanie wielu serwisów, które specjalizują się w katalogowaniu ukrytej Sieci.

Wciąż jednak treści te nie są dostępne dla osób poszukujących ich przez wyszukiwarki internetowe. Sytuację tę postanowiło zmienić Google, które od kilku miesięcy pracuje nad indeksowaniem nowych stron, kryjących się za HTML-owymi formularzami. Jak możemy przeczytać w oficjalnej notce na blogu Google'a, robot po napotkaniu fragmentu kodu reprezentującego formularz (<form>) automatycznie go wypełnia, podając kilkakrotnie różne dane. W ten sposób Googlebot generuje nową stronę, która – jeśli spełnia kryteria jakości – zostaje dodana do indeksu.

Google zapewnia, że cała procedura odbywa się w stu procentach zgodnie z prawem i nie wyrządza żadnej szkody. Jeżeli tylko robot napotka w robots.txt stosowną informację, że nie jest na danej stronie mile widziany, natychmiast się z niej wynosi. Według przedstawicieli Google'a system obejmie jedynie tzw. „high-quality sites”, czyli tylko nieliczne, wybrane strony. Nie jest na razie jasne, które strony Google zamierza definiować jako „high-quality”.

Dzięki tym zabiegom już wkrótce w znacznym stopniu powinien zmniejszyć się rozmiar zasobów, które nie dają się wyszukać w tradycyjny sposób. Google chce dzięki temu powiększyć swoje zasoby o terabajty wciąż „nieodkrytych” materiałów, a przez to dostarczyć użytkownikom wielu bezcennych informacji i danych.

źródło: Google blog

Najnowsze wiadomości

reklama

wydrukuj: print publikuj: wykop dodaj do flakera Dodaj jako nius na OSnews.pl! delicious

Czytaj webhosting.pl:

Dyskusja

dodaj komentarz
comnt Ten artykuł nie został jeszcze skomentowany. Bądź pierwszy!

Komentarze

  • Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka (słowa muszą być rozdzielone spacją).
  • Jeśli masz problemy z odczytaniem słów, zmień zdjęcie.
  • Używamy tego zabezpieczenia, ponieważ dzięki niemu rozwija się projekt reCAPTCHA. Sugerujemy jednak, by zarejestrować się w serwisie i w ten sposób ominąć konieczność ciągłego odczytywania wyrazów.
  • W treści komentarza można używać języka formatowania BBcode.