Akademickie projekty indeksują ukryte zasoby Sieci
Latem 2008 roku wyszukiwarka Google zindeksowała swój bilionowy adres WWW. Ten przełomowy moment miał jednak dla inżynierów z Mountain View nutę goryczy. Ich produkt nadal uwzględnia tylko ułamek danych znajdujących się w Internecie.
Informacje finansowe, katalogi e-sklepów, rozkłady lotów, dane medyczne i wszystkie inne zasoby przechowywane w bazach danych są w wielu wypadkach niewidoczne nawet dla zaawansowanych wyszukiwarek. Nie mają one bowiem dostępu do tak zwanej Głębokiej Sieci – czyli tych wszystkich danych, które są tak przygotowywane, by być dostępnymi tylko dla użytkowników danych serwisów.
Amerykańscy naukowcy pracują nad rozwiązaniami, które mają zrewolucjonizować proces tropienia danych w Internecie. Chodzi nie tylko o podwyższenie jakości dostarczanych linków, ale przekształcenie zasad, na jakich firmy promują się w Sieci i przekazują informacje potencjalnym klientom.
Anand Rajaraman – współzałożyciel firmy Kosmix, startupu zajmującego się zagadnieniami Głębokiej Sieci – uważa, że „Internet, który możemy przeszukiwać przy pomocy zwykłych robotów indeksujących to tylko wierzchołek góry lodowej”. Dlatego Kosmix pracuje nad oprogramowaniem, które pozwoli na analizowanie zawartości publicznych baz danych.
„Naszym celem nie jest znalezienie igły w stogu siana, lecz raczej wspieranie użytkowników w eksploracji tego stogu” – stwierdził Rajaraman. Danych jest jednak bardzo dużo, przeglądanie wszystkiego nie ma sensu. Dlatego tak ważne są technologie semantyczne oraz mechanizmy umożliwiające rozpoznanie poziomu dostępu oferowanego przez poszczególne bazy.
Doskonale rozumie to Google, które pracuje nad własnym rozwiązaniem w tym zakresie. Na czele grupy zadaniowej stoi Alon Halevy, były wykładowca informatyki Uniwersytetu Stanu Waszyngton. Celem jest stworzenie nowej generacji robota indeksującego, który będzie sprawdzał zawartość każdej bazy danych, wysyłając słowa kluczowe powiązane z jej ogólną tematyką.
Podobny projekt realizuje profesor Juliana Freire z Uniwersytetu Stanu Utah. Inicjatywa DeepPeep również bazuje na „zgadywaniu” zawartości baz danych. Trudno mówić w tym wypadku o pełnym rozpoznaniu treści. Profesor Freire twierdzi jednak, że jej mechanizm może zindeksować 90% dowolnego zbioru informacji.
| Zapraszamy do zapoznania się z jedną z najskuteczniejszych wyszukiwarek do przeszukiwania Głębokiej Sieci, o której pisaliśmy w listopadzie ubiegłego roku w tekście DeepDyve zanurkuje w Głęboką Sieć. |
Źródło: NYTimes.com
Polecamy
Reklama
Komentarze
Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka
(słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.
Popularne
Firefox 10 już jest. Wiele atrakcji dla programistów, użytkownicy raczej nic nie zauważą
9
Źle się dzieje z Chrome, ze stabilnością coraz gorzej. Gdzie się podziała słynna izolacja procesów?
26
MSWiA zamówiło narzędzia do „złamania” Tora i podsłuchiwania internautów. Czy złamało przy tym prawo?
89
Pobieraczek.pl pozwie internautów, którzy nie chcą płacić abonamentu
1455
Debata w sprawie ACTA: internauci spodziewali się chyba czegoś innego
13
Nowa polityka prywatności Google'a już za miesiąc wejdzie w życie. Mamy się czego bać?
16
PHP 5.3.9 nie pozwoli hakerom zawiesić serwera. Pozwoli za to przejąć nad nim kontrolę
28
MSWiA zamówiło narzędzia do „złamania” Tora i podsłuchiwania internautów. Czy złamało przy tym prawo?
89
[Aktualizacja] Facebook zablokował Demotywatory.pl. W czym zawiniły?
36
FBI zamknęło Megaupload. Anonimowi dali się sprowokować. Teraz ich akcja uzasadni potrzebę SOPA?
17
Pobieraczek.pl pozwie internautów, którzy nie chcą płacić abonamentu
1455
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
15
Rząd Tuska zablokował dostęp do tańszych leków z internetowych aptek
61
„Donald matole, twój rząd dopadną kibole” – hakerska elita przyłącza się do walki z ACTA
23
Społeczność
zetesha Apple nie zrezygnował z PPC całkiem ponieważ posiada P.A. Semi, która to...
pablo1919191 Thunderbolt to jest technolgia intela wiec skora appel wpakowal jako...
BartekBb Już wiem skąd kopiujecie artykuły, bo zrobiliście ten sam błąd co na...
Marr moglibyście się zdecydować. W newsach podajecie, że systemy wymiany (czyli...
setXYZ I jeszcze warto poczytać co o tym myśli sam MS http://webhosting.pl/Koniec...
setXYZ IE7 to archaiczny gniot. Z jednej strony chcemy HTML5 i grafiki 3D, a z...
sLn Wow, ale odkrycie, witamy w gronie oświeconych :)
- gardius: Dobra hurtownia sportowa (1)
- gardius: Tanie książki gdzie warto kupować? (1)
- Najdmen.pl: PROMOCJA, 500 DOMEN .EU ZA 1 PLN NETTO ! (1)
- VMLine: [Oferta] Serwery VPS Xen-HVM/OpenVZ z darmową administracją (2)
- Marek: Generowanie PDFa (2)
- Marek: problem z menu (2)
- Marek: Własne checkboxy w HTML,CSS (1)
Polecane książki
Praca
Czytaj Webhosting
Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.
Zarejestruj domenę
Sprawdź dostępność swojej domeny:
| .pl: | 0 zł | .com: | 19.90 zł | |
|---|---|---|---|---|
| .com.pl: | 0 zł | .eu: | 19.90 zł |








