W kwietniu bieżącego roku Google zapowiedziało, że zindeksuje tzw. Głęboką Sieć (ang. Deep Web, Hidden Web), czyli te zasoby Internetu, które normalnie nie są dostępne dla wyszukiwarek. Prace nad tym trwają. Tymczasem w tej dziedzinie firmie z Mountain View wyrósł niespodziewanie poważny konkurent. Wyszukiwarka DeepDyve, która powstała m.in. dzięki technologiom opracowanym na potrzeby Human Genome Project, to darmowe narzędzie do przeszukiwania baz danych, periodyków naukowych, nieustrukturyzowanej informacji i tych wszystkich źródeł danych, do których Googlebot wciąż nie potrafi zajrzeć.
Nowa wyszukiwarka wcześniej znana była jako Infovell. Teraz skupia całą swoją moc na naukach biologicznych, bazach patentów i danych z Wikipedii – do tej pory zindeksowała już pół miliarda poświęconych temu stron. Jednak to nie koniec – już wkrótce zajmie się indeksowaniem treści związanych z naukami fizycznymi, szczególnie w obszarach IT, ekologii i energetyki. Do końca roku indeks DeepDyve ma urosnąć do miliarda stron.
William Park, dyrektor generalny DeepDyve, powiedział, że według badań firmy analitycznej IDC ponad 42 miliony klientów spędza 25 godzin miesięcznie w Sieci na wyszukiwaniu informacji biznesowych i osobistych – a rezultaty, jakie uzyskują, oraz narzędzia, z których muszą korzystać, przynoszą im tylko frustrację. Park stwierdził zatem: „DeepDyve udostępnia wymagającym klientom jakościową informację, którą znaleźć można tylko w Ukrytej Sieci, wraz z funkcjonalnościami pozwalającymi na łatwe znalezienie, przefiltrowanie i zorganizowanie wyników”.
Celem DeepDyve jest doprowadzenie tej technologii do takiego stanu, by po wpisaniu kilku słów albo wklejeniu całego nawet artykułu z danej dziedziny do paska wyszukiwania użytkownicy byli w stanie znaleźć wszystkie powiązane artykuły w Głębokiej Sieci. W tym celu wykorzystywany jest algorytm o nazwie KeyPhrases, indeksujący fragmenty tekstu składające się nawet z 20 słów. Początkowo technologia ta została stworzona dla rozpoznawania długich łańcuchów DNA, dlatego nie ma niczego wspólnego z zagadnieniami semantycznymi. Park powiedział: „Jedyne, co tu zachodzi, to dopasowywanie wzorców, KeyPhrases jest bowiem całkowicie niezależny od języka”.
Wyszukiwanie w DeepDyve.
Dzięki tej technologii wyszukiwanie może bazować na dużej liczbie znaków – może ich być nawet 25 000. Dla porównania: Google Scholar pozwala na kwerendy składające się maksymalnie z 32 słów. – „Jeśli szukasz sekwencji dla niebieskich oczu, może być ona bardzo długa, dlatego zapytanie nie może być krótkie” – wyjaśnił Park. Algorytm będzie skanował całe łańcuchy tekstu pod kątem znajomych segmentów, szeregował je pod kątem zadanych kryteriów, a finalnie lokalizował najbardziej odpowiedni artykuł spośród tych, w których daną treść znaleziono. – „To czysta statystyka, podobnie jak to jest w genomice” – podsumował Park.
Nowa wyszukiwarka oczywiście nie zastąpi Google'a, ale dla ludzi na poważnie zajmujących się nauką, techniką czy kulturą może być prawdziwym wybawieniem – wiedza, którą można znaleźć w Sieci, wciąż jest jedynie niewielkim ułamkiem tego, co zostało np. wydane w periodykach naukowych.
źródło: TechWorld.com