publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
1 skomentuj »

TAGI: gramatyka , apache , lucene , solr , wyszukiwarka , język

2011-12-14 11:15  |  Tomasz Smykowski

Lucene i Solr 3.5 wydane. Jest szybsze, obsługuje rozpoznawanie języków i fleksję oraz grupowanie wyników

Lucene i Solr 3.5 wydane. Jest szybsze, obsługuje rozpoznawanie języków i fleksję oraz grupowanie wyników

Fundacja Apache poinformowała o wydaniu wersji 3.5 biblioteki wyszukiwania Lucene i serwera wyszukiwania Solr. Są one bardziej wydajne i oferują lepsze możliwości zarządzania wynikami.

Wersja Lucene 3.5 wprowadza kilka ulepszeń, a mianowicie:

  • zmniejszenie zużycia pamięci od 2 do 5 razy w wyniku przebudowania struktury danych,

  • obsługę nawigacji do odległych podstron, z zastosowaniem funkcji searchAfter, która nakazuje zacząć wyszukiwanie od określonego miejsca w zasobach, a nie od początku,

  • menędżer obiektów IndexSearcher o nazwie SearcherManager zajmujący się optymalnym udostępnianiem i otwieraniem nowych wątków wyszukiwania,

  • utrzymanie jednej instancji wyszukiwania IndexSearcher dla wątku jest łatwiejsze przez SearcherLifetimeManager,

  • IndexWriter.optimize() jako operacja czasochłonna zmieniła nazwę na forceMerge(),

  • IndexReader.reopen() została zmieniona na openIfChanged(), aby nie otwierać ponownie czytnika, gdy został już otwarty

  • optymalizacja wyszukiwania łańcuchów wielofazowych przyniosła przyspieszenie o 30-50% przez NgramPhaseQuery.

Solr 3.5 również zużywa mniej pamięci, a ponadto:

  • umożliwia tworzenie dystrybuowanych zapytań grupujących (ang. Distributed Result Grouping),

  • rozpoznaje języki przez Apache Tika LanguageIdentifier oraz bibliotekę Cybozu – i to przed zindeksowaniem dokumentu, dzięki czemu można wcześniej włączyć specyficzne dla języka ustawienia,

  • wyświetla puste wartości w polach numerycznych i daty na początku albo na końcu wyników niezależnie od sortowania, zgodnie z ustawieniami sortMissingFirst albo sortMissingLast,

  • obsługuje wyszukiwanie uwzględniające odmianę wyrazów przez przypadki, czasy itd. w 99 językach przez bibliotekę Hunspell używaną m.in. w LibreOffice, Firefoksie, Chrome, Operze, czy Mac OS X.

Równocześnie trwają prace nad czwartą wersją Lucene i wersją 3.6 Solr. Według twórcy Solr Yonika Seeleya, Lucene będzie miało przebudowane indeksowanie z obsługą kodeków, a Solr zamieni się w zaawansowany, indeksowany zasób danych NoSQL.

Czwarta wersja Solr będzie obsługiwać tryb wyszukiwania prawie w czasie rzeczywistym (NRT), który pozwoli wyszukiwać dane sekundy po ich zapisaniu do bazy.

Ta znajdująca się w repozytorium wersja jest już używana w komercyjnej implementacji Solr LucidWorks. Jeśli chcielibyście zobaczyć praktyczne zastosowania Lucene/Solr, to warto obejrzeć kursy wideo. Powstają też inne rozwiązania bazujące na Solr i Lucene, jednak na razie są w fazie prywatnych betatestów. Ciekawy jest też projekt SOLRHQ, który oferuje wyszukiwarkę opartą na Solr, zastępującą standardową wyszukiwarkę np. WordPressa czy Joomli!, oferując m.in. takie funkcje jak wyszukiwanie fasetowe.

Więcej o Lucene znajdziecie tutaj, a o Solr tutaj.

źródło: infoq.com

publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
1 skomentuj »

Komentarze

  • Tomek___

    #1 Tomek___ 2011-12-14 14:30:59 0

    jest też http://elasticsearch.org

    IP: 195.205.70.[...] Mozilla/5.0 (Ubuntu; X11; Linux x86_64; rv:8.0) Gecko/20100101 Firefox/8.0

Uwaga! Możesz zarejestrować się w serwisie i w ten sposób zarezerwować swój nick oraz ominąć konieczność ciągłego odczytywania wyrazów.

Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka (słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.

Polecane książki

Czytaj Webhosting

Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.

Zarejestruj domenę

Sprawdź dostępność swojej domeny:

.pl: 0 zł   .com: 19.90 zł
.com.pl: 0 zł   .eu: 19.90 zł