publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
4 skomentuj »

TAGI: percolator , wyszukiwarka , google , indeks , mapreduce , caffeine

2010-09-27 14:30  |  Adam Golański

Google Percolator: Mountain View wyjaśnia, jak teraz aktualizuje swój indeks

Google Percolator: Mountain View wyjaśnia, jak teraz aktualizuje swój indeks

Perkolator to urządzenie, które pozwala na uzyskanie wyciągu z substancji, dzięki przepuszczaniu przez nią płynu pod ciśnieniem. Znane dobrze miłośnikom kawy, użyczyło swojej nazwy projektowi Google'a, służącemu zasilaniu nowej infrastruktury wyszukiwania Google Caffeine. Do tej pory projekt ten stanowił ścisłą tajemnicę. Wkrótce jednak całość zostanie ze szczegółami przedstawiona na najbliższej konferencji USENIX w Vancouver.

Nowa platforma obliczeniowa, która powstała jako szybsza alternatywa dla technologii Map Reduce, powstała jako sposób na radzenie sobie z drobnymi, przyrostowymi aktualizacjami. „MapReduce i inne wsadowe systemy przetwarzania nie mogą jednostkowo przetwarzać małych aktualizacji, ich efektywność bierze się z tworzenia dużych pakietów. Zbudowaliśmy więc system o nazwie Percolator, który pozwala na przyrostowe przetwarzanie aktualizacji dużych zbiorów danych i zastosowaliśmy go do stworzenia indeksu wyszukiwarki” – czytamy w przygotowywanym na konferencję artykule.

Autorzy tekstu, Daniel Peng i Frank Dabek – dwóch inżynierów Google'a z Nowego Jorku – chwalą się, że dzięki zastąpieniu wsadowego systemu indeksowania systemem przyrostowym, udało się utrzymać tę samą liczbę przetwarzanych dziennie dokumentów, jednocześnie zmniejszając przeciętny ich wiek o 50%.


MapReduce: syzyfowa praca

W udzielonym serwisowi The Register wywiadzie, Eisar Lipkovitz, starszy dyrektor inżynierii Google'a, wyjaśnił, że w przeszłości indeks wyszukiwania Google'a był budowany poprzez serię wsadowych operacji. MapReduce odwzorowywała zadania na wielką liczbę rozproszonych maszych, przydzielając im składowe zadania, po czy całość redukowała do jednej kalkulacji. Roboty Googl'a dostarczały danych z Sieci – stron i linków – a MapReduce jednorazowo przetwarzało cały ten zbiór danych, ustalając np. pozycję strony w rankingu wyszukiwania.

Przyrostowe aktualizacje indeksu w MapReduce nie były możliwe. Za każdym razem trzeba było obliczać całość, ponieważ nowo znalezione strony mogły mieć linki do reszty Sieci. Moc obliczeniowa, wykorzystywana do tej operacji była ogromna – ale tak właśnie za każdym razem powstawał nowy indeks. Google każdego dnia przechodziło przez kilka miliardów dokumentów, dodawało je do istniejącej już bazy i przepuszczało przez sekwencję około stu operacji MapReduce. W praktyce umieszczenie dowolnego dokumentu w indeksie i jego pojawienie się w wynikach wyszukiwania zajmowało więc 2-3 dni.

«poprzednia 1 2 następna »

publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
4 skomentuj »

Komentarze

  • qqq

    #1 qqq 2010-09-27 15:03:38 0

    skala tego wszystkiego jest dla mnie po prostu niesamowita!

    IP: 178.37.74.[...] Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9.2.10) Gecko/20100914 Firefox/3.6.10

  • Sit

    #2 Sit 2010-09-27 16:19:24 0

    Przy okazji artykułu i podawanych danych wpadła mi do głowy śmieszna myśl że w tym momencie google ma w swoich rękach prawie całą wiedzę ludzkości :)

    IP: 94.254.151.[...] Mozilla/5.0 (X11; U; Linux x86_64; pl-PL; rv:1.9.2.10) Gecko/20100914 SUSE/3.6.10-30.1 Firefox/3.6.10

  • Elektryk

    #3 Elektryk® 2010-09-28 11:30:08 0

    @Sit: Wiedzę, filmy, grafiki, kalendarze, pocztę i czasami także liczbę listę plików na Twoim komputerze dzięki indeksowaniu Google Sidebar.

    IP: 93.179.208.[...] Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.3 (KHTML, like Gecko) Chrome/6.0.472.63 Safari/534.3

  • Kenjiro

    #4 Kenjiro 2010-09-29 10:17:44 0

    Zabawne, Google robi nakładki na silniki typu NoSQL, by uzyskać funkcjonalności SQL. Z

    jednej strony, wiadomo, potrzeba matką wynalazków, z drugiej, koło już

    dawno zostało wynalezione. Jestem zdania, że prościej dostosować silnik

    SQL do dużych paczek danych, zamiast robić od nowa koło (mimo, że to fajne zajęcie ;)).

    Poza tym, mam wielką prośbę do autora: skanuj chłopie swój tekst pisany, jeśli takie bohomazy wychodzą:

    "MapReduce odwzorowywała zadania na wielką liczbę rozproszonych maszych,

    przydzielając im składowe zadania, po czy całość redukowała do jednej

    kalkulacji."

    Kolejne: "Roboty Googl'a". Powinno być po prostu "Googla" (ze względu na mocną już obecność w naszym języku) lub "Googlea" (właściwe dla obcojęzycznego słowa Google).

    IP: 158.75.204.[...] Mozilla/5.0 (Windows NT 6.1; rv:2.0b6) Gecko/20100101 Firefox/4.0b6

Uwaga! Możesz zarejestrować się w serwisie i w ten sposób zarezerwować swój nick oraz ominąć konieczność ciągłego odczytywania wyrazów.

Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka (słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.

Polecane książki

Czytaj Webhosting

Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.

Zarejestruj domenę

Sprawdź dostępność swojej domeny:

.pl: 0 zł   .com: 19.90 zł
.com.pl: 0 zł   .eu: 19.90 zł