Google Percolator: Mountain View wyjaśnia, jak teraz aktualizuje swój indeks
Perkolator to urządzenie, które pozwala na uzyskanie wyciągu z substancji, dzięki przepuszczaniu przez nią płynu pod ciśnieniem. Znane dobrze miłośnikom kawy, użyczyło swojej nazwy projektowi Google'a, służącemu zasilaniu nowej infrastruktury wyszukiwania Google Caffeine. Do tej pory projekt ten stanowił ścisłą tajemnicę. Wkrótce jednak całość zostanie ze szczegółami przedstawiona na najbliższej konferencji USENIX w Vancouver.
Nowa platforma obliczeniowa, która powstała jako szybsza alternatywa dla technologii Map Reduce, powstała jako sposób na radzenie sobie z drobnymi, przyrostowymi aktualizacjami. „MapReduce i inne wsadowe systemy przetwarzania nie mogą jednostkowo przetwarzać małych aktualizacji, ich efektywność bierze się z tworzenia dużych pakietów. Zbudowaliśmy więc system o nazwie Percolator, który pozwala na przyrostowe przetwarzanie aktualizacji dużych zbiorów danych i zastosowaliśmy go do stworzenia indeksu wyszukiwarki” – czytamy w przygotowywanym na konferencję artykule.
Autorzy tekstu, Daniel Peng i Frank Dabek – dwóch inżynierów Google'a z Nowego Jorku – chwalą się, że dzięki zastąpieniu wsadowego systemu indeksowania systemem przyrostowym, udało się utrzymać tę samą liczbę przetwarzanych dziennie dokumentów, jednocześnie zmniejszając przeciętny ich wiek o 50%.
MapReduce: syzyfowa praca
W udzielonym serwisowi The Register wywiadzie, Eisar Lipkovitz, starszy dyrektor inżynierii Google'a, wyjaśnił, że w przeszłości indeks wyszukiwania Google'a był budowany poprzez serię wsadowych operacji. MapReduce odwzorowywała zadania na wielką liczbę rozproszonych maszych, przydzielając im składowe zadania, po czy całość redukowała do jednej kalkulacji. Roboty Googl'a dostarczały danych z Sieci – stron i linków – a MapReduce jednorazowo przetwarzało cały ten zbiór danych, ustalając np. pozycję strony w rankingu wyszukiwania.
Przyrostowe aktualizacje indeksu w MapReduce nie były możliwe. Za każdym razem trzeba było obliczać całość, ponieważ nowo znalezione strony mogły mieć linki do reszty Sieci. Moc obliczeniowa, wykorzystywana do tej operacji była ogromna – ale tak właśnie za każdym razem powstawał nowy indeks. Google każdego dnia przechodziło przez kilka miliardów dokumentów, dodawało je do istniejącej już bazy i przepuszczało przez sekwencję około stu operacji MapReduce. W praktyce umieszczenie dowolnego dokumentu w indeksie i jego pojawienie się w wynikach wyszukiwania zajmowało więc 2-3 dni.
«poprzednia 1 2 następna »
Komentarze
Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka
(słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.
Popularne
Nazwa padła ofiarą szantażystów, inni polscy hosterzy też zagrożeni?
19
Premiera Diablo 3 wzbudziła dyskusję na temat gier, które zawsze chcą być online
19
Darmowy Internet od Aero2. Jak go zdobyć i jakie są prawdziwe koszta? Instrukcja krok po kroku
11
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
17
Nowy problem z Windows 8: bootuje się za szybko
10
Amerykańscy rodzice straszeni „e-narkotykami” dostępnymi w Sieci
21
Z okazji wypuszczenia akcji Facebooka przypomnijmy sobie, kim jest Zuckerberg
10
Blueseed: libertariańska sztuczna wyspa przyciągnęła już ponad sto startupów z całego świata
8
Rewolucja w Firefoksie, nowa łatka czterokrotnie ograniczyła zużycie pamięci
20
Darmowy Internet od Aero2. Jak go zdobyć i jakie są prawdziwe koszta? Instrukcja krok po kroku
11
CVDazzle: makijaż jest w stanie pokonać automatyczne systemy ulicznego monitoringu
3
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
17
Co czeka programistów po czterdziestce?
27
Ubuntu 12.04 LTS już dostępny: stabilna dystrybucja na następne pięć lat?
28
Społeczność
Sebek Pozycjonowanie stron za pośrednictwem firm oferujących
swoje usługi nie...
asdosad jak to zrobić na xp??
lol Jak ktoś tu wcześniej zauważył - artykuł jest o niczym, a właściwie ukrytą...
grzybecki To raczej powinien być znak dla programistów Social Media, aby swoje...
facebug @rychu
Strona wchodzi, ślamazarnie ale wchodzi mam takie...
Dave Smith Jestem Pastor Dave Smith prywatny pożyczkodawca pieniądze, z czego ponad...
inna niedawno temu miałam kod, którym można było od razu zmienić wszystkie...
- Najdmen.pl: Konta www z wyłączonym licznikiem transferu od IONIC.pl (1)
- 2BE.PL: [Oferta] Promocja jak złoto w 2BE.PL (1)
- gardius: Dobra hurtownia sportowa (1)
- gardius: Tanie książki gdzie warto kupować? (1)
- Najdmen.pl: PROMOCJA, 500 DOMEN .EU ZA 1 PLN NETTO ! (1)
- VMLine: [Oferta] Serwery VPS Xen-HVM/OpenVZ z darmową administracją (2)
- Marek: Generowanie PDFa (2)
Polecane książki
Praca
Czytaj Webhosting
Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.
Zarejestruj domenę
Sprawdź dostępność swojej domeny:
| .pl: | 0 zł | .com: | 19.90 zł | |
|---|---|---|---|---|
| .com.pl: | 0 zł | .eu: | 19.90 zł |









#1 qqq 2010-09-27 15:03:38 0
IP: 178.37.74.[...] Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9.2.10) Gecko/20100914 Firefox/3.6.10
#2 Sit 2010-09-27 16:19:24 0
IP: 94.254.151.[...] Mozilla/5.0 (X11; U; Linux x86_64; pl-PL; rv:1.9.2.10) Gecko/20100914 SUSE/3.6.10-30.1 Firefox/3.6.10
#3 Elektryk® 2010-09-28 11:30:08 0
IP: 93.179.208.[...] Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.3 (KHTML, like Gecko) Chrome/6.0.472.63 Safari/534.3
#4 Kenjiro 2010-09-29 10:17:44 0
IP: 158.75.204.[...] Mozilla/5.0 (Windows NT 6.1; rv:2.0b6) Gecko/20100101 Firefox/4.0b6