publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
5 skomentuj »

TAGI: common crawl , web 3.0 , internet , indeks , dane

2011-11-08 13:30  |  Dariusz Nawojczyk, Tomasz Smykowski

Web 3.0? Common Crawl udostępnia za darmo informacje o 5 miliardach stron

Web 3.0? Common Crawl udostępnia za darmo informacje o 5 miliardach stron

W jaki sposób tworzyć projekty konkurencyjne do wyszukiwarek, np. Google? Bez odpowiednich mocy obliczeniowych, pamięci i technologii jest to trudne zadanie. Przede wszystkim trzeba najpierw przejrzeć zasoby całej Sieci i stworzyć bazę danych na jej temat. Aby uwolnić programistów i innowatorów od tego zadania, trzy lata temu powstała fundacja Common Crawl.

Ale dopiero dzisiaj ujawniono powstanie projektu. Z wykorzystaniem chmury Amazon EC2 twórcom projektu udało się stworzyć bazę informacji o 5 miliardach stron internetowych, zawierającą page rank, graf linków i inne metadane.

Za projektem stoi między innymi współtwórca Google AdSense i CEO innego ciekawego projektu, Factual, Gilad Elbaz, a także ludzie tacy jak Carl Malamud, Nova Spivack i Lisa Green.

Common Crawl ma umożliwić małym startupom, naukowcom i firmom tworzenie nowych projektów w oparciu o dane pochodzące z Sieci. Jak mówią twórcy, ich produkt umożliwi śledzenie trendów w polityce, ekonomii, zdrowiu czy kulturze.

Firma wykorzystuje do zbierania danych robota o nazwie ccBot, a do przechowywania danych projekt fundacji Apache - Hadoop.

Strona projektu już działa pod adresem www.commoncrawl.org. Organizacja ma też swoje konto na Twitterze.

Możliwości, jakie może dać Common Crawl, są niewyobrażalne. Wkrótce możemy mieć wysyp naprawdę ciekawych startupów, które otworzą być może nową erę w systemach organizacji danych. Web 3.0 coraz bliżej?

źródło: readwriteweb.com

publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
5 skomentuj »

Komentarze

  • rza

    #1 rza 2011-11-08 15:03:23 0

    uzależnią parę serwisów od swoich danych, a później opublikują cennik :)

    IP: 77.88.147.[...] Mozilla/5.0 (Windows NT 6.1; WOW64; rv:7.0.1) Gecko/20100101 Firefox/7.0.1

  • marmar

    #2 marmar 2011-11-08 17:35:37 0

    "Common Crawl Foundation is a California 501(c)3 non-profit founded..." - skoro są fundacją to chyba nie mogą tak po prostu zacząć sprzedawać tej usługi. Wydaje mi się to raczej nieprawdopodobne.

    IP: 79.191.154.[...] Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.21 Safari/535.7

  • Pascal

    #3 Pascal® 2011-11-08 18:54:13 0

    Jeżeli dobrze rozumiem warunki korzystania to trzeba mieć konto na Amazonie, żeby dostać się do danych. Do danych można dostać się tylko od wewnątrz, a dostęp z zewnątrz jest możliwy, ale wtedy jest to płatne.

    http://www.commoncrawl.org/data/accessing-the-data/

    http://docs.amazonwebservices.com/AmazonS3/latest/dev/index.html?RequesterPaysBuckets.html

    Konto na Amazonie można założyć za darmo na 1 rok, co m-c dostajemy 750 h do wykorzystania.

    http://aws.amazon.com/free/

    IP: 85.198.239.[...] Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.102 Safari/535.2

  • DDarko

    #4 DDarko 2011-11-08 20:46:43 0

    Nawet jeśli wyskoczą z cennikiem, to i tak pewnie będzie taniej niż tworzenie samemu takiej bazy (soft+hardware).

    Niby informacje już teraz są dostępne... ciekawe czy jeszcze łatwiejszy do nich dostęp zaowocuje jakimiś ciekawymi projektami...

    IP: 85.193.222.[...] Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.106 Safari/535.2

  • rza

    #5 rza 2011-11-09 08:21:24 0

    działają tylko na rachunek Amazonu - w każdym przypadku trzeba się liczyć z opłatami ;) swoją drogą ciekawe jak na takie pozwolenie dużego ruchu wewnątrz swojej sieci patrzy Amazon ;)

    IP: 77.88.147.[...] Mozilla/5.0 (Windows NT 6.1; WOW64; rv:7.0.1) Gecko/20100101 Firefox/7.0.1

Uwaga! Możesz zarejestrować się w serwisie i w ten sposób zarezerwować swój nick oraz ominąć konieczność ciągłego odczytywania wyrazów.

Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka (słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.

Polecane książki

Czytaj Webhosting

Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.

Zarejestruj domenę

Sprawdź dostępność swojej domeny:

.pl: 0 zł   .com: 19.90 zł
.com.pl: 0 zł   .eu: 19.90 zł