reCAPTCHA po roku działania ocaliła ponad 17 tysięcy książek
Rok temu badacze z Carnegie Mellon University pracujący pod kierownictwem profesora Luisa von Ahna stworzyli system reCAPTCHA, który wykorzystując mechanizmy odróżniania ludzi od maszyn w witrynach internetowych, pomaga w rozpoznawaniu treści starych książek i pism, by przenieść je do postaci elektronicznej.
System reCAPTCHA wykorzystuje zeskanowane obrazy słów, które okazały się zbyt trudne dla OCR-u. Gdy użytkownik identyfikuje się na stronie internetowej, jego odpowiedź – tekst uzyskany przez człowieka z obrazka – zostaje wysłany do uniwersyteckiego serwera. By zapewnić poprawność odczytu, obrazek pokazany użytkownikowi składa się faktycznie z dwóch słów, z których jedno jest już rozpoznane.
- Teraz uczeni przedstawili efekty działania swojego programu, wdrożonego na przynajmniej kilkudziesięciu tysiącach witryn w Internecie (w tym i naszej, Webhosting.pl). Okazuje się, że dzięki reCAPTCHA użytkownicy dokonują transkrypcji 160 książek dziennie, z ponad 99% dokładnością, mimo że większość z nich nie ma pojęcia, że uczestniczy tym samym w jakiejkolwiek użytecznej pracy.
Każdego dnia na stronach serwisów korzystających z tego systemu rozwiązuje się ponad 100 milionów testów CAPTCHA i choć każdemu z użytkowników zajmuje to zaledwie kilka sekund, przekłada się to setki tysięcy godzin ludzkiej pracy. Przez pierwszy rok działania systemu rozwiązano łącznie ponad 1,2 miliarda testów, co przełożyło się na odcyfrowanie 440 milionów słów i w konsekwencji ocalenie ponad 17 600 książek.
- Von Ahn stwierdził, że coraz więcej witryn internetowych przechodzi na reCAPTCHA, wzrasta w związku z tym tempo odcyfrowań. By dorównać efektom tygodnia działania systemu, potrzeba by ponad 1500 osób pracujących 40 godzin w tygodniu z szybkością 60 słów na minutę. Książki w ten sposób ocalone trafiają z powrotem do Internet Archive, gdzie mogą być z łatwością indeksowane, przeszukiwane i udostępniane w postaci równie wygodnej jak wspólczesne teksty spotykane w Sieci.
Profesor von Ahn dodał też, że projekt cyfryzacji starych książek i gazet jest oczywiście czymś samym w sobie wartym uwagi, ale stanowi jedynie część większego projektu. Jego zespołowi chodzi bowiem o pokazanie, że można wykorzystać ludzki wysiłek – który w przeciwnym wypadku byłby marnowany – do realizowania celów będących niemożliwymi do wykonania dla komputerów. Przykładem takich projektów mają być gry sieciowe, dostępne na stronie www.gwap.com, które wykorzystują wysiłek graczy do analizowania zawartości fotografii i nagrań dźwiękowych. Podobny projekt uruchomili też biolodzy z Uniwersytetu Waszyngtońskiego – gra fold.it pozwala grupom ludzi rywalizować w stworzeniu idealnej struktury danego białka.
- Osoby zainteresowane wykorzystaniem projektu reCAPTCHA w swoim serwisie mogą zapoznać się z jego dokumentacją na reCAPTCHA Wiki oraz pobrać pliki instalacyjne pod adresem recaptcha.net/resources.html.
- źródło: ScienceDaily.com
Polecamy
Reklama
Komentarze
Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka
(słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.
Popularne
MSWiA zamówiło narzędzia do „złamania” Tora i podsłuchiwania internautów. Czy złamało przy tym prawo?
89
Korea Północna: korzystasz z telefonu komórkowego? Jesteś więc zbrodniarzem wojennym
5
Nowa polityka prywatności Google'a już za miesiąc wejdzie w życie. Mamy się czego bać?
16
Firefox 10 już jest. Wiele atrakcji dla programistów, użytkownicy raczej nic nie zauważą
9
Pobieraczek.pl pozwie internautów, którzy nie chcą płacić abonamentu
1451
Linux wypiera z korporacyjnych serwerów już nie tylko Uniksy, ale i Windows
11
Źle się dzieje z Chrome, ze stabilnością coraz gorzej. Gdzie się podziała słynna izolacja procesów?
23
MSWiA zamówiło narzędzia do „złamania” Tora i podsłuchiwania internautów. Czy złamało przy tym prawo?
89
[Aktualizacja] Facebook zablokował Demotywatory.pl. W czym zawiniły?
36
FBI zamknęło Megaupload. Anonimowi dali się sprowokować. Teraz ich akcja uzasadni potrzebę SOPA?
17
Pobieraczek.pl pozwie internautów, którzy nie chcą płacić abonamentu
1451
Rząd Tuska zablokował dostęp do tańszych leków z internetowych aptek
61
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
15
„Donald matole, twój rząd dopadną kibole” – hakerska elita przyłącza się do walki z ACTA
23
Społeczność
matrixik A ja już długi czas temu przesiadłem się z Konnecta na Mirandę i jestem...
hipertracker @slawek22, ORM wcale nie musi tworzyć nieoptymalnych kwerend. Poza tym...
Rumcajs Kolejna PRowska ściema Donka. Już mnie krew zalewa.
Artykuł 41...
zalesz o Pan Sławek :)
Patrzę nic się nie zmieniło, w sumie to nic się nie...
slawek22 Jeszcze taka dygresja na poparcie tezy, akurat sobie czytałem o node...
slawek22 Tylko po co mi 5, 10 albo nawet 15 razy szybszy JRuby skoro całą "moc...
pobieraczek.pl zapłacicie wszyscy ;D
- gardius: Dobra hurtownia sportowa (1)
- gardius: Tanie książki gdzie warto kupować? (1)
- Najdmen.pl: PROMOCJA, 500 DOMEN .EU ZA 1 PLN NETTO ! (1)
- VMLine: [Oferta] Serwery VPS Xen-HVM/OpenVZ z darmową administracją (2)
- Marek: Generowanie PDFa (2)
- Marek: problem z menu (2)
- Marek: Własne checkboxy w HTML,CSS (1)
Polecane książki
Praca
Obsługa księgowa z językiem niemieckim
Tech Support Engineer with fluent English and German, French, Italian or Spanish
Młodszy Specjalista w Dziale Należności ze znajomością języka francuskiego
Analityk Baz Danych i Systemów Monitorowania
Menedżer ds. Klienta Biznesowego
Starszy Programista Aplikacji Internetowych/Team Leader
Czytaj Webhosting
Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.
Zarejestruj domenę
Sprawdź dostępność swojej domeny:
| .pl: | 0 zł | .com: | 19.90 zł | |
|---|---|---|---|---|
| .com.pl: | 0 zł | .eu: | 19.90 zł |









#1 Marr 2008-08-15 10:13:49 0
None
#2 dAREuS® 2008-08-15 10:42:07 0
None
#3 Marr 2008-08-15 15:17:51 0
None
#4 ernix 2008-08-15 19:14:57 0
None
#5 mick 2008-08-16 17:09:41 0
None
#6 aaah 2008-08-16 17:31:37 0
None
#7 Blaze® 2008-08-18 23:59:43 0
None
#8 daniel 2008-08-23 22:04:34 0
None
#9 eimi® 2008-08-24 14:26:29 0
None
#10 Hering 2008-12-14 22:56:40 0
None
#11 Somebody 2009-04-28 16:52:02 0
IP: 86.63.87.[...] Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9.0.9) Gecko/2009040821 Firefox/3.0.9
#12 John Coffey 2010-05-09 19:31:27 0
IP: 89.107.158.[...] Mozilla/5.0 (X11; U; Linux i686; pl-PL; rv:1.9.1.3) Gecko/20091020 Ubuntu/9.10 (karmic) Firefox/3.5.3
#13 asdas 2010-10-06 15:56:04 0
IP: 94.101.16.[...] Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9.2.10) Gecko/20100914 Firefox/3.6.10
#14 robbie 2011-02-08 00:58:04 0
IP: 83.24.119.[...] Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13
#15 testowy 2011-12-06 23:12:30 0
IP: 87.205.155.[...] Mozilla/5.0 (Windows NT 6.1; WOW64; rv:8.0) Gecko/20100101 Firefox/8.0