Ładowanie Ładowanie

News: > reCAPTCHA po roku działania ocaliła ponad 17 tysięcy książek

wydrukuj: print publikuj: wykop dodaj do flakera Dodaj jako nius na OSnews.pl! delicious

reCAPTCHA po roku działania ocaliła ponad 17 tysięcy książek

2008-08-15 09:43:00 | Adam Golański
reCAPTCHA po roku działania ocaliła ponad 17 tysięcy książek

Rok temu badacze z Carnegie Mellon University pracujący pod kierownictwem profesora Luisa von Ahna stworzyli system reCAPTCHA, który wykorzystując mechanizmy odróżniania ludzi od maszyn w witrynach internetowych, pomaga w rozpoznawaniu treści starych książek i pism, by przenieść je do postaci elektronicznej.

System reCAPTCHA wykorzystuje zeskanowane obrazy słów, które okazały się zbyt trudne dla OCR-u. Gdy użytkownik identyfikuje się na stronie internetowej, jego odpowiedź – tekst uzyskany przez człowieka z obrazka – zostaje wysłany do uniwersyteckiego serwera. By zapewnić poprawność odczytu, obrazek pokazany użytkownikowi składa się faktycznie z dwóch słów, z których jedno jest już rozpoznane.

Teraz uczeni przedstawili efekty działania swojego programu, wdrożonego na przynajmniej kilkudziesięciu tysiącach witryn w Internecie (w tym i naszej, Webhosting.pl). Okazuje się, że dzięki reCAPTCHA użytkownicy dokonują transkrypcji 160 książek dziennie, z ponad 99% dokładnością, mimo że większość z nich nie ma pojęcia, że uczestniczy tym samym w jakiejkolwiek użytecznej pracy.

Każdego dnia na stronach serwisów korzystających z tego systemu rozwiązuje się ponad 100 milionów testów CAPTCHA i choć każdemu z użytkowników zajmuje to zaledwie kilka sekund, przekłada się to setki tysięcy godzin ludzkiej pracy. Przez pierwszy rok działania systemu rozwiązano łącznie ponad 1,2 miliarda testów, co przełożyło się na odcyfrowanie 440 milionów słów i w konsekwencji ocalenie ponad 17 600 książek.

Von Ahn stwierdził, że coraz więcej witryn internetowych przechodzi na reCAPTCHA, wzrasta w związku z tym tempo odcyfrowań. By dorównać efektom tygodnia działania systemu, potrzeba by ponad 1500 osób pracujących 40 godzin w tygodniu z szybkością 60 słów na minutę. Książki w ten sposób ocalone trafiają z powrotem do Internet Archive, gdzie mogą być z łatwością indeksowane, przeszukiwane i udostępniane w postaci równie wygodnej jak wspólczesne teksty spotykane w Sieci.

Profesor von Ahn dodał też, że projekt cyfryzacji starych książek i gazet jest oczywiście czymś samym w sobie wartym uwagi, ale stanowi jedynie część większego projektu. Jego zespołowi chodzi bowiem o pokazanie, że można wykorzystać ludzki wysiłek – który w przeciwnym wypadku byłby marnowany – do realizowania celów będących niemożliwymi do wykonania dla komputerów. Przykładem takich projektów mają być gry sieciowe, dostępne na stronie www.gwap.com, które wykorzystują wysiłek graczy do analizowania zawartości fotografii i nagrań dźwiękowych. Podobny projekt uruchomili też biolodzy z Uniwersytetu Waszyngtońskiego – gra fold.it pozwala grupom ludzi rywalizować w stworzeniu idealnej struktury danego białka.

Osoby zainteresowane wykorzystaniem projektu reCAPTCHA w swoim serwisie mogą zapoznać się z jego dokumentacją na reCAPTCHA Wiki oraz pobrać pliki instalacyjne pod adresem recaptcha.net/resources.html.

źródło: ScienceDaily.com
Najnowsze wiadomości

reklama

wydrukuj: print publikuj: wykop dodaj do flakera Dodaj jako nius na OSnews.pl! delicious

Czytaj webhosting.pl:

Dyskusja

dodaj komentarz
0 + -
comnt #01 Marr 2008-08-15 10:13:49
Marr świetna sprawa.

Można by coś takiego zrobić i dla polskich stron :)

I też zacznę korzystać z reCaptchy przy swoich projektach :)
------------------
Browser:
0 + -
comnt #02 dAREuS® 2008-08-15 10:42:07
dAREuS My z reCaptcha korzystamy od początku. Nie jest to najłatwiejsza do odczytania captcha, ale coś za nią stoi, dlatego ją wybraliśmy.
------------------
dAREuS

Browser:
0 + -
comnt #03 Marr 2008-08-15 15:17:51
Marr Ja kiedy tylko mogę staram się w ogóle unikać obrazków do przepisania (korzystając na przykład z sblam.com), ale to jest bardzo przyzwoita propozycja, gdy captcha będzie niezbędna :)
------------------
Browser:
0 + -
comnt #04 ernix 2008-08-15 19:14:57
ernix Bardzo fajna inicjatywa. Oby takich jak najwiecej :)
------------------
Browser:
0 + -
comnt #05 mick 2008-08-16 17:09:41
mick Test recaptcha (fajnie to wylgąda) ;)
------------------
Browser:
0 + -
comnt #06 aaah 2008-08-16 17:31:37
aaah zabawne
------------------
Browser:
0 + -
comnt #07 Blaze® 2008-08-18 23:59:43
Blaze szczerze.. uwazam ze to genialny pomysl!
------------------
Browser:
0 + -
comnt #08 daniel 2008-08-23 22:04:34
daniel Nienawidziłem tej reCAPTCHA.Ale skoro służy to tak dobrej sprawie to co innego.Chyba ją polubię.
------------------
Browser:
0 + -
comnt #09 eimi® 2008-08-24 14:26:29
eimi Daniel, w naszym serwisie wystarczy zarejestrować konto użytkownika i już reCAPTCHa nie daje powodów do nienawiści. Choć może dobrym pomysłem byłaby możliwość zaznaczenia w profilu użytkownika, czy chcemy przechodzić testy w dobrym celu.
------------------
Browser:
0 + -
comnt #10 Hering 2008-12-14 22:56:40
Hering ciekawe... i aktualnie aż przekonuje do męczenia się z tym :>
------------------
Browser:
0 + -
comnt #11 Somebody 2009-04-28 16:52:02
Somebody Co to ma być?
------------------
Browser: Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9.0.9) Gecko/2009040821 Firefox/3.0.9
0 + -
comnt #12 John Coffey 2010-05-09 19:31:27
John Coffey Pomogłem, prawda?
------------------
Browser: Mozilla/5.0 (X11; U; Linux i686; pl-PL; rv:1.9.1.3) Gecko/20091020 Ubuntu/9.10 (karmic) Firefox/3.5.3

Komentarze

  • Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka (słowa muszą być rozdzielone spacją).
  • Jeśli masz problemy z odczytaniem słów, zmień zdjęcie.
  • Używamy tego zabezpieczenia, ponieważ dzięki niemu rozwija się projekt reCAPTCHA. Sugerujemy jednak, by zarejestrować się w serwisie i w ten sposób ominąć konieczność ciągłego odczytywania wyrazów.
  • W treści komentarza można używać języka formatowania BBcode.