publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
15 skomentuj »

TAGI: captcha , recaptcha , ocr , cyfryzacja

2008-08-15 09:43  |  Adam Golański

reCAPTCHA po roku działania ocaliła ponad 17 tysięcy książek

reCAPTCHA po roku działania ocaliła ponad 17 tysięcy książek

Rok temu badacze z Carnegie Mellon University pracujący pod kierownictwem profesora Luisa von Ahna stworzyli system reCAPTCHA, który wykorzystując mechanizmy odróżniania ludzi od maszyn w witrynach internetowych, pomaga w rozpoznawaniu treści starych książek i pism, by przenieść je do postaci elektronicznej.

System reCAPTCHA wykorzystuje zeskanowane obrazy słów, które okazały się zbyt trudne dla OCR-u. Gdy użytkownik identyfikuje się na stronie internetowej, jego odpowiedź – tekst uzyskany przez człowieka z obrazka – zostaje wysłany do uniwersyteckiego serwera. By zapewnić poprawność odczytu, obrazek pokazany użytkownikowi składa się faktycznie z dwóch słów, z których jedno jest już rozpoznane.

Teraz uczeni przedstawili efekty działania swojego programu, wdrożonego na przynajmniej kilkudziesięciu tysiącach witryn w Internecie (w tym i naszej, Webhosting.pl). Okazuje się, że dzięki reCAPTCHA użytkownicy dokonują transkrypcji 160 książek dziennie, z ponad 99% dokładnością, mimo że większość z nich nie ma pojęcia, że uczestniczy tym samym w jakiejkolwiek użytecznej pracy.

Każdego dnia na stronach serwisów korzystających z tego systemu rozwiązuje się ponad 100 milionów testów CAPTCHA i choć każdemu z użytkowników zajmuje to zaledwie kilka sekund, przekłada się to setki tysięcy godzin ludzkiej pracy. Przez pierwszy rok działania systemu rozwiązano łącznie ponad 1,2 miliarda testów, co przełożyło się na odcyfrowanie 440 milionów słów i w konsekwencji ocalenie ponad 17 600 książek.

Von Ahn stwierdził, że coraz więcej witryn internetowych przechodzi na reCAPTCHA, wzrasta w związku z tym tempo odcyfrowań. By dorównać efektom tygodnia działania systemu, potrzeba by ponad 1500 osób pracujących 40 godzin w tygodniu z szybkością 60 słów na minutę. Książki w ten sposób ocalone trafiają z powrotem do Internet Archive, gdzie mogą być z łatwością indeksowane, przeszukiwane i udostępniane w postaci równie wygodnej jak wspólczesne teksty spotykane w Sieci.

Profesor von Ahn dodał też, że projekt cyfryzacji starych książek i gazet jest oczywiście czymś samym w sobie wartym uwagi, ale stanowi jedynie część większego projektu. Jego zespołowi chodzi bowiem o pokazanie, że można wykorzystać ludzki wysiłek – który w przeciwnym wypadku byłby marnowany – do realizowania celów będących niemożliwymi do wykonania dla komputerów. Przykładem takich projektów mają być gry sieciowe, dostępne na stronie www.gwap.com, które wykorzystują wysiłek graczy do analizowania zawartości fotografii i nagrań dźwiękowych. Podobny projekt uruchomili też biolodzy z Uniwersytetu Waszyngtońskiego – gra fold.it pozwala grupom ludzi rywalizować w stworzeniu idealnej struktury danego białka.

Osoby zainteresowane wykorzystaniem projektu reCAPTCHA w swoim serwisie mogą zapoznać się z jego dokumentacją na reCAPTCHA Wiki oraz pobrać pliki instalacyjne pod adresem recaptcha.net/resources.html.

źródło: ScienceDaily.com
publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
15 skomentuj »

Komentarze

  • Marr

    #1 Marr 2008-08-15 10:13:49 0

    świetna sprawa.

    Można by coś takiego zrobić i dla polskich stron :)

    I też zacznę korzystać z reCaptchy przy swoich projektach :)

    None

  • dAREuS

    #2 dAREuS® 2008-08-15 10:42:07 0

    My z reCaptcha korzystamy od początku. Nie jest to najłatwiejsza do odczytania captcha, ale coś za nią stoi, dlatego ją wybraliśmy.

    None

  • Marr

    #3 Marr 2008-08-15 15:17:51 0

    Ja kiedy tylko mogę staram się w ogóle unikać obrazków do przepisania (korzystając na przykład z sblam.com), ale to jest bardzo przyzwoita propozycja, gdy captcha będzie niezbędna :)

    None

  • ernix

    #4 ernix 2008-08-15 19:14:57 0

    Bardzo fajna inicjatywa. Oby takich jak najwiecej :)

    None

  • mick

    #5 mick 2008-08-16 17:09:41 0

    Test recaptcha (fajnie to wylgąda) ;)

    None

  • aaah

    #6 aaah 2008-08-16 17:31:37 0

    zabawne

    None

  • Blaze

    #7 Blaze® 2008-08-18 23:59:43 0

    szczerze.. uwazam ze to genialny pomysl!

    None

  • daniel

    #8 daniel 2008-08-23 22:04:34 0

    Nienawidziłem tej reCAPTCHA.Ale skoro służy to tak dobrej sprawie to co innego.Chyba ją polubię.

    None

  • eimi

    #9 eimi® 2008-08-24 14:26:29 0

    Daniel, w naszym serwisie wystarczy zarejestrować konto użytkownika i już reCAPTCHa nie daje powodów do nienawiści. Choć może dobrym pomysłem byłaby możliwość zaznaczenia w profilu użytkownika, czy chcemy przechodzić testy w dobrym celu.

    None

  • Hering

    #10 Hering 2008-12-14 22:56:40 0

    ciekawe... i aktualnie aż przekonuje do męczenia się z tym :>

    None

  • Somebody

    #11 Somebody 2009-04-28 16:52:02 0

    Co to ma być?

    IP: 86.63.87.[...] Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9.0.9) Gecko/2009040821 Firefox/3.0.9

  • John Coffey

    #12 John Coffey 2010-05-09 19:31:27 0

    Pomogłem, prawda?

    IP: 89.107.158.[...] Mozilla/5.0 (X11; U; Linux i686; pl-PL; rv:1.9.1.3) Gecko/20091020 Ubuntu/9.10 (karmic) Firefox/3.5.3

  • asdas

    #13 asdas 2010-10-06 15:56:04 0

    sdaddcasdaDSA

    IP: 94.101.16.[...] Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9.2.10) Gecko/20100914 Firefox/3.6.10

  • robbie

    #14 robbie 2011-02-08 00:58:04 0

    fajny pomysł

    IP: 83.24.119.[...] Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13

  • testowy

    #15 testowy 2011-12-06 23:12:30 0

    fajna idea.

    IP: 87.205.155.[...] Mozilla/5.0 (Windows NT 6.1; WOW64; rv:8.0) Gecko/20100101 Firefox/8.0

Uwaga! Możesz zarejestrować się w serwisie i w ten sposób zarezerwować swój nick oraz ominąć konieczność ciągłego odczytywania wyrazów.

Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka (słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.

Polecane książki

Czytaj Webhosting

Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.

Zarejestruj domenę

Sprawdź dostępność swojej domeny:

.pl: 0 zł   .com: 19.90 zł
.com.pl: 0 zł   .eu: 19.90 zł