publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
skomentuj »

TAGI: captcha , carnegie mellon university , ocr , recaptcha , starodruk , test turinga

2007-10-03 18:00  |  Adam Golański

Ratunek dla starodruków poprzez CAPTCHA

Ratunek dla starodruków poprzez CAPTCHA

CAPTCHA (Completely Automated Public Turing Test to Tell Computers and Humans Apart), powszechnie stosowany przez miliony witryn test do odróżniania ludzi od spambotów podczas czynności rejestracyjnych, może wkrótce pomóc w przenoszeniu zawartości starych książek i pism do postaci elektronicznej.

Amerykańscy badacze z Carnegie Mellon University stworzyli system, który pozwala wykorzystać do tego celu czas spędzany przez miliony internautów codziennie logujących się z użyciem CAPTCHA.

Współczesne systemy OCR, z jakich korzysta się przy automatycznym przenoszeniu tekstu, nie dają sobie rady z rozpoznawaniem starych druków, popełniając kolosalne błędy. Jedyną pewną metodą pozostaje ręczna weryfikacja przez człowieka. Jest to jednak niemal niewykonalne zadanie, w sytuacji gdy do przetworzenia pozostaje jeszcze ponad sto milionów książek.

System znany jako reCAPTCHA wykorzystuje zeskanowane obrazy słów, które okazały się zbyt trudne dla OCR. Gdy użytkownik identyfikuje się na stronie internetowej, jego odpowiedź – tekst uzyskany przez człowieka z obrazka – zostaje wysłany do uniwersyteckiego serwera. By zapewnić poprawność odczytu, obrazek pokazany użytkownikowi składa się faktycznie z dwóch słów, z których jedno jest już rozpoznane. Luis von Ahn, profesor CMU stojący na czele tego projektu, jest przekonany, że pozwoli to uzyskać pewność poprawnej identyfikacji. Jeśli użytkownik poprawnie rozpozna napis znany, istnieje duże prawdopodobieństwo poprawnego rozpoznania przez niego napisu nieznanego. Żeby to zweryfikować, obrazy niezidentyfikowanych słów są używane w więcej niż jednym logowaniu. Jeśli przynajmniej dwa razy uzyskany zostanie identyczny wynik, słowo zostaje zaakceptowane. Jeżeli wyniki będą odmienne, słowo jest dalej wysyłane jako nieznane, aż zostanie uzyskany odpowiednio wysoki odsetek identycznych odpowiedzi.

W chwili obecnej system reCAPTCHA został już wdrożony przez takie witryny, jak Facebook, StumbleUpon i Twitter, a jego wprowadzenie rozważa też Google. Oczekuje się dzięki temu, że system będzie rozpoznawał ponad milion słów dziennie. Odpowiada to ponad trzem tysiącom godzin pracy pojedynczego badacza.

źródło: BBC

publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
skomentuj »

Polecamy

Reklama

Komentarze

Uwaga! Możesz zarejestrować się w serwisie i w ten sposób zarezerwować swój nick oraz ominąć konieczność ciągłego odczytywania wyrazów.

Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka (słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.

Polecane książki

Czytaj Webhosting

Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.

Zarejestruj domenę

Sprawdź dostępność swojej domeny:

.pl: 0 zł   .com: 19.90 zł
.com.pl: 0 zł   .eu: 19.90 zł