Ratunek dla starodruków poprzez CAPTCHA
CAPTCHA (Completely Automated Public Turing Test to Tell Computers and Humans Apart), powszechnie stosowany przez miliony witryn test do odróżniania ludzi od spambotów podczas czynności rejestracyjnych, może wkrótce pomóc w przenoszeniu zawartości starych książek i pism do postaci elektronicznej.
Amerykańscy badacze z Carnegie Mellon University stworzyli system, który pozwala wykorzystać do tego celu czas spędzany przez miliony internautów codziennie logujących się z użyciem CAPTCHA.
Współczesne systemy OCR, z jakich korzysta się przy automatycznym przenoszeniu tekstu, nie dają sobie rady z rozpoznawaniem starych druków, popełniając kolosalne błędy. Jedyną pewną metodą pozostaje ręczna weryfikacja przez człowieka. Jest to jednak niemal niewykonalne zadanie, w sytuacji gdy do przetworzenia pozostaje jeszcze ponad sto milionów książek.
System znany jako reCAPTCHA wykorzystuje zeskanowane obrazy słów, które okazały się zbyt trudne dla OCR. Gdy użytkownik identyfikuje się na stronie internetowej, jego odpowiedź – tekst uzyskany przez człowieka z obrazka – zostaje wysłany do uniwersyteckiego serwera. By zapewnić poprawność odczytu, obrazek pokazany użytkownikowi składa się faktycznie z dwóch słów, z których jedno jest już rozpoznane. Luis von Ahn, profesor CMU stojący na czele tego projektu, jest przekonany, że pozwoli to uzyskać pewność poprawnej identyfikacji. Jeśli użytkownik poprawnie rozpozna napis znany, istnieje duże prawdopodobieństwo poprawnego rozpoznania przez niego napisu nieznanego. Żeby to zweryfikować, obrazy niezidentyfikowanych słów są używane w więcej niż jednym logowaniu. Jeśli przynajmniej dwa razy uzyskany zostanie identyczny wynik, słowo zostaje zaakceptowane. Jeżeli wyniki będą odmienne, słowo jest dalej wysyłane jako nieznane, aż zostanie uzyskany odpowiednio wysoki odsetek identycznych odpowiedzi.
W chwili obecnej system reCAPTCHA został już wdrożony przez takie witryny, jak Facebook, StumbleUpon i Twitter, a jego wprowadzenie rozważa też Google. Oczekuje się dzięki temu, że system będzie rozpoznawał ponad milion słów dziennie. Odpowiada to ponad trzem tysiącom godzin pracy pojedynczego badacza.
źródło: BBC
Polecamy
Reklama
Komentarze
Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka
(słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.
Popularne
Pobierałeś pirackie pliki? Uważaj! Kontrole antypirackie w domach użytkowników to codzienność
30
Pobieraczek.pl pozwie internautów, którzy nie chcą płacić abonamentu
1455
Debata w sprawie ACTA: internauci spodziewali się chyba czegoś innego
14
Wynalazca WWW przed sądem: walczy tam o wolny dostęp do webowych technologii dla każdego
8
PHP 5.3.9 nie pozwoli hakerom zawiesić serwera. Pozwoli za to przejąć nad nim kontrolę
28
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
15
Internet w EU bez Facebooka i Google? Firmy nie mają wyboru: albo się dostosują, albo…
10
MSWiA zamówiło narzędzia do „złamania” Tora i podsłuchiwania internautów. Czy złamało przy tym prawo?
89
[Aktualizacja] Facebook zablokował Demotywatory.pl. W czym zawiniły?
36
FBI zamknęło Megaupload. Anonimowi dali się sprowokować. Teraz ich akcja uzasadni potrzebę SOPA?
17
Pobieraczek.pl pozwie internautów, którzy nie chcą płacić abonamentu
1455
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
15
„Donald matole, twój rząd dopadną kibole” – hakerska elita przyłącza się do walki z ACTA
23
Klamka jeszcze nie zapadła. Minister prosi Donalda Tuska, by wstrzymał się z podpisywaniem ACTA
24
Społeczność
darekp @eimi, a co za różnica między zdobytym pieniędzmi a nie? Spróbuj zdobyć...
Jan "Tablet, na którym można uruchomić prawdziwe Microsoft Office, ładnie...
Maciekkkk Strona nie działa!
WebDev @eimi®
Zdobyte inaczej niż pieniędzmi, czyli jak? Czy mógłbyś to rozwinąć...
eimi @Webdev, a ja jeszcze raz Ci powiem - to co zdobyte inaczej niż pieniędzmi...
sade Powodem dla którego klienci wybierają ten sklep jest ich niewiedza.
lukaszposadowski Wydaje mi się, że użyte sformułowania "normalny pasek" oraz "normalny...
- gardius: Dobra hurtownia sportowa (1)
- gardius: Tanie książki gdzie warto kupować? (1)
- Najdmen.pl: PROMOCJA, 500 DOMEN .EU ZA 1 PLN NETTO ! (1)
- VMLine: [Oferta] Serwery VPS Xen-HVM/OpenVZ z darmową administracją (2)
- Marek: Generowanie PDFa (2)
- Marek: problem z menu (2)
- Marek: Własne checkboxy w HTML,CSS (1)
Polecane książki
Praca
Czytaj Webhosting
Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.
Zarejestruj domenę
Sprawdź dostępność swojej domeny:
| .pl: | 0 zł | .com: | 19.90 zł | |
|---|---|---|---|---|
| .com.pl: | 0 zł | .eu: | 19.90 zł |








