Dźwiękowe CAPTCHA to furtka dla spamerów?
Badacze z Carnegie-Mellon University znani są ze stworzenia systemu reCAPTCHA – który pozwolił wykorzystać mrówczą pracę milionów ludzi pilnie przepisujących zdeformowane literki do rozpoznawania treści starodruków tam, gdzie maszynowe OCR zawiodło. Teraz zespół ten zajął się zagadnieniami związanymi z dźwiękowym CAPTCHA, używanym przez czołowe serwisy internetowe, by udostępnić swoje usługi osobom niewidomym i niedowidzącym.
- W przygotowywanym na konferencję Neural Information Processing Systems artykule, autorzy opisali swoje badania, które przeprowadzili na materiale gromadzącym 1000 próbek dźwiękowego CAPTCHA z serwisów takich jak Google czy Digg. Wykorzystali też własne nagrania z systemu reCAPTCHA. 900 próbek zostało przeznaczonych do trenowania sztucznej inteligencji, pozostała setka miała być wykorzystana do dalszej analizy.
- Stworzone przez uniwersytecki zespół oprogramowanie przeprowadziło na wstępie prostą analizę dźwięku. Próbki zostały podzielone na równe części, o długości wystarczającej by pomieścić poszczególne dźwięki. Następnie system wybrał do dalszej analizy części zawierające fale o najwyższej amplitudzie – uznano, że z najwyższym prawdopodobieństwem zawierają one składające się na dźwiękową CAPTCHA fonemy.
-
- Autorzy przetestowali wiele metod pozwalających na wychwycenie własności ludzkiej mowy z dźwiękowego tła, związanych głównie z analizą widmową i analizą cepstralną składowych melodycznych. Własności te poddano następnie analizie ze strony programów do uczenia maszynowego, trenowanych do rozpoznawania pojedynczych znaków. Trzy systemy – AdaBoost, wspierające maszyny wektorowe (SVM) i k najbliższych sąsiadów (k-NN) trenowano na 900 wcześniej ręcznie wybranych próbkach dźwiękowego CAPTCHA. Efektem tego procesu parowania i analiz było po 15 prób złamania każdego ze 100 dźwiękowych testów CAPTCHA.
-
- Dźwiękowe CAPTCHA Google składa się z serii cyfr od 0 do 9 odgrywanych wśród szumu tła od tyłu. System badaczy z łatwością sobie poradził z zabezpieczeniem Google'a – technice SVM udawało się łamać test CAPTCHA w 2/3 wypadków, AdaBoost wypadła nieco gorzej – jedynie k-NN miał duże problemy. CAPTCHA Digga wykorzystywała zarówno cyfry jak i litery, jednak odgrywała je na prostszym tle, przypominającym płynącą wodę. AdaBoost w tym wypadku całkowicie zawiodła, ale SVN osiągnął 70% skuteczność, a k-NN został nieco z tyłu.
-
- Największe problemy system miał z dźwiękową reCAPTCHĄ. Jest ona podobna do systemu Google'a, ale każda z cyfr jest wypowiadana przez innego mówcę. Znacznie ograniczyło to efektywność systemów maszynowego uczenia się – choć i w tym wypadku SVM poradził sobie najlepiej, osiągając skuteczność ponad 40%. Jednak jak podkreślili autorzy, nawet te 40% stanowi doskonały wynik – dla spamerów dysponujących setkami tysięcy maszyn w botnetach oznacza to pełen triumf.
-
- Co zatem robić? Autorzy proponują więcej wszystkiego – więcej mówców, więcej znaków, więcej zniekształceń. Wszystko to dramatycznie obniża skuteczność ich systemu łamiącego CAPTCHA. Bazując na wynikach swoich badań, uczeni zmienili już dźwiękowy test reCAPTCHA tak, że wykorzystuje on teraz liczby od 0 do 99. Zapowiadają też, że w przyszłości dźwiękowa reCAPTCHA pozwoli na transkrypcje starych programów radiowych, dzięki czemu niepełnosprawni użytkownicy tego systemu będą mogli z pożytkiem dla wszystkich pracować nad rekonstrukcją starych nagrań radiowych.
-
- Źródło: ArsTechnica.com
Polecamy
Reklama
Komentarze
Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka
(słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.
Popularne
Pobierałeś pirackie pliki? Uważaj! Kontrole antypirackie w domach użytkowników to codzienność
30
Pobieraczek.pl pozwie internautów, którzy nie chcą płacić abonamentu
1455
Debata w sprawie ACTA: internauci spodziewali się chyba czegoś innego
14
Wynalazca WWW przed sądem: walczy tam o wolny dostęp do webowych technologii dla każdego
8
PHP 5.3.9 nie pozwoli hakerom zawiesić serwera. Pozwoli za to przejąć nad nim kontrolę
28
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
15
Internet w EU bez Facebooka i Google? Firmy nie mają wyboru: albo się dostosują, albo…
10
MSWiA zamówiło narzędzia do „złamania” Tora i podsłuchiwania internautów. Czy złamało przy tym prawo?
89
[Aktualizacja] Facebook zablokował Demotywatory.pl. W czym zawiniły?
36
FBI zamknęło Megaupload. Anonimowi dali się sprowokować. Teraz ich akcja uzasadni potrzebę SOPA?
17
Pobieraczek.pl pozwie internautów, którzy nie chcą płacić abonamentu
1455
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
15
„Donald matole, twój rząd dopadną kibole” – hakerska elita przyłącza się do walki z ACTA
23
Klamka jeszcze nie zapadła. Minister prosi Donalda Tuska, by wstrzymał się z podpisywaniem ACTA
24
Społeczność
darekp @eimi, a co za różnica między zdobytym pieniędzmi a nie? Spróbuj zdobyć...
Jan "Tablet, na którym można uruchomić prawdziwe Microsoft Office, ładnie...
Maciekkkk Strona nie działa!
WebDev @eimi®
Zdobyte inaczej niż pieniędzmi, czyli jak? Czy mógłbyś to rozwinąć...
eimi @Webdev, a ja jeszcze raz Ci powiem - to co zdobyte inaczej niż pieniędzmi...
sade Powodem dla którego klienci wybierają ten sklep jest ich niewiedza.
lukaszposadowski Wydaje mi się, że użyte sformułowania "normalny pasek" oraz "normalny...
- gardius: Dobra hurtownia sportowa (1)
- gardius: Tanie książki gdzie warto kupować? (1)
- Najdmen.pl: PROMOCJA, 500 DOMEN .EU ZA 1 PLN NETTO ! (1)
- VMLine: [Oferta] Serwery VPS Xen-HVM/OpenVZ z darmową administracją (2)
- Marek: Generowanie PDFa (2)
- Marek: problem z menu (2)
- Marek: Własne checkboxy w HTML,CSS (1)
Polecane książki
Praca
Czytaj Webhosting
Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.
Zarejestruj domenę
Sprawdź dostępność swojej domeny:
| .pl: | 0 zł | .com: | 19.90 zł | |
|---|---|---|---|---|
| .com.pl: | 0 zł | .eu: | 19.90 zł |








