Dźwiękowe CAPTCHA to furtka dla spamerów?
Badacze z Carnegie-Mellon University znani są ze stworzenia systemu reCAPTCHA – który pozwolił wykorzystać mrówczą pracę milionów ludzi pilnie przepisujących zdeformowane literki do rozpoznawania treści starodruków tam, gdzie maszynowe OCR zawiodło. Teraz zespół ten zajął się zagadnieniami związanymi z dźwiękowym CAPTCHA, używanym przez czołowe serwisy internetowe, by udostępnić swoje usługi osobom niewidomym i niedowidzącym.
- W przygotowywanym na konferencję Neural Information Processing Systems artykule, autorzy opisali swoje badania, które przeprowadzili na materiale gromadzącym 1000 próbek dźwiękowego CAPTCHA z serwisów takich jak Google czy Digg. Wykorzystali też własne nagrania z systemu reCAPTCHA. 900 próbek zostało przeznaczonych do trenowania sztucznej inteligencji, pozostała setka miała być wykorzystana do dalszej analizy.
- Stworzone przez uniwersytecki zespół oprogramowanie przeprowadziło na wstępie prostą analizę dźwięku. Próbki zostały podzielone na równe części, o długości wystarczającej by pomieścić poszczególne dźwięki. Następnie system wybrał do dalszej analizy części zawierające fale o najwyższej amplitudzie – uznano, że z najwyższym prawdopodobieństwem zawierają one składające się na dźwiękową CAPTCHA fonemy.
-
- Autorzy przetestowali wiele metod pozwalających na wychwycenie własności ludzkiej mowy z dźwiękowego tła, związanych głównie z analizą widmową i analizą cepstralną składowych melodycznych. Własności te poddano następnie analizie ze strony programów do uczenia maszynowego, trenowanych do rozpoznawania pojedynczych znaków. Trzy systemy – AdaBoost, wspierające maszyny wektorowe (SVM) i k najbliższych sąsiadów (k-NN) trenowano na 900 wcześniej ręcznie wybranych próbkach dźwiękowego CAPTCHA. Efektem tego procesu parowania i analiz było po 15 prób złamania każdego ze 100 dźwiękowych testów CAPTCHA.
-
- Dźwiękowe CAPTCHA Google składa się z serii cyfr od 0 do 9 odgrywanych wśród szumu tła od tyłu. System badaczy z łatwością sobie poradził z zabezpieczeniem Google'a – technice SVM udawało się łamać test CAPTCHA w 2/3 wypadków, AdaBoost wypadła nieco gorzej – jedynie k-NN miał duże problemy. CAPTCHA Digga wykorzystywała zarówno cyfry jak i litery, jednak odgrywała je na prostszym tle, przypominającym płynącą wodę. AdaBoost w tym wypadku całkowicie zawiodła, ale SVN osiągnął 70% skuteczność, a k-NN został nieco z tyłu.
-
- Największe problemy system miał z dźwiękową reCAPTCHĄ. Jest ona podobna do systemu Google'a, ale każda z cyfr jest wypowiadana przez innego mówcę. Znacznie ograniczyło to efektywność systemów maszynowego uczenia się – choć i w tym wypadku SVM poradził sobie najlepiej, osiągając skuteczność ponad 40%. Jednak jak podkreślili autorzy, nawet te 40% stanowi doskonały wynik – dla spamerów dysponujących setkami tysięcy maszyn w botnetach oznacza to pełen triumf.
-
- Co zatem robić? Autorzy proponują więcej wszystkiego – więcej mówców, więcej znaków, więcej zniekształceń. Wszystko to dramatycznie obniża skuteczność ich systemu łamiącego CAPTCHA. Bazując na wynikach swoich badań, uczeni zmienili już dźwiękowy test reCAPTCHA tak, że wykorzystuje on teraz liczby od 0 do 99. Zapowiadają też, że w przyszłości dźwiękowa reCAPTCHA pozwoli na transkrypcje starych programów radiowych, dzięki czemu niepełnosprawni użytkownicy tego systemu będą mogli z pożytkiem dla wszystkich pracować nad rekonstrukcją starych nagrań radiowych.
-
- Źródło: ArsTechnica.com
Komentarze
Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka
(słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.
Popularne
Nazwa padła ofiarą szantażystów, inni polscy hosterzy też zagrożeni?
22
Darmowy Internet od Aero2. Jak go zdobyć i jakie są prawdziwe koszta? Instrukcja krok po kroku
11
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
17
Premiera Diablo 3 wzbudziła dyskusję na temat gier, które zawsze chcą być online
19
Nowy problem z Windows 8: bootuje się za szybko
10
Amerykańscy rodzice straszeni „e-narkotykami” dostępnymi w Sieci
21
Anonymous upubliczniają 1,7 GB danych wykradzionych Departamentowi Sprawiedliwości USA
11
Blueseed: libertariańska sztuczna wyspa przyciągnęła już ponad sto startupów z całego świata
8
Rewolucja w Firefoksie, nowa łatka czterokrotnie ograniczyła zużycie pamięci
20
Darmowy Internet od Aero2. Jak go zdobyć i jakie są prawdziwe koszta? Instrukcja krok po kroku
11
CVDazzle: makijaż jest w stanie pokonać automatyczne systemy ulicznego monitoringu
3
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
17
Ubuntu 12.04 LTS już dostępny: stabilna dystrybucja na następne pięć lat?
28
Zostań webmasterem polskiego rządu, zarobisz na komfortowe życie dla siebie i swojej rodziny
33
Społeczność
bartez Niech zaczną jeszcze bardziej ograniczać programistów, to zdziwią się ilu...
Dave Smith Jestem Pastor Dave Smith prywatny pożyczkodawca pieniądze, z czego ponad...
marcusm Fajna reklama produktu za 500 zł
rza a to starsze aplikacje nie będą działać i kompilacja pod Windows SDK 7.1...
Krzaczor @Jakub Szymański: Możesz zalinkować do opisów jakichś polskich przypadków...
Krzaczor Ale oprogramowanie skompilowane dla Windows 7 ruszy przecież na ósemce...
ankaa Ja to czytam "plejsnow", a nie placek nał :) Nie wiem, co macie z tym...
- Najdmen.pl: Konta www z wyłączonym licznikiem transferu od IONIC.pl (1)
- 2BE.PL: [Oferta] Promocja jak złoto w 2BE.PL (1)
- gardius: Dobra hurtownia sportowa (1)
- gardius: Tanie książki gdzie warto kupować? (1)
- Najdmen.pl: PROMOCJA, 500 DOMEN .EU ZA 1 PLN NETTO ! (1)
- VMLine: [Oferta] Serwery VPS Xen-HVM/OpenVZ z darmową administracją (2)
- Marek: Generowanie PDFa (2)
Polecane książki
Praca
Czytaj Webhosting
Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.
Zarejestruj domenę
Sprawdź dostępność swojej domeny:
| .pl: | 0 zł | .com: | 19.90 zł | |
|---|---|---|---|---|
| .com.pl: | 0 zł | .eu: | 19.90 zł |








