publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
skomentuj »

TAGI: captcha , recaptcha , sztuczna inteligencja , spam

2008-12-08 15:29  |  Adam Golański

Dźwiękowe CAPTCHA to furtka dla spamerów?

Dźwiękowe CAPTCHA to furtka dla spamerów?

Badacze z Carnegie-Mellon University znani są ze stworzenia systemu reCAPTCHA – który pozwolił wykorzystać mrówczą pracę milionów ludzi pilnie przepisujących zdeformowane literki do rozpoznawania treści starodruków tam, gdzie maszynowe OCR zawiodło. Teraz zespół ten zajął się zagadnieniami związanymi z dźwiękowym CAPTCHA, używanym przez czołowe serwisy internetowe, by udostępnić swoje usługi osobom niewidomym i niedowidzącym.

W przygotowywanym na konferencję Neural Information Processing Systems artykule, autorzy opisali swoje badania, które przeprowadzili na materiale gromadzącym 1000 próbek dźwiękowego CAPTCHA z serwisów takich jak Google czy Digg. Wykorzystali też własne nagrania z systemu reCAPTCHA. 900 próbek zostało przeznaczonych do trenowania sztucznej inteligencji, pozostała setka miała być wykorzystana do dalszej analizy.

Stworzone przez uniwersytecki zespół oprogramowanie przeprowadziło na wstępie prostą analizę dźwięku. Próbki zostały podzielone na równe części, o długości wystarczającej by pomieścić poszczególne dźwięki. Następnie system wybrał do dalszej analizy części zawierające fale o najwyższej amplitudzie – uznano, że z najwyższym prawdopodobieństwem zawierają one składające się na dźwiękową CAPTCHA fonemy.

Autorzy przetestowali wiele metod pozwalających na wychwycenie własności ludzkiej mowy z dźwiękowego tła, związanych głównie z analizą widmową i analizą cepstralną składowych melodycznych. Własności te poddano następnie analizie ze strony programów do uczenia maszynowego, trenowanych do rozpoznawania pojedynczych znaków. Trzy systemy – AdaBoost, wspierające maszyny wektorowe (SVM) i k najbliższych sąsiadów (k-NN) trenowano na 900 wcześniej ręcznie wybranych próbkach dźwiękowego CAPTCHA. Efektem tego procesu parowania i analiz było po 15 prób złamania każdego ze 100 dźwiękowych testów CAPTCHA.

Dźwiękowe CAPTCHA Google składa się z serii cyfr od 0 do 9 odgrywanych wśród szumu tła od tyłu. System badaczy z łatwością sobie poradził z zabezpieczeniem Google'a – technice SVM udawało się łamać test CAPTCHA w 2/3 wypadków, AdaBoost wypadła nieco gorzej – jedynie k-NN miał duże problemy. CAPTCHA Digga wykorzystywała zarówno cyfry jak i litery, jednak odgrywała je na prostszym tle, przypominającym płynącą wodę. AdaBoost w tym wypadku całkowicie zawiodła, ale SVN osiągnął 70% skuteczność, a k-NN został nieco z tyłu.

Największe problemy system miał z dźwiękową reCAPTCHĄ. Jest ona podobna do systemu Google'a, ale każda z cyfr jest wypowiadana przez innego mówcę. Znacznie ograniczyło to efektywność systemów maszynowego uczenia się – choć i w tym wypadku SVM poradził sobie najlepiej, osiągając skuteczność ponad 40%. Jednak jak podkreślili autorzy, nawet te 40% stanowi doskonały wynik – dla spamerów dysponujących setkami tysięcy maszyn w botnetach oznacza to pełen triumf.

Co zatem robić? Autorzy proponują więcej wszystkiego – więcej mówców, więcej znaków, więcej zniekształceń. Wszystko to dramatycznie obniża skuteczność ich systemu łamiącego CAPTCHA. Bazując na wynikach swoich badań, uczeni zmienili już dźwiękowy test reCAPTCHA tak, że wykorzystuje on teraz liczby od 0 do 99. Zapowiadają też, że w przyszłości dźwiękowa reCAPTCHA pozwoli na transkrypcje starych programów radiowych, dzięki czemu niepełnosprawni użytkownicy tego systemu będą mogli z pożytkiem dla wszystkich pracować nad rekonstrukcją starych nagrań radiowych.

Źródło: ArsTechnica.com
publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
skomentuj »

Polecamy

Reklama

Komentarze

Uwaga! Możesz zarejestrować się w serwisie i w ten sposób zarezerwować swój nick oraz ominąć konieczność ciągłego odczytywania wyrazów.

Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka (słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.

Polecane książki

Czytaj Webhosting

Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.

Zarejestruj domenę

Sprawdź dostępność swojej domeny:

.pl: 0 zł   .com: 19.90 zł
.com.pl: 0 zł   .eu: 19.90 zł