Vastustavat hyökkäykset CAPTCHAan | Kohti AI

CAPTCHA: n rikkominen koneoppimisen avulla 0,05 sekunnissa

Koneoppimismalli rikkoo CAPTCHA-järjestelmiä 33 käydyssä verkkosivustossa, konsepti perustuu GAN: iin

Roberto Iriondo 19. joulukuuta 2018

Kuvalähde: koneoppimismuistelmat

Jokainen halveksii CAPTCHA: ita (ihmiset, koska robotilla ei ole tunteita) - ärsyttäviä kuvia, jotka sisältävät vaikea lukea tekstiä, jotka sinun on kirjoitettava, ennen kuin voit käyttää tai tehdä jotain verkossa. CAPTCHA (täysin automatisoitu julkinen Turing-testi tietokoneiden ja ihmisten lisäksi) kehitettiin estämään automatisoidut ohjelmat ilkivallasta (online-lomakkeiden täyttäminen, rajoitettujen tiedostojen käyttö, verkkosivustolle pääsy uskomattoman monta kertaa jne.) Maailmanlaajuisessa verkossa , tarkistamalla, että loppukäyttäjä on itse asiassa “ihminen” eikä botti. Siitä huolimatta, aikaisemmin on ehdotettu useita hyökkäyksiä CAPTCHA-soluihin, mutta yksikään niistä ei ole ollut niin tarkka ja nopea kuin koneenoppimisalgoritmi, jonka Lancaster Universityn, Luoteisen yliopiston ja Pekingin yliopiston tutkijat esittelivät alla.

Kuva 1: Katsaus lähestymistapaan. Tutkijat käyttävät ensin pientä joukkoa syntetisoimattomia CAPTCHA-soluja CAPTCHA-syntetisaattorin kouluttamiseen. (1) CAPTCHA-syntetisaattoria käytetään sitten synteettisten CAPTCHA-solujen tuottamiseen, ja samanaikaisesti (2) synteettisiä CAPTCHA-laitteita käytetään koneoppimispohjaisen ratkaisijan kouluttamiseen, (3) jota on hienostunut rakentamaan hienosäädetty ratkaisu -syntetisoidut CAPTCHA-yhdisteet. | [1]

Yksi ensimmäisistä tunnetuista ihmisistä, jotka murtautuivat CAPTCHA: t, oli Adrian Rosebrock, joka kirjassaan “Syvä oppiminen tietokoneen näkökykyyn Pythonin kanssa” [4] Adrian käy läpi kuinka hän ohitti CAPTCHA-järjestelmät E-ZPass New York -verkkosivulla koneoppimisella. . Missä hän käytti syvää oppimista mallin kouluttamiseen lataamalla CAPTCHA-esimerkkien suuri kuvatietoaineisto CAPTCHA-järjestelmien rikkoutumiseksi.

Suurin ero Adrianin ratkaisun ja Lancasterin, Luoteisen ja Pekingin tutkijoiden tutkimuksen ratkaisun välillä on, että tutkijoilla ei ollut tarvetta ladata suurta tietojoukkoa kuvia CAPTCHA-järjestelmän rikkomiseksi, mikä vastineeksi he käyttivät konsepti generatiivisesta kilpailevasta verkosta (GAN) syntetisoitujen CAPTCHA-tiedostojen luomiseksi pienen tietoaineiston mukana todellisista CAPTCHA-tiedostoista erittäin nopean ja tarkan CAPTCHA-ratkaisijan luomiseksi.

Generatiiviset vastustavat verkot, jotka Ian Goodfellow on ottanut käyttöön muiden tutkijoiden kanssa [2], ovat syviä hermoverkkoarkkitehtuureja, jotka koostuvat kahdesta hermostoverkosta, jotka kilpailevat toisten kanssa nollasummapelissä [3] syntetisoidakseen pinnallisesti aitoja näytteitä. Nämä ovat erityisen hyödyllisiä tilanteissa, joissa mallilla ei ole pääsyä suureen tietojoukkoon.

Kuva 2: Kohdennetut CAPTCHA-suojausominaisuudet. Esimerkkejä Baidu-, Sina-, Microsoft- ja JD-captcha-järjestelmistä. | [1]

Tutkijat arvioivat lähestymistapaansa soveltamalla 33 tekstipohjaista CAPTCHA-järjestelmää, joita 11 käyttää tällä hetkellä 32 maailman suosituimpaa verkkosivustoa, jonka Alexa on luokitellut. Mukaan lukien CAPTCHA-järjestelmät, joita Google, Microsoft, eBay, Wikipedia, Baidu ja monet muut käyttävät. Näiden CAPTCHA-järjestelmien hyökkäyksessä käytetty koneoppimismalli tarvitsi vain 500 syntetisoimatonta CAPTCHA-ohjelmaa miljoonien esimerkien sijasta, kuten muut hyökkäykset ennen kuin tämä (kuten Adrianin) on ehdottanut.

Kuva 3: Luettelo tekstipohjaisista captcha-malleista, joita käytetään harjoitustietoina, koneoppimisen CAPTCHA-ratkaisimen testauksen yhteydessä. | [1]

Kun malli oli alustettu CAPTCHA: n turvallisuusparametrien mielessä, kuten kuvassa 2 esitetään, sitä käytettiin synteettisten CAPTCHA-erien generoimiseksi syntetisaattorin kouluttamiseksi 500 todellisella CAPTCHA: lla, jotka saatiin kuvan 3 mukaisista erilaisista CAPTCHA-malleista. tutkijat käyttivät 20 000 CAPTCHA: ta kouluttamaan esikäsittelymallin 200 000 synteettistä CAPTCHA: ta pitkin perusratkaisun kouluttamiseksi.

Koneoppimisprototyyppi toteutettiin Pythonilla, esikäsittelymalli rakennetaan PixensPix-kehysten avulla, jotka toteutettiin Tensorflowilla. Hienosäädetty ratkaisija koodattiin Keralla. [1]

Kuva 4: Oikeat Google CAPTCHA -sovellukset ja tutkijoiden CAPTCHA-syntetisaattorin tuottamat synteettiset versiot | [1]

Sen jälkeen kun generatiiviset vastustajaverkot on koulutettu käyttämällä syntetisoituja ja todellisia CAPTCHA-näytteitä, CAPTCHA-ratkaisua käytettiin sitten CAPTCHA-ratkaisujen ratkaisemiseen käytetyiltä verkkosivustoilta, kuten Megaupload, Blizzard, Authorize, Captcha.net, Baidu, QQ, reCaptcha, Wikipedia, jne. Tämän menetelmän vaikuttava lähestymistapa on, että suurin osa CAPTCHA-sivustoista ratkaistaan ​​yli 80%: n onnistumisasteella, ylittäen 100%: n sivustoilla kuten Blizzard, Megaupload ja Authorize.net. Hyökkäysmenetelmällä on osoitettu olevan parempi tarkkuus kaikissa muut aikaisemmat menetelmät CAPTCHA-ratkaisujen ratkaisemiseksi, joissa käytettiin suuria syntetisoimattomia koulutustietosarjoja.

Kuva 5: Vertaa tutkijoiden CAPTCHA-ratkaisua neljään aikaisempaan hyökkäysmenetelmään CAPTCHA-ratkaisujen ratkaisemiseksi. | [1]

Paitsi parannettua tarkkuutta, tutkijat mainitsivat paperissaan, että heidän lähestymistapansa ei ollut paitsi tarkempi, vaan myös tehokkaampi ja halvempaa muiden ehdotettujen menetelmien toteuttamiseksi [1]. Sen lisäksi, että se on ensimmäinen tekstipohjaisille CAPTCHA-ratkaisuille ratkaistu GAN-pohjainen, se on myös hyökkääjien avoin ovi käytettäväksi, mikä tarkoittaa niiden tehokkuutta ja halpaa toteuttaa.

Siitä huolimatta lähestymistavalla on joitain rajoituksia, kuten esimerkiksi muuttuvien merkkimäärien CAPTCHA-tiedostojen käyttö, nykyinen lähestymistapa käyttää kiinteää lukumäärää merkkejä - jos prototyyppi laajenee, se rikkoutuu. Toinen on muuttuvien merkkien käyttö CAPTCHA: ssa, vaikka prototyyppi voidaan kouluttaa tukemaan tätä muutosta, se ei tällä hetkellä ole niin kuin on.

Pitkälle käyneille verkkosivustoille on tärkeää käyttää vankeampia tapoja suojata järjestelmiään, kuten bot-havaitsemistoimenpiteitä, kyberturvallisuusdiagnooseja ja analysointia, useilla suojaustasoilla, kuten laitteen sijainti, tyypit, selaimet, jne. - sellaisina kuin ne ovat ovat nyt vieläkin helpompi hyökkäyskohde.

VASTUUVAPAUSLAUSEKE: Tässä artikkelissa esitetyt näkemykset ovat tekijän / kirjoittajien mielipiteitä, eivätkä ne edusta Carnegie Mellon Universityn tai muiden kirjoittajaan (suoraan tai välillisesti) liittyvien yritysten näkemyksiä. Näiden kirjoitusten ei ole tarkoitus olla lopputuotteita, vaan pikemminkin nykyisen ajattelun heijastus, samalla kun ne ovat katalysaattorina keskusteluille ja parannuksille.

Löydät minut: Oma henkilökohtainen verkkosivustoni, Medium, Instagram, Twitter, Facebook, LinkedIn tai web-suunnitteluyritykseni kautta.

Suositellut tarinat

Viitteet:

[1] Vielä yksi tekstikaptcha-ratkaisija: Generatiivinen kilpailevaan verkkoon perustuva lähestymistapa | Guixin Ye, Zhanyong Tang, Dingyi Fang, Zhanxing Zhu, Yansong Feng, Pengfei Xu, Xiaojiang Chen, Zheng Wang | Lancaster University, Luoteinen yliopisto, Pekingin yliopisto https://www.lancaster.ac.uk/staff/wangz3/publications/ccs18.pdf

[2] Generatiiviset kilpailevat verkostot | Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio | Tietotekniikan ja operatiivisen tutkimuksen laitos, University of Montreal | https://arxiv.org/pdf/1406.2661.pdf

[3] Zero-Sum-pelit | Peliteoria | Stanfordin yliopisto | https://cs.stanford.edu/people/eroberts/courses/soco/projects/1998-99/game-theory/zero.html

[4] Syvä oppiminen tietokoneen näkökykyyn Pythonin avulla | Adrian Rosebrock | https://www.pyimagesearch.com/deep-learning-computer-vision-python-book/

[5] Gao, H., Tang, M., Liu, Y., Zhang, P. ja Liu, X. Tutkimus Microsoftin kaksikerroksisen captcha-järjestelmän turvallisuudesta. IEEE Transactions on Information Forensics & Security 12, 7 (2017), 1671–1685

[6] Gao, H., Wei, W., Wang, X., Liu, X. ja Yan, J. Onttojen kapteenien tukevuus. Julkaisussa ACM Sig | https://www.lancaster.ac.uk/staff/yanj2/ccs13.pdf

[7] Mohamed, M., Sachdeva, N., Georgescu, M., Gao, S., Saxena, N., Zhang, C., Kumaraguru, P., Oorschot, PCV ja Chen, WB: n kolmitie pelin captcha-tutkimuksen tutkiminen: automaattiset hyökkäykset, välityshyökkäykset ja käytettävyys. ACM-tieto-, tieto- ja viestintäturvallisuussymposiumissa (2014), s. 195–206

[8] Yan, J. ja Ahmad, A. S. E. Edullinen hyökkäys microsoft captchaan. ACM: n tietokone- ja viestintäkonferenssissa http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.295.9469&rep=rep1&type=pdf