„OpenAI“ teigia, kad AI naršyklės visada gali būti pažeidžiamos greitų injekcijų atakų

Nors OpenAI stengiasi sustiprinti savo Atlas AI naršyklę nuo kibernetinių atakų, bendrovė pripažįsta, kad skubios injekcijos – ataka, kuri manipuliuoja AI agentais, kad jie vykdytų kenkėjiškas instrukcijas, dažnai paslėptas tinklalapiuose ar el. laiškuose, yra rizika, kuri greitai neišnyks – kyla klausimų, kaip saugiai dirbtinio intelekto agentai gali veikti atvirame žiniatinklyje.

„Skubi injekcija, panašiai kaip sukčiavimas ir socialinė inžinerija internete, greičiausiai niekada nebus visiškai „išspręsta“, – pirmadienio tinklaraščio įraše „OpenAI“ rašė, kaip įmonė tobulina „Atlas“ šarvus, kad kovotų su nesiliaujančiomis atakomis. Bendrovė pripažino, kad „Agento režimas“ „ChatGPT Atlas“ „išplečia saugumo grėsmės paviršių“.

„OpenAI“ spalį pristatė savo „ChatGPT Atlas“ naršyklę, o saugumo tyrinėtojai suskubo publikuoti savo demonstracines versijas, parodydami, kad „Google“ dokumentuose galima parašyti keletą žodžių, galinčių pakeisti pagrindinės naršyklės elgesį. Tą pačią dieną „Brave“ paskelbė tinklaraščio įrašą, kuriame paaiškino, kad netiesioginis greitas įpurškimas yra sistemingas iššūkis AI valdomoms naršyklėms, įskaitant „Perplexity's Comet“.

„OpenAI“ ne vienintelis pripažįsta, kad skubios injekcijos neišnyks. JK nacionalinis kibernetinio saugumo centras anksčiau šį mėnesį perspėjo, kad greitos injekcijos atakos prieš generatyvias AI programas „niekada negali būti visiškai sušvelnintos“, todėl svetainėms kyla pavojus tapti duomenų pažeidimų aukomis. JK vyriausybės agentūra patarė kibernetiniams specialistams sumažinti greitų injekcijų riziką ir poveikį, o ne manyti, kad atakas galima „sustabdyti“.

„OpenAI“ bendrovė sakė: „Mes vertiname greitą injekciją kaip ilgalaikį AI saugumo iššūkį, todėl turėsime nuolat stiprinti savo apsaugą nuo jo.

Įmonės atsakymas į šią Sizifo užduotį? Aktyvus, greito reagavimo ciklas, kuris, pasak įmonės, rodo ankstyvą pažadą padėti atrasti naujas atakų strategijas viduje, prieš jas išnaudojant „laukinėje gamtoje“.

Tai visiškai nesiskiria nuo to, ką sakė konkurentai, tokie kaip Anthropic ir Google: norint kovoti su nuolatine greitų atakų rizika, gynyba turi būti sluoksniuota ir nuolat tikrinama. Pavyzdžiui, naujausiame „Google“ darbe pagrindinis dėmesys skiriamas agentinių sistemų architektūriniam ir politikos lygmens valdymui.

Tačiau „OpenAI“ imasi kitokio takto – „LLM pagrįstas automatizuotas užpuolikas“. Šis užpuolikas iš esmės yra robotas, kurį OpenAI išmokė, naudodamasis sustiprinimo mokymuisi, atlikti įsilaužėlio vaidmenį, kuris ieško būdų, kaip AI agentui nuslėpti kenkėjiškas instrukcijas.

Botas gali išbandyti ataką simuliaciniu būdu, prieš jį naudodamas iš tikrųjų, o treniruoklis parodo, kaip tikslinis AI mąstytų ir kokių veiksmų imtųsi, jei pamatytų ataką. Tada robotas gali ištirti atsakymą, pakoreguoti ataką ir bandyti vėl ir vėl. Pašaliniai neturi prieigos prie šios tikslinės AI vidinių samprotavimų įžvalgos, todėl teoriškai OpenAI robotas turėtų sugebėti rasti trūkumus greičiau nei realaus pasaulio užpuolikas.

Tai įprasta AI saugos bandymų taktika: sukurkite agentą, kad surastumėte kraštutinius atvejus ir greitai patikrintumėte juos modeliuodami.

„Mūsų (pastiprinimo mokymosi) apmokytas užpuolikas gali paskatinti agentą atlikti sudėtingas, ilgalaikes kenksmingas darbo eigas, kurios atsiskleidžia per dešimtis (ar net šimtus) žingsnių“, – rašė OpenAI. „Mes taip pat stebėjome naujas atakų strategijas, kurios nebuvo nurodytos mūsų raudonųjų komandų kampanijoje ar išorinėse ataskaitose.

Vaizdo kreditai:OpenAI

Demonstracinėje versijoje (pavaizduota dalyje aukščiau) „OpenAI“ parodė, kaip jos automatizuotas užpuolikas į vartotojo pašto dėžutę numetė kenkėjišką el. laišką. Kai AI agentas vėliau nuskenavo gautuosius, jis vykdė paslėptas instrukcijas el. laiške ir išsiuntė atsistatydinimo pranešimą, užuot parengęs atsakymą ne biure. Tačiau po saugos atnaujinimo „agento režimas“ sugebėjo sėkmingai aptikti greitą injekcijos bandymą ir pažymėti jį vartotojui, teigia bendrovė.

Bendrovė teigia, kad nors nuo greito įpurškimo sunku apsisaugoti, tačiau ji remiasi didelio masto bandymais ir greitesniais pataisų ciklais, kad sustiprintų savo sistemas, kol jos nepasireikš realaus pasaulio atakų metu.

„OpenAI“ atstovas atsisakė pasidalyti, ar „Atlas“ saugos atnaujinimas sumažino sėkmingų injekcijų skaičių, tačiau teigia, kad įmonė nuo pat paleidimo bendradarbiauja su trečiosiomis šalimis, kad apsaugotų „Atlas“ nuo greito injekcijos.

Rami McCarthy, pagrindinis kibernetinio saugumo įmonės „Wiz“ saugumo tyrinėtojas, teigia, kad mokymasis sustiprinti yra vienas iš būdų nuolat prisitaikyti prie užpuolikų elgesio, tačiau tai tik dalis vaizdo.

„Naudingas būdas pagrįsti riziką AI sistemose yra autonomija, padauginta iš prieigos“, – sakė McCarthy „TechCrunch“.

„Agentiškos naršyklės dažniausiai yra sudėtingoje tos erdvės dalyje: vidutinė autonomija kartu su labai didele prieiga“, – sakė McCarthy. „Daugelis dabartinių rekomendacijų atspindi šį kompromisą. Apribojus prieigą prie prisijungimo visų pirma sumažinamas poveikis, o reikalavimas peržiūrėti patvirtinimo užklausas apriboja savarankiškumą.”

Tai yra dvi „OpenAI“ rekomendacijos vartotojams, siekiant sumažinti savo riziką, o atstovas teigė, kad „Atlas“ taip pat yra apmokytas gauti vartotojo patvirtinimą prieš siunčiant pranešimus ar atliekant mokėjimus. „OpenAI“ taip pat siūlo vartotojams duoti agentams konkrečias instrukcijas, o ne suteikti jiems prieigą prie jūsų gautųjų ir liepti „imtis bet kokių veiksmų“.

„Didelė platuma leidžia paslėptam ar kenkėjiškam turiniui lengviau paveikti agentą, net jei taikomos apsaugos priemonės“, – teigia OpenAI.

Nors „OpenAI“ teigia, kad „Atlas“ naudotojų apsauga nuo greitų injekcijų yra svarbiausias prioritetas, McCarthy ragina skeptiškai vertinti rizikingų naršyklių investicijų grąžą.

„Daugeliu kasdienio naudojimo atvejų agentinės naršyklės dar neteikia pakankamai vertės, kad pateisintų jų dabartinį rizikos profilį“, – „TechCrunch“ sakė McCarthy. „Rizika yra didelė, atsižvelgiant į jų prieigą prie slaptų duomenų, pvz., el. pašto ir mokėjimo informacijos, nors ši prieiga taip pat daro juos galingus. Ši pusiausvyra vystysis, tačiau šiandien kompromisai vis dar yra labai realūs.

Nuoroda į informacijos šaltinį

Related Posts

Valorantiški pasyvūs sugebėjimai Pros Piktnaudžiavimas High-Elo rungtynėse

Ar 30 000 USD vertės GPU tinka slaptažodžiui nulaužti?

Kritinis Marimo išankstinio autorizavimo RCE trūkumas dabar aktyviai naudojamas