Retkarčiais didžiausių technologijų kompanijų tyrėjai numeta bombą. Buvo laikas, kai „Google“ teigė, kad naujausias kvantinis lustas rodo, kad egzistuoja kelios visatos. Arba kai „Anthropic“ savo AI agentui Claudijui suteikė užkandžių pardavimo mašiną, kuriai buvo galima bėgti, ir jis pasitraukė, skambindamas žmonėms saugiai ir reikalaudamas, kad tai yra žmogiška.
Šią savaitę buvo „Openai“ eilė pakelti mūsų kolektyvinius antakius.
Pirmadienį „Openai“ išleido keletą tyrimų, paaiškinančių, kaip tai sustabdo AI modelius nuo „Scheming“. Tai praktika, kai „AI elgiasi vienu būdu ant paviršiaus, tuo pačiu slėpdamas savo tikruosius tikslus“, – savo tviteryje apibrėžė Openai apie tyrimą.
Straipsnyje, atliktame kartu su „Apollo Research“, tyrėjai ėjo šiek tiek toliau, prilygindami AI schemą su žmonių vertybinių popierių brokeriu, pažeidus įstatymą, kad uždirbtų kuo daugiau pinigų. Tačiau tyrėjai teigė, kad dauguma „scheming“ AI nebuvo tokie kenksmingi. „Dažniausiai pasitaikančios nesėkmės apima paprastas apgaulės formas – pavyzdžiui, apsimeta, kad užduotis iš tikrųjų to nepadarė“, – rašė jie.
Straipsnis dažniausiai buvo paskelbtas siekiant parodyti, kad „diskusinis derinimas“-jų bandomoji antichemavimo technika-gerai veikė.
Tačiau tai taip pat paaiškino, kad PG kūrėjai nesugalvojo būdo, kaip išmokyti savo modelius, kad nesugeba schemos. Taip yra todėl, kad toks mokymas iš tikrųjų galėtų išmokyti modelį, kaip dar geriau schemati, kad būtų išvengta aptikimo.
„Pagrindinis nesėkmės būdas bandyti„ išmokyti “schemą yra paprasčiausiai mokyti modelį, kad būtų galima išsamiau ir slapčiau ir slapčiau ir slapčiau“, – rašė tyrėjai.
„TechCrunch“ renginys
San Franciskas
|
2025 m. Spalio 27–29 d
Ko gero, labiausiai stebina tai, kad jei modelis supranta, kad jis yra išbandytas, jis gali apsimesti, kad jis nėra schemas, kad tik išlaikytume testą, net jei jis vis dar schemuoja. „Modeliai dažnai supranta, kad jie vertinami. Šis situacijos supratimas pats gali sumažinti schemą, nepriklausomai nuo tikro suderinimo“, – rašė tyrėjai.
Ne žinia, kad meluos AI modeliai. Iki šiol dauguma iš mūsų patyrė AI haliucinacijas arba modelį užtikrintai pateikė atsakymą į raginimą, kuris tiesiog netiesa. Tačiau haliucinacijos iš esmės pateikia spėliones užtikrintai, kaip „Openai“ tyrimai buvo paskelbti anksčiau šį mėnesį dokumentais.
Scheming yra kažkas kita. Tai sąmoninga.
Net šis apreiškimas – kad modelis sąmoningai suklaidins žmones – nėra naujas. „Apollo Research“ gruodį pirmą kartą paskelbė dokumentą, kuriame buvo dokumentuojama, kaip penki modeliai buvo sukurti, kai jiems buvo duotos instrukcijos siekti tikslo „bet kokia kaina“.
Naujienos iš tikrųjų yra gera žinia: tyrėjai pastebimai sumažino schemą, naudodamiesi „apgalvotu suderinimu“. Ši technika apima modelio mokymą „antichemavimo specifikacijai“, o po to modelis jį peržiūrėti prieš veikdamas. Tai šiek tiek panašu į tai, kad maži vaikai pakartoja taisykles prieš leisdami jiems žaisti.
„Openai“ tyrėjai reikalauja, kad melas, kurį jie sugavo su savo modeliais, ar net su ChatGPT, nėra toks rimtas. Kaip „Openai“ įkūrėjas Wojciechas Zaremba pasakojo „TechCrunch“ „Maxwell Zeff“ apie šį tyrimą: „Šis darbas buvo atliktas imituojamoje aplinkoje, ir mes manome darbas. ' Ir tai tik melas.
Tai, kad AI modeliai iš kelių žaidėjų sąmoningai apgaudinėja žmones, yra, ko gero, suprantami. Juos pastatė žmonės, norėdami imituoti žmones, ir (be sintetinių duomenų) dažniausiai mokomi žmonių, kuriuos sukūrė žmonės.
Tai taip pat „Bonkers“.
Nors mes visi patyrėme nusivylimą prastai veikiančiomis technologijomis (galvojančiais apie jus, vakarykščio namų spausdintuvus), kada paskutinį kartą jūsų programinė įranga „Not-ai“ sąmoningai melavo jums? Ar jūsų gautuosius kada nors buvo sukurti el. Laiškai? Ar jūsų CMS užregistravo naujas perspektyvas, kurios neegzistavo, kad numalšintų jo numerius? Ar jūsų „Fintech“ programa sudarė savo banko operacijas?
Verta tai apmąstyti kaip įmonių pasaulio statines link AI ateities, kur įmonės mano, kad agentai gali būti traktuojami kaip nepriklausomi darbuotojai. Šio darbo tyrėjai turi tą patį įspėjimą.
„Kadangi AIS yra priskiriamos sudėtingesnėms užduotims, turinčioms realaus pasaulio pasekmes ir pradedant siekti dviprasmiškesnių, ilgalaikių tikslų, mes tikimės, kad kenksmingų schemų potencialas augs-taigi mūsų apsaugos priemonės ir mūsų galimybės griežtai išbandyti turi augti atitinkamai“,-rašė jie.