„Google“ savo „Gemini“ API pateikia funkciją, kuri, kaip teigia įmonė, padarys savo naujausius AI modelius pigesnius trečiųjų šalių kūrėjams.
„Google“ šią funkciją vadina „numanomu talpyklos kaupimu“ ir sako, kad ji gali sutaupyti 75% „pasikartojančio konteksto“, perduoto modeliams per „Gemini“ API. Tai palaiko „Google“ „Gemini 2.5 Pro“ ir „2.5 Flash“ modelius.
Tikėtina, kad tai bus laukiama žinių kūrėjams, nes „Frontier“ modelių naudojimo išlaidos ir toliau auga.
Talpykloje, plačiai priimta praktika AI pramonėje, pakartotinai naudojasi ar iš anksto apskaičiuotais modelių duomenimis, siekiant sumažinti skaičiavimo reikalavimus ir išlaidas. Pavyzdžiui, talpyklos gali saugoti atsakymus į klausimus, kuriuos vartotojai dažnai užduoda iš modelio, pašalindami modelio poreikį atkurti atsakymus į tą pačią užklausą.
„Google“ anksčiau buvo siūlomas greito modelio talpyklos talpykloje, bet tik aiškus Aktyvus talpyklos kaupimas, reiškiantis, kad devai turėjo apibrėžti savo aukščiausio dažnio raginimus. Nors išlaidų taupymas turėjo būti garantuotas, aiškus greitas talpyklos kaupimas paprastai apėmė daugybę rankinio darbo.
Kai kurie kūrėjai nebuvo patenkinti tuo, kaip „Google“ aiškus talpyklos kaupimo diegimas veikė „Gemini 2.5 Pro“, kuris, jų teigimu, gali sukelti stebėtinai dideles API sąskaitas. Praėjusią savaitę skundai pasiekė karščiavimo žingsnį ir paskatino „Dvynių“ komandą atsiprašyti ir pažadėti atlikti pakeitimus.
Priešingai nei aiškus talpykloje, numanomas talpyklos kaupimas yra automatinis. Pagal numatytuosius nustatymus „Gemini 2.5“ modeliams jis perduoda išlaidas, jei „Gemini API“ užklausa modeliui pasiekia talpyklą.
„TechCrunch“ renginys
Berkeley, CA
|
Birželio 5 d
Užsisakykite dabar
„(W) višta jūs siunčiate užklausą vienam iš„ Gemini 2.5 “modelių, jei užklausa dalijasi bendrą priešdėlį kaip vieną iš ankstesnių užklausų, tada gali būti suteikta talpyklos hitas“, – tinklaraščio įraše paaiškino „Google“. „Mes jums dinamiškai sutaupysime išlaidų taupymą“.
Remiantis „Google“ kūrėjo dokumentacija, kuri nėra labai didelė suma, minimalus numanomo talpyklos kaupimosi kaupimas yra 1 024 už 2,5 „Flash“ ir 2 048 už 2,5 PRO, tai reiškia, kad šiems automatiniams sutaupymams nereikėtų daug skirti. Tokens yra neapdoroti duomenų modelių bitai, kurių tūkstantis žetonai yra lygiaverčiai maždaug 750 žodžių.
Atsižvelgiant į tai, kad paskutiniai „Google“ pretenzijos dėl taupymo išlaidų sutaupytų iš talpyklos, šioje naujoje funkcijoje yra keletas pirkėjų, kuriuose yra pirkėjų, sričių. Viena vertus, „Google“ rekomenduoja kūrėjams pakartoti kontekstą užklausų pradžioje, kad padidintų numanomų talpyklos hitų tikimybę. Bendrovė sako, kad kontekstas, kuris gali pasikeisti nuo prašymo iki užklausos, turėtų būti pridedamas.
Kita vertus, „Google“ nesiūlė jokio trečiųjų šalių patikrinimo, kad naujoji numanoma talpyklos kaupimo sistema užtikrins pažadėtą automatinių taupymą. Taigi turėsime pamatyti, ką sako ankstyvieji įvaikintojai.