Praėjusiais metais „Meta“ sulaukė apčiuopiamo sėkmės su „Segment Anything“ – mašininio mokymosi modeliu, galinčiu greitai ir patikimai identifikuoti ir nubrėžti beveik bet ką vaizde. Tęsinys, kurio generalinis direktorius Markas Zuckerbergas pirmadienį debiutavo SIGGRAPH scenoje, perkelia modelį į vaizdo įrašų sritį, parodydamas, kaip greitai juda sritis.
Segmentavimas yra techninis terminas, kai regėjimo modelis žiūri į paveikslėlį ir išskiria dalis: „tai šuo, tai medis už šuns“, o ne „tai medis išaugęs iš šuns“. Tai vyksta dešimtmečius, tačiau pastaruoju metu jis tapo daug geresnis ir greitesnis, o „Segment Anything“ yra svarbus žingsnis į priekį.
„Segment Anything 2“ (SA2) yra natūralus tolesnis veiksmas, nes jis savaime taikomas vaizdo įrašams, o ne tik vaizdams; nors, žinoma, galėtumėte paleisti pirmąjį modelį kiekviename vaizdo įrašo kadre atskirai, tai nėra pati efektyviausia darbo eiga.
„Mokslininkai naudoja šią medžiagą tirdami, pavyzdžiui, koralinius rifus ir natūralias buveines, panašius dalykus. Tačiau tai padaryti vaizdo įraše, nufotografuoti ir pasakyti, ko nori, yra gana šaunu“, – kalbėjo Zuckerbergas pokalbyje su „Nvidia“ generaliniu direktoriumi Jensenu Huangu.
Žinoma, vaizdo įrašų apdorojimas reikalauja daug daugiau skaičiavimo, ir tai liudija, kad pramonėje pasiekta pažanga efektyvumo srityje, kurią SA2 gali paleisti netirdant duomenų centro. Žinoma, tai vis dar didžiulis modelis, kurio veikimui reikalinga rimta techninė įranga, tačiau greitas, lankstus segmentavimas buvo praktiškai neįmanomas net prieš metus.
Modelis, kaip ir pirmasis, bus atviras ir laisvai naudojamas, o apie priglobtą versiją nėra nė žodžio, ką kartais siūlo šios AI įmonės. Tačiau yra nemokama demonstracinė versija.
Natūralu, kad tokiam modeliui parengti reikia daug duomenų, o Meta taip pat išleidžia didelę, anotuotą 50 000 vaizdo įrašų duomenų bazę, kurią ji sukūrė tik šiam tikslui. Straipsnyje, kuriame aprašomas SA2, mokymams taip pat buvo panaudota dar viena duomenų bazė, kurioje yra daugiau nei 100 000 „viduje pasiekiamų“ vaizdo įrašų, o šis nėra viešinamas – aš paprašiau Metos daugiau informacijos apie tai, kas tai yra ir kodėl jis neskelbiamas. . (Manome, kad jis gaunamas iš viešųjų „Instagram“ ir „Facebook“ profilių.)
„Meta“ jau keletą metų yra „atvirojo“ AI srities lyderė, nors iš tikrųjų (kaip pokalbyje teigė Zuckerbergas) tai daro ilgą laiką, naudodama tokius įrankius kaip „PyTorch“. Tačiau visai neseniai „LLaMa“, „Segment Anything“ ir keli kiti laisvai išleisti modeliai tapo gana prieinama DI veikimo juosta šiose srityse, nors dėl jų „atvirumo“ kyla diskusijų.
Zuckerbergas paminėjo, kad atvirumas nėra visiškai iš jų širdies gerumo Metoje, tačiau tai nereiškia, kad jų ketinimai yra nešvarūs:
„Tai ne tik kaip programinė įranga, kurią galite sukurti – aplink ją reikia ekosistemos. Tai beveik net neveiktų taip gerai, jei jo neatidarytume, tiesa? Mes tai darome ne todėl, kad esame altruistiški žmonės, nors manau, kad tai bus naudinga ekosistemai – darome tai, nes manome, kad tai padarys tai, ką statome. geriausia.”
Bet kokiu atveju jis tikrai bus gerai naudojamas. Peržiūrėkite „GitHub“ čia.