„ChatGpt 4.1“ ankstyvieji etalonai, palyginti su „Google Gemini“


„ChatGpt 4.1“ dabar vyksta ir tai yra reikšmingas šuolis iš „GPT 4O“, tačiau jis nepavyksta įveikti „Google Gemini“ nustatyto etalono.

Vakar „Openai“ patvirtino, kad kūrėjai, turintys API prieigą, gali išbandyti net tris naujus modelius: GPT – 4.1, GPT -4.1 Mini ir GPT -4.1 Nano.

Remiantis etalonais, šie modeliai yra daug geresni už esamą GPT -4O ir GPT -4o mini, ypač koduojant.

Pavyzdžiui, „GPT“-4,1 įvertinta 54,6% SWE-Bench patvirtinta, o tai yra geriau nei GPT-4o 21,4% ir 26,6%, palyginti su GPT-4,5. Mes turime panašių rezultatų dėl kitų „Openai“ dalijimosi lyginamosios analizės įrankių, tačiau kaip ji konkuruoja su „Gemini“ modeliais.

„ChatGpt 4.1“ ankstyvieji etalonai

GPT 4.1
Lenchmarke, lyginant LLM

Remiantis „Stagehand“ dalijamais etalonais, kurie yra gamybos paruoštos naršyklės automatizavimo sistema, „Gemini 2.0 Flash“ yra mažiausias klaidų lygis (6,67%) kartu su aukščiausiu tikslumo balo balu (90%), taip pat yra pigu ir greita.

Kita vertus, GPT -4,1 yra didesnis klaidų lygis (16,67%), o kainuoja daugiau nei 10 kartų daugiau nei „Gemini 2.0“.

Kiti GPT variantai (pvz., „Nano“ arba „Mini“) yra pigesni arba greitesni, bet ne tokie tikslūs kaip GPT-4.1

GPT4,1
Diagrama lygina LLM, nubraižant jų našumą (ant vertikalios ašies), palyginti su jų milijono žetonų kainomis (ant horizontalios ašies)

Kituose duomenyse, kuriuose dalijasi Pierre'as Bongrandas, kuris yra mokslininkas, dirbantis RNR Harward mieste, GPT-4.1 siūlo prastesnį ekonomiškumą nei konkuruojantys modeliai.

Tai yra svarbus veiksnys, nes GPT4.1 yra pigesnis nei „ChatGpt 4o“.

Tokie modeliai kaip „Gemini 2.0 Flash“, „Gemini 2.5 Pro“ ir netgi „Deepseeek“ ar „O3 Mini“ yra arčiau pasienio ar ant jo, o tai rodo, kad jie užtikrina didesnį našumą mažesne ar palyginama kaina.

Galų gale, nors GPT -4.1 vis dar veikia kaip pasirinkimas, jis aiškiai nustelbia pigesnes ar pajėgiesnes alternatyvas.

Kodavimo etalonai rodo GPT-4.1 atsilikimą už „Gemini 2.5“

GPT 4.1

Panašius rezultatus matome koduojančiuose etalonuose, o „Aider PolyGlot“ sąrašas yra GPT-4.1 su 52% balu, o „Gemini 2,5“ yra mylios į priekį-73%.

Dvyniai 2.5

Taip pat svarbu atkreipti dėmesį, kad GPT-4.1 yra nepagrįstas modelis, ir tai vis dar yra vienas geriausių kodavimo modelių.

„GPT-4.1“ galima įsigyti per API, tačiau galite jį naudoti nemokamai, jei prisiregistruosite „Windsurf AI“.



Source link