„ChatGpt 4.1“ ankstyvieji etalonai, palyginti su „Google Gemini“

„ChatGpt 4.1“ dabar vyksta ir tai yra reikšmingas šuolis iš „GPT 4O“, tačiau jis nepavyksta įveikti „Google Gemini“ nustatyto etalono.

Vakar „Openai“ patvirtino, kad kūrėjai, turintys API prieigą, gali išbandyti net tris naujus modelius: GPT – 4.1, GPT -4.1 Mini ir GPT -4.1 Nano.

Remiantis etalonais, šie modeliai yra daug geresni už esamą GPT -4O ir GPT -4o mini, ypač koduojant.

Pavyzdžiui, „GPT“-4,1 įvertinta 54,6% SWE-Bench patvirtinta, o tai yra geriau nei GPT-4o 21,4% ir 26,6%, palyginti su GPT-4,5. Mes turime panašių rezultatų dėl kitų „Openai“ dalijimosi lyginamosios analizės įrankių, tačiau kaip ji konkuruoja su „Gemini“ modeliais.

Turinys:

„ChatGpt 4.1“ ankstyvieji etalonai

Remiantis „Stagehand“ dalijamais etalonais, kurie yra gamybos paruoštos naršyklės automatizavimo sistema, „Gemini 2.0 Flash“ yra mažiausias klaidų lygis (6,67%) kartu su aukščiausiu tikslumo balo balu (90%), taip pat yra pigu ir greita.

Kita vertus, GPT -4,1 yra didesnis klaidų lygis (16,67%), o kainuoja daugiau nei 10 kartų daugiau nei „Gemini 2.0“.

Kiti GPT variantai (pvz., „Nano“ arba „Mini“) yra pigesni arba greitesni, bet ne tokie tikslūs kaip GPT-4.1

Kituose duomenyse, kuriuose dalijasi Pierre'as Bongrandas, kuris yra mokslininkas, dirbantis RNR Harward mieste, GPT-4.1 siūlo prastesnį ekonomiškumą nei konkuruojantys modeliai.

Tai yra svarbus veiksnys, nes GPT4.1 yra pigesnis nei „ChatGpt 4o“.

Tokie modeliai kaip „Gemini 2.0 Flash“, „Gemini 2.5 Pro“ ir netgi „Deepseeek“ ar „O3 Mini“ yra arčiau pasienio ar ant jo, o tai rodo, kad jie užtikrina didesnį našumą mažesne ar palyginama kaina.

Galų gale, nors GPT -4.1 vis dar veikia kaip pasirinkimas, jis aiškiai nustelbia pigesnes ar pajėgiesnes alternatyvas.