Az OpenAI új benchmarkot vezetett be az o1 LLM-építő képességének tesztelésére

MAI AI HÍREK

Az OpenAI új benchmarkot vezetett be az o1 LLM-építő képességének tesztelésére

2024. október 11. · MI Történik? · 1 perc olvasás

Az OpenAI alaposan próbára teszi új frontier modelljét. A startup bemutatott egy új benchmark tesztet, amellyel azt vizsgálják, mennyire képes az o1 más LLM-eket építeni és finomhangolni. A modell a feladatok körülbelül 17%-ában ért el legalább bronzérmes szintet. Ez talán nem tűnik soknak, de tartsuk szem előtt, hogy ezeket a versenyeket trükkösre tervezték, és teljesítésük még az emberek számára sem könnyű feladat.

A benchmark a modell képességét értékeli más nagy nyelvi modellek tervezésére és módosítására
Az o1 modell a specifikus feladatok 17%-ában ért el bronzérmes szintet
A tesztelés összetett versenyfeladatokat tartalmaz, amelyeket emberi szakértők számára is nehézre terveztek
--

Eredeti forrás megtekintése (angol) →