MAI AI HÍREK
Az OpenAI új benchmarkot vezetett be az o1 LLM-építő képességének tesztelésére
Az OpenAI alaposan próbára teszi új frontier modelljét. A startup bemutatott egy új benchmark tesztet, amellyel azt vizsgálják, mennyire képes az o1 más LLM-eket építeni és finomhangolni. A modell a feladatok körülbelül 17%-ában ért el legalább bronzérmes szintet. Ez talán nem tűnik soknak, de tartsuk szem előtt, hogy ezeket a versenyeket trükkösre tervezték, és teljesítésük még az emberek számára sem könnyű feladat.
- A benchmark a modell képességét értékeli más nagy nyelvi modellek tervezésére és módosítására
- Az o1 modell a specifikus feladatok 17%-ában ért el bronzérmes szintet
- A tesztelés összetett versenyfeladatokat tartalmaz, amelyeket emberi szakértők számára is nehézre terveztek
- --