Az Anthropic kezdeményezést finanszíroz jobb, külsős AI benchmarkok fejlesztésére

AI ÉS BENCHMARKOK

Az Anthropic kezdeményezést finanszíroz jobb, külsős AI benchmarkok fejlesztésére

2024. július 3. · MI Történik? · 1 perc olvasás

Képzelje el, hogy az idei nyári olimpia távolugró versenyén indul, de minden bíró más győztest hirdet. Mivel az LLM-ekhez nincs egységes mérce, minden cég arra a tesztre mutogathat, amelyikben ő az első. Ráadásul a modellek betaníthatóak arra, hogy speciális feladatokban kiválóan teljesítsenek, de ez nem mindig mutatja meg a valós képességeiket. Olyan ez, mintha valaki bemagolná a vizsgakérdéseket ahelyett, hogy valóban megértené a tananyagot. Ezen a héten az Anthropic új finanszírozási programot jelentett be olyan benchmarkok támogatására, amelyek hatékonyabban mérik a modellek általános képességeit.

Az Anthropic kifizetésekkel támogatja azokat a külsős csoportokat, amelyek bizonyítottan megbízható módszerrel rendelkeznek a modellek teljesítményének mérésére.
Az új teszteken sokkal nehezebb lesz átmenni — olyan lesz, mint egyetemi vizsgát tenni azután, hogy valaki jelesre teljesítette a középiskolai teszteket.
A vállalat azt szeretné, ha a tesztek a mindennapi feladatok praktikumára és a biztonságra fókuszálnának, kiszűrve a könnyen jailbreakelhető modelleket.
A jövőbeli benchmarkok akár felhasználók ezreit is bevonhatják egy-egy feladat elvégzésére, hogy pontosabb képet kapjanak arról, hogyan kezelik a modellek a valós életből vett problémákat.

Miért fontos?

Ha pontosabb rálátásunk lesz az egyes modellek teljesítményére, a cégek nagyobb precizitással finomíthatják azokat — a felhasználók pedig tisztább képet kapnak az egyes LLM-ek erősségeiről és gyengeségeiről. ---

Eredeti forrás megtekintése (angol) →