AI ÉS BENCHMARKOK
Az Anthropic kezdeményezést finanszíroz jobb, külsős AI benchmarkok fejlesztésére
Képzelje el, hogy az idei nyári olimpia távolugró versenyén indul, de minden bíró más győztest hirdet. Mivel az LLM-ekhez nincs egységes mérce, minden cég arra a tesztre mutogathat, amelyikben ő az első. Ráadásul a modellek betaníthatóak arra, hogy speciális feladatokban kiválóan teljesítsenek, de ez nem mindig mutatja meg a valós képességeiket. Olyan ez, mintha valaki bemagolná a vizsgakérdéseket ahelyett, hogy valóban megértené a tananyagot. Ezen a héten az Anthropic új finanszírozási programot jelentett be olyan benchmarkok támogatására, amelyek hatékonyabban mérik a modellek általános képességeit.
- Az Anthropic kifizetésekkel támogatja azokat a külsős csoportokat, amelyek bizonyítottan megbízható módszerrel rendelkeznek a modellek teljesítményének mérésére.
- Az új teszteken sokkal nehezebb lesz átmenni — olyan lesz, mint egyetemi vizsgát tenni azután, hogy valaki jelesre teljesítette a középiskolai teszteket.
- A vállalat azt szeretné, ha a tesztek a mindennapi feladatok praktikumára és a biztonságra fókuszálnának, kiszűrve a könnyen jailbreakelhető modelleket.
- A jövőbeli benchmarkok akár felhasználók ezreit is bevonhatják egy-egy feladat elvégzésére, hogy pontosabb képet kapjanak arról, hogyan kezelik a modellek a valós életből vett problémákat.
Miért fontos?
Ha pontosabb rálátásunk lesz az egyes modellek teljesítményére, a cégek nagyobb precizitással finomíthatják azokat — a felhasználók pedig tisztább képet kapnak az egyes LLM-ek erősségeiről és gyengeségeiről. ---