MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Anthropic kezdeményezést finanszíroz jobb, külsős AI benchmarkok fejlesztésére

Képzelje el, hogy az idei nyári olimpia távolugró versenyén indul, de minden bíró más győztest hirdet. Mivel az LLM-ekhez nincs egységes mérce, minden cég arra a tesztre mutogathat, amelyikben ő az első. Ráadásul a modellek betaníthatóak arra, hogy speciális feladatokban kiválóan teljesítsenek, de ez nem mindig mutatja meg a valós képességeiket. Olyan ez, mintha valaki bemagolná a vizsgakérdéseket ahelyett, hogy valóban megértené a tananyagot. Ezen a héten az Anthropic új finanszírozási programot jelentett be olyan benchmarkok támogatására, amelyek hatékonyabban mérik a modellek általános képességeit.
Miért fontos?

Ha pontosabb rálátásunk lesz az egyes modellek teljesítményére, a cégek nagyobb precizitással finomíthatják azokat — a felhasználók pedig tisztább képet kapnak az egyes LLM-ek erősségeiről és gyengeségeiről. ---

Eredeti forrás megtekintése (angol) →