Nicholas Carlini 100 valós életben alkalmazható tesztet tett közzé az LLM-ekhez

AI ÉRTÉKELÉS

Nicholas Carlini 100 valós életben alkalmazható tesztet tett közzé az LLM-ekhez

2024. február 26. · MI Történik? · 1 perc olvasás

Nicholas Carlini kutató létrehozott egy benchmarkot a nyelvi modellek tesztelésére 100 különálló feladaton keresztül. Ezeket a feladatokat főként az alapján választotta ki, hogy mik azok a dolgok, amiket Carlini rendszeresen próbál megoldani az LLM-ekkel. Maga a benchmark úgy készült, hogy nem használ semmilyen bonyolult prompting technikát, hanem a lehető legegyszerűbb módon jár el, ahogy a valós felhasználók: „Csak be akarom gépelni a kérdésemet, és meg akarom kapni a helyes választ.” A benchmark olyan területeket érint, mint a minimalizált (minified) javascript működésének elmagyarázása vagy angol mondatok SQL-lekérdezésekké alakítása. Carlini a tesztet egy egyszerű módszerrel együtt tette közzé, amivel bárki hozzáadhatja saját tesztjeit, így a benchmark bővíthető is.

100 különálló feladatot tartalmaz a valós használat alapján
Programozási projektek szöveges leírásból történő elindítására fókuszál
Teszteli a kódmódosítást (sebesség, nyelvátalakítás, funkciók)
Értékeli a modelleket olyan válaszok megtalálásában, amelyeket nehéz kulcsszavakkal leírni
A jelenlegi vezetők a GPT-4 és a Claude 2.1, őket követi a GPT-3.5 és a Mistral-Medium
A benchmark keretrendszer bővíthető és elérhető a GitHub-on

Miért fontos?

Carlini itt egy személyes, egyedi benchmarkot hozott létre, amely gyorsan megmutatja, mennyire hasznosak az LLM-ek az ő konkrét feladataihoz. Ez alapvetően egy kvantitatív megközelítése annak a megérzés-alapú értékelésnek, amivel minden tapasztalt AI-felhasználó rendelkezik. Úgy gondolom, hogy a szakadék áthidalása az ilyen rendkívül specifikus, megérzés-alapú értékelések és az általános használatra szánt szabványosított tesztkörnyezetek között az AI-irányelvek egyik legnagyobb kihívása. ---

Eredeti forrás megtekintése (angol) →