AI ÉRTÉKELÉS
Nicholas Carlini 100 valós életben alkalmazható tesztet tett közzé az LLM-ekhez
Nicholas Carlini kutató létrehozott egy benchmarkot a nyelvi modellek tesztelésére 100 különálló feladaton keresztül. Ezeket a feladatokat főként az alapján választotta ki, hogy mik azok a dolgok, amiket Carlini rendszeresen próbál megoldani az LLM-ekkel. Maga a benchmark úgy készült, hogy nem használ semmilyen bonyolult prompting technikát, hanem a lehető legegyszerűbb módon jár el, ahogy a valós felhasználók: „Csak be akarom gépelni a kérdésemet, és meg akarom kapni a helyes választ.”
A benchmark olyan területeket érint, mint a minimalizált (minified) javascript működésének elmagyarázása vagy angol mondatok SQL-lekérdezésekké alakítása. Carlini a tesztet egy egyszerű módszerrel együtt tette közzé, amivel bárki hozzáadhatja saját tesztjeit, így a benchmark bővíthető is.
- 100 különálló feladatot tartalmaz a valós használat alapján
- Programozási projektek szöveges leírásból történő elindítására fókuszál
- Teszteli a kódmódosítást (sebesség, nyelvátalakítás, funkciók)
- Értékeli a modelleket olyan válaszok megtalálásában, amelyeket nehéz kulcsszavakkal leírni
- A jelenlegi vezetők a GPT-4 és a Claude 2.1, őket követi a GPT-3.5 és a Mistral-Medium
- A benchmark keretrendszer bővíthető és elérhető a GitHub-on
Miért fontos?
Carlini itt egy személyes, egyedi benchmarkot hozott létre, amely gyorsan megmutatja, mennyire hasznosak az LLM-ek az ő konkrét feladataihoz. Ez alapvetően egy kvantitatív megközelítése annak a megérzés-alapú értékelésnek, amivel minden tapasztalt AI-felhasználó rendelkezik. Úgy gondolom, hogy a szakadék áthidalása az ilyen rendkívül specifikus, megérzés-alapú értékelések és az általános használatra szánt szabványosított tesztkörnyezetek között az AI-irányelvek egyik legnagyobb kihívása. ---