AI KUTATÁS
Kutatók kifejlesztették a TICK ellenőrzőlistákat az AI modellek értékelési pontosságának javítására
Az Oxfordi Egyetem és a Cohere kutatói kifejlesztették a TICK-et, egy új megközelítést az AI nyelvi modellek értékelésére, amely AI-generált ellenőrzőlistákat használ az értékelés pontosságának és értelmezhetőségének javítására.
- A TICK egy AI modellt használ egy igen/nem kérdésekből álló ellenőrzőlista generálásához, amellyel azt értékeli, hogy egy másik AI modell mennyire jól követte az adott utasítást.
- Az ellenőrzőlista-alapú módszer 5,8%-kal magasabb egyezést mutatott az emberi értékelőkkel, mint a standard AI értékelési technikák.
- A kutatók kifejlesztették a STICK-et (Self-TICK) is, amely az ellenőrzőlistákat önfejlesztésre használja, ami 7,8%-kal jobb teljesítményt eredményezett a logikai feladatokban.
- A TICK teljes mértékben automatizálható, így gyorsabb és olcsóbb, mint az emberi közreműködést igénylő ellenőrzőlista-alapú értékelések.
Miért fontos?
Az LLM-ek különösek – néha még az egyszerű formázási trükkök is (emlékezzünk a „vegyél egy mély levegőt” promptra) váratlan eredményekhez vezethetnek. Amikor új technikákat keresünk az AI modellek és értékelések maximális kihasználására, talán ideális visszatérni az emberi szervezés és tanulás alapjaihoz. ---