Kutatók kifejlesztették a TICK ellenőrzőlistákat az AI modellek értékelési pontosságának javítására

AI KUTATÁS

Kutatók kifejlesztették a TICK ellenőrzőlistákat az AI modellek értékelési pontosságának javítására

2024. október 8. · MI Történik? · 1 perc olvasás

Az Oxfordi Egyetem és a Cohere kutatói kifejlesztették a TICK-et, egy új megközelítést az AI nyelvi modellek értékelésére, amely AI-generált ellenőrzőlistákat használ az értékelés pontosságának és értelmezhetőségének javítására.

A TICK egy AI modellt használ egy igen/nem kérdésekből álló ellenőrzőlista generálásához, amellyel azt értékeli, hogy egy másik AI modell mennyire jól követte az adott utasítást.
Az ellenőrzőlista-alapú módszer 5,8%-kal magasabb egyezést mutatott az emberi értékelőkkel, mint a standard AI értékelési technikák.
A kutatók kifejlesztették a STICK-et (Self-TICK) is, amely az ellenőrzőlistákat önfejlesztésre használja, ami 7,8%-kal jobb teljesítményt eredményezett a logikai feladatokban.
A TICK teljes mértékben automatizálható, így gyorsabb és olcsóbb, mint az emberi közreműködést igénylő ellenőrzőlista-alapú értékelések.

Miért fontos?

Az LLM-ek különösek – néha még az egyszerű formázási trükkök is (emlékezzünk a „vegyél egy mély levegőt” promptra) váratlan eredményekhez vezethetnek. Amikor új technikákat keresünk az AI modellek és értékelések maximális kihasználására, talán ideális visszatérni az emberi szervezés és tanulás alapjaihoz. ---

Eredeti forrás megtekintése (angol) →