AI TELJESÍTMÉNYMÉRÉS
A SciBench egyetemi szintű tudományos problémamegoldás alapján értékeli a nyelvi modelleket
Az UCLA és a University of Washington kutatói létrehozták a SciBench-et, egy adatkészletet és benchmarkot annak tesztelésére, hogy a nyelvi modellek mennyire jól értik a különféle tudományos problémákat. A SciBench (a Scientific problem solving Benchmark rövidítése) 695 egyetemi szintű tudományos feladat gyűjteménye. A kérdések megválaszolása „többlépcsős érvelést igényel, és a számítások komplex aritmetikai műveleteket, például differenciálást és integrálást foglalnak magukban” – írják a kutatók. A feladatok olyan területeket érintenek, mint az alapvető fizika, termodinamika, klasszikus mechanika, kvantumkémia, fizikai kémia, kalkulus, statisztika és differenciálegyenletek.
Annak érdekében, hogy csökkentsék a véletlenszerűen eltalált helyes válaszok esélyét, a kutatók főként nagyobb kihívást jelentő, kifejtős válaszokat igénylő kérdéseket választottak a feleletválasztós tesztek helyett. A szerzők a GPT-3.5-öt és a GPT-4-et tesztelték a benchmarkon, ahol 10,62%-os és 16,81%-os alappontszámot értek el a nyílt tankönyvi adatkészleten. Ez az arány 35,80%-ra (GPT-4) emelkedett chain-of-thought promptolás használatával, valamint ha az LLM hozzáférést kapott külső szoftvereszközökhöz.
- A benchmark 695 egyetemi szintű tudományos feladatból áll
- Olyan komplex területeket fed le, mint a kvantumkémia, a termodinamika és a differenciálegyenletek
- A kifejtős válaszokra összpontosít, hogy kiküszöbölje a feleletválasztós tesztekre jellemző találgatást
- A GPT-4 16,81%-os alappontszámot ért el, ami külső eszközökkel és chain-of-thought promptolással 35,80%-ra emelkedett
Miért fontos?
Ez nagyszerű! Ez azt jelenti, hogy a SciBench egy nehéz, de kezelhető benchmark, amely elegendő mozgásteret hagy ahhoz, hogy hasznos módszer legyen az AI fejlődésének mérésére az elkövetkező hónapokban (mondanám, hogy években, de manapság a benchmarkok hajlamosak rettenetesen gyorsan telítődni).