AI OKTÁTÁS
A Stanford kutatói mindössze 1000 mintával hoztak létre egy hatékony érvelő LLM-et
A Stanford University és partnereinek új kutatása az „s1”-et mutatja be, egy érvelő LLM-et, amely mindössze 1000 minta és körülbelül 7 órányi H100-as betanítás felhasználásával készült. A kutatás célja a legegyszerűbb megközelítés azonosítása a tesztidő-skálázás (test-time scaling) és az erős érvelési teljesítmény eléréséhez. Egy szabadon elérhető Qwen-32B LLM finomhangolásával és a gondolkodási idő „budget forcing” technikával történő szabályozásával a kutatók olyan modellt hoztak létre, amelynek teljesítménye a tesztidő-számítási kapacitás növelésével együtt skálázódik.
A siker kulcsa a gondosan válogatott adatkészlet volt. A szerzők közel 60 000 kérdésmintát gyűjtöttek össze, és ezeket szűrték le az 1000 legnehezebb és legváltozatosabb példára. Ez az alapos adat-előállítási folyamat alapvetőnek bizonyult, mivel a más, véletlenszerű vagy kevésbé változatos részhalmazokon végzett tanítás csökkentette az összesített teljesítményt.
- A modellt mindössze 1000 mintán finomhangolták next-token predikcióval.
- A kutatók a Google Gemini Flash Thinking API-t használták szintetikus érvelési nyomvonalak és megoldások generálására.
- A kérdéseket úgy szűrték, hogy elvetették azokat, amelyeket a kisebb modellek (Qwen2.5-7B/32B) már meg tudtak válaszolni.
- Az adatkészlet kvantitatív alapoktól és a Stanford statisztikai PhD felvételi vizsgáiból származó speciális kérdéseket is tartalmaz.
- A tanítási technika a „budget forcing” módszert alkalmazza a modell gondolkodási idejének kezelésére a tesztelés során.
Miért fontos?
Ha ilyen egyszerű érvelési modelleket készíteni, 2025 valószínűleg a kísérletezés reneszánsza lesz több tízezer különböző tanítási összeállítással. Az s1 értékes útmutatóként szolgál, amely kiszélesíti azok körét, akik érvelési modelleket építhetnek és fejleszthetnek. ---