LOKALIZÁLT MODELLEK
A thai-specifikus Typhoon modell túlszárnyalja a GPT-3.5-öt a helyi nyelvi benchmarkokon
Az SCB 10X kutatói kifejlesztették a Typhoon-t, egy 7 milliárd paraméteres nyelvi modellt, amelyet a thai nyelvre optimalizáltak. A Mistral-7B architektúrára épülő Typhoon-t egy egyedi thai adatkészleten finomhangolták, és speciális tokenizálót használ a thai írásmód jobb kezeléséhez. Hatékonyságának mérésére a kutatók létrehozták a „ThaiExam” benchmarkot, amely különféle nemzeti oktatási és szakmai vizsgákból áll.
- A Mistral-7B modellarchitektúrára épül.
- Egyedi összeállítású thai adatkészletet és speciális thai subword tokenizálót használ a jobb hatékonyság érdekében.
- A ThaiExam segítségével értékelték, amely nemzeti alkalmassági teszteket és befektetési tanácsadói vizsgákat tartalmaz.
- Sokkal kisebb mérete ellenére 8-ból 4 értékelési adatkészleten felülmúlta a GPT-3.5-öt.
- Jelentősen túlteljesített más 7B-s modelleket a thai-specifikus feladatokban.
Miért fontos?
A Typhoon bebizonyítja, hogy a kicsi, specializált modellek magas teljesítményt érhetnek el konkrét nyelveken vagy területeken. Ugyanakkor azt is mutatja, hogy az olyan hatalmas modellek, mint a GPT-4, továbbra is megőrzik teljesítménybeli előnyüket, rávilágítva a specializált kis modellek és az általános célú csúcsmodellek közötti folyamatos szakadékra.