A thai-specifikus Typhoon modell túlszárnyalja a GPT-3.5-öt a helyi nyelvi benchmarkokon

2023. december 25. · MI Történik? · 1 perc olvasás

Az SCB 10X kutatói kifejlesztették a Typhoon-t, egy 7 milliárd paraméteres nyelvi modellt, amelyet a thai nyelvre optimalizáltak. A Mistral-7B architektúrára épülő Typhoon-t egy egyedi thai adatkészleten finomhangolták, és speciális tokenizálót használ a thai írásmód jobb kezeléséhez. Hatékonyságának mérésére a kutatók létrehozták a „ThaiExam” benchmarkot, amely különféle nemzeti oktatási és szakmai vizsgákból áll.

A Mistral-7B modellarchitektúrára épül.
Egyedi összeállítású thai adatkészletet és speciális thai subword tokenizálót használ a jobb hatékonyság érdekében.
A ThaiExam segítségével értékelték, amely nemzeti alkalmassági teszteket és befektetési tanácsadói vizsgákat tartalmaz.
Sokkal kisebb mérete ellenére 8-ból 4 értékelési adatkészleten felülmúlta a GPT-3.5-öt.
Jelentősen túlteljesített más 7B-s modelleket a thai-specifikus feladatokban.

Miért fontos?

A Typhoon bebizonyítja, hogy a kicsi, specializált modellek magas teljesítményt érhetnek el konkrét nyelveken vagy területeken. Ugyanakkor azt is mutatja, hogy az olyan hatalmas modellek, mint a GPT-4, továbbra is megőrzik teljesítménybeli előnyüket, rávilágítva a specializált kis modellek és az általános célú csúcsmodellek közötti folyamatos szakadékra.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Információarchitekt prompt az összetett részletek közérthető felismerésekké alakításához

most

Boston Dynamics Spot robotok járőröznek a 2026-os FIFA Világbajnokság stadionjaiban

2 órája

Az AI pályára lép a labdarúgás legnagyobb színpadán

4 órája

Tudj meg többet

Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?

Helyi AI futtatása saját gépen: Útmutató az Ollama és LM Studio használatához