AI ADATOK
A Tencent Persona Hubja egymilliárd szintetikus karaktert generál matematikai adatokhoz
A Tencent kutatói kifejlesztették a Persona Hub-ot, egy technikát a szintetikus adatok nagyüzemi generálására. A keretrendszer körülbelül egymilliárd különböző szintetizált karaktert (persona) tartalmaz, amelyeket AI-rendszerek betanítására szolgáló szintetikus adatkészletek létrehozására használnak. A tesztek során a Tencent bebizonyította, hogy ezen karakterek egy részhalmaza kiváló minőségű matematikai adatkészletet képes generálni. Amikor egy kisméretű, 7B-s Qwen modellt finomhangoltak ezeken az adatokon, az olyan eredményeket ért el a MATH adatkészleten, amelyek összemérhetőek voltak vagy jobbak, mint a sokkal nagyobb modelleké, például a Qwen-72B-é és a Llama-3-70B-é. Ez további bizonyítékot szolgáltat arra, hogy a mai nyelvi modellek képesek generálni az utódaik fejlesztéséhez szükséges tréningadatokat.
- Text-to-Persona: Tetszőleges szöveget használ karakterek generálásához azáltal, hogy megkérdezi, ki olvasná vagy írná valószínűleg az adott tartalmat.
- Persona-to-Persona: Kapcsolódó karaktereket származtat (pl. egy nővér páciense) interperszonális kapcsolatbővítési iterációkon keresztül.
- Lépték: A nagy léptékű RedPajama v2 adatkészletet használja alapként a karaktergeneráláshoz.
- Teljesítmény: Egy 1,09 millió szintetikus matematikai feladaton betanított 7B modell 64,9%-ot ért el a MATH benchmarkon, ezzel felülmúlva a Llama-3-70B-Instruct-ot (52,8%).
Miért fontos?
Az AI öngerjesztő (bootstrapping) korszakába lépünk, ahol a szintetikus adatok elég hasznosak ahhoz, hogy a kisebb modellek megközelítsék a nagyobbak teljesítményét. A több millió különböző személyiségen keresztül generált változatos szintetikus adatok magasabb pontszámokat tesznek lehetővé, mint amit a tréningkészlet egyedi adatpontjai sugallnának. Ez lehetővé teszi a fejlesztők számára, hogy a számítási kapacitást (compute) tetszőleges mennyiségű adat létrehozására „cseréljék” bármely területen. ---