Az Ai2 kiadja a SERA nyílt súlyú kódoló modelleket repository-szintű ágensekhez
Az Ai2 bemutatta a SERA (Soft-verified Efficient Repository Agents) nyílt súlyú kódoló modellcsaládot, amely 54,2 százalékot ért el az SWE-Bench Verified teszten, miközben mindössze 40 GPU-napnyi tréninget igényelt két NVIDIA Hopper GPU-n. A legerősebb modell, a SERA-32B, hozza a korábbi csúcskategóriás nyílt modellek, például a Devstral Small 2 szintjét, miközben a tréningköltsége 57-szer alacsonyabb a hasonló módszerekénél. A rendszer „soft-verified generation” eljárást használ szintetikus tanítóadatok előállításához anélkül, hogy teljes körű helyességvizsgálatra lenne szükség, és egy 51 mintából álló hibataxonómiát alkalmaz, hogy bármilyen kódbázisból változatos tanító példákat generáljon. Ez lehetővé teszi a legjobb open-source eredmények reprodukálását nagyjából 400 dollárból, vagy a kereskedelmi kódoló ágensek szintjének elérését 12 000 dollárból. Minden modell, tanítási recept és szintetikus adat nyíltan elérhető, és alapból kompatibilis a Claude Code-dal.
- 54,2%-ot ér el az SWE-Bench Verified teszten, jelentősen alacsonyabb tréningköltségek mellett
- A SERA-32B hozza a nagyobb modellek szintjét a hasonló módszereknél 57-szer kisebb költséggel
- A tanításhoz „soft-verified generation” eljárást és 51 hibaminta-taxonómiát használ
- Másodpercenként 3700 tokent produkál H100 GPU-kon és 8600-at Blackwell B200-on
- A finomhangolt 32B modellek képesek elérni vagy meghaladni a 110B paraméteres teacher modellek teljesítményét
Miért fontos?
A kisebb nyílt modellek egyszerű felügyelt finomhangolással (supervised fine-tuning) is szert tehetnek erős ágens-szintű viselkedésre, komplex megerősítéses tanulási (reinforcement learning) infrastruktúra nélkül. ---