COSINE
Az új Genie AI-ágens rekordokat döntöget a kódolási képességeket mérő benchmarkon
A Cosine bemutatta a Genie-t, az új, teljesen autonóm AI szoftvermérnökét, amely több mint 10%-kal döntötte meg a nagy nyelvi modellek (LLM-ek) kódolási képességeit értékelő benchmark eddigi legjobb eredményét.
- A Cosine egy olyan adatkészleten tanította a Genie-t, amely azt szimulálja, hogyan dolgoznak valójában az emberi szoftvermérnökök az inkrementális tudásfeltárástól a lépésről lépésre történő döntéshozatalig.
- Ha hibázik, a Genie iterál, újratervez és újra végrehajt, amíg meg nem oldja a problémát – ez olyasvalami, amivel az alapmodellek gyakran küszködnek.
- A Genie 30,08%-ot ért el az SWE-Bench-en, ami 57%-os javulás a korábbi legjobb teljesítőkhöz képest, mint például az Amazon Q és a Code Factory (19%), miközben a GPT-4 1,31%-ot ért el.
- A várólista jelenleg nyitva áll, de a Genie-t még nem tették elérhetővé a nagyközönség számára.
Miért fontos?
A Cosine teljesen újragondolja az AI tanításának módját: arra tanítja, hogy emberibb módon viselkedjen már a tréning során, ahelyett, hogy a tréning utáni prompt design-ra fókuszálna – és ez működik! A legutóbbi SWE-Bench sikere után valószínű, hogy több vállalat is átveszi ezt a folyamatot és okosabb AI-kat épít, ami mindenki számára előnyös. ---