Az új Genie AI-ágens rekordokat döntöget a kódolási képességeket mérő benchmarkon

COSINE

Az új Genie AI-ágens rekordokat döntöget a kódolási képességeket mérő benchmarkon

2024. augusztus 13. · MI Történik? · 1 perc olvasás

A Cosine bemutatta a Genie-t, az új, teljesen autonóm AI szoftvermérnökét, amely több mint 10%-kal döntötte meg a nagy nyelvi modellek (LLM-ek) kódolási képességeit értékelő benchmark eddigi legjobb eredményét.

A Cosine egy olyan adatkészleten tanította a Genie-t, amely azt szimulálja, hogyan dolgoznak valójában az emberi szoftvermérnökök az inkrementális tudásfeltárástól a lépésről lépésre történő döntéshozatalig.
Ha hibázik, a Genie iterál, újratervez és újra végrehajt, amíg meg nem oldja a problémát – ez olyasvalami, amivel az alapmodellek gyakran küszködnek.
A Genie 30,08%-ot ért el az SWE-Bench-en, ami 57%-os javulás a korábbi legjobb teljesítőkhöz képest, mint például az Amazon Q és a Code Factory (19%), miközben a GPT-4 1,31%-ot ért el.
A várólista jelenleg nyitva áll, de a Genie-t még nem tették elérhetővé a nagyközönség számára.

Miért fontos?

A Cosine teljesen újragondolja az AI tanításának módját: arra tanítja, hogy emberibb módon viselkedjen már a tréning során, ahelyett, hogy a tréning utáni prompt design-ra fókuszálna – és ez működik! A legutóbbi SWE-Bench sikere után valószínű, hogy több vállalat is átveszi ezt a folyamatot és okosabb AI-kat épít, ami mindenki számára előnyös. ---

Eredeti forrás megtekintése (angol) →