A Factory bemutatta a Devinnél is jobb teljesítményt nyújtó autonóm „Code Droid” ágenseit

2024. június 30. · MI Történik? · 1 perc olvasás

A Factory kilépett a stealth fázisból, célja pedig a szoftvermérnöki életciklus automatizálása. Az emberi fejlesztők kognitív folyamatainak modellezésével a „Code Droidok” élvonalbeli eredményeket értek el a SWE-bench teszten. A rendszer 19,27%-os pontszámot kapott, amivel jelentősen felülmúlta a többi neves AI szoftvermérnököt, például Devint.

19,27%-ot ért el a SWE-bench teszten, megelőzve Devin 13,86%-os eredményét
Nem csupán szöveget jósol meg, hanem a szoftverfejlesztők kognitív folyamatait modellezi
Az ismétlődő és összetett mérnöki feladatok autonóm automatizálására tervezték
A teljes szoftverfejlesztési életciklus munkafolyamatainak modellezésére összpontosít

Miért fontos?

Ez jelentős ugrást jelent az autonóm ágensek képességeiben, elmozdulva az egyszerű kódkiegészítéstől a teljesen önálló mérnöki feladatok elvégzése felé. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az OpenAI elindította a GPT-5.1 API-t és teszteli a ChatGPT csoportos csevegés funkcióját

2025. november 18.

Az xAI kiadta a Grok 4.1-et „gondolkodó” és „nem-gondolkodó” változatokban

2025. november 18.

A Mistral AI kiadta a Mistral Large modellt és partnerségre lépett a Microsofttal

2024. március 31.

Tudj meg többet

AI-alapú hangfelvétel-leírás és jegyzetelés: A legjobb eszközök magyarul

DeepSeek vs. ChatGPT vs. Claude: Melyik AI gondolkodik a legjobban?