Poetiq

A Poetiq startup vezeti az ARC-AGI-2 érvelési teljesítménymérőt, megelőzve a Google Gemini-t

2025. december 8. · MI Történik? · 1 perc olvasás

Hat hónappal ezelőtt a legjobb AI modellek alig érték el az 5%-ot az ARC-AGI-2 érvelési benchmarkon. Ma egy apró startup épp most lépte át az 50%-ot – és közben a Google-t is legyőzte a cég saját modelljét használva. Egy olyan „meta-rendszerrel”, amely a meglévő modelleket finomítja ahelyett, hogy a semmiből építkezne, a Poetiq eredménye azt mutatja, hogy a következő áttörések az okos mérnöki megoldásokból, nem pedig pusztán a méret növeléséből fakadhatnak.

A hatszemélyes Poetiq AI startup hivatalosan is átvette a vezetést az ARC-AGI-2 érvelési benchmarkon, legyőzve a Google Gemini 3 Deep Think modelljét feleakkora költség mellett, meglévő modellek összehangolásával a saját építése helyett.

A Poetiq meta-rendszere órákon belül képes alkalmazkodni az új modellekhez, így röviddel a Gemini 3 megjelenése után máris elérte a ranglista élét, mindenféle újratanítás nélkül.
A Gemini 3 Pro-t alapmodellként használva a Poetiq finomító rendszere 54%-ot ért el feladatonként 30 dolláros költséggel – túlszárnyalva a Google legjobb változatát, a Deep Thinket, amely 45%-ot ért el 77 dollárért.
Ez az eredmény az első olyan rendszer, amely áttörte az 50%-os határt az ARC-AGI-2-n, miközben a vezető modellek alig hat hónappal ezelőtt még az 5% elérésével is küzdöttek.
A startup open-source szemléletű megközelítése LLM-eket használ saját kimeneteik folyamatos finomítására, egy beépített önellenőrző rendszerrel a minőségi megoldások biztosítása érdekében.

Miért fontos?

Az ARC-AGI-2-n elért haladás 5% alattról 50% fölé mindössze hónapok alatt jól mutatja, milyen gyorsan fejlődnek a dolgok. A Poetiq módszere olyan jövőt vetít előre, ahol az AI fejlődése egyszerre két irányból érkezik: a határterületi modellek fejlesztéséből és a rájuk épülő okos koordinációs rendszerekből, amelyeket hatalmas számítási kapacitás nélkül dolgozó csapatok hoznak létre.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Cursor lokális, 7 dolláros „Start” csomagot indít Indiában

most

Ultra-realisztikus luxustermék-reklámképek generálása

9 órája

A Notion bevezette a „Notion as code” koncepciót a munkaterületek üzembe helyezéséhez

11 órája

Tudj meg többet

Perplexity AI: A Google-kereső AI-vel felturbózva

Gemini a Gmail-ben és a Google Docs-ban: Így automatizáld a munkád