POETIQ
A Poetiq startup vezeti az ARC-AGI-2 érvelési teljesítménymérőt, megelőzve a Google Gemini-t
Hat hónappal ezelőtt a legjobb AI modellek alig érték el az 5%-ot az ARC-AGI-2 érvelési benchmarkon. Ma egy apró startup épp most lépte át az 50%-ot – és közben a Google-t is legyőzte a cég saját modelljét használva. Egy olyan „meta-rendszerrel”, amely a meglévő modelleket finomítja ahelyett, hogy a semmiből építkezne, a Poetiq eredménye azt mutatja, hogy a következő áttörések az okos mérnöki megoldásokból, nem pedig pusztán a méret növeléséből fakadhatnak.
A hatszemélyes Poetiq AI startup hivatalosan is átvette a vezetést az ARC-AGI-2 érvelési benchmarkon, legyőzve a Google Gemini 3 Deep Think modelljét feleakkora költség mellett, meglévő modellek összehangolásával a saját építése helyett.
- A Poetiq meta-rendszere órákon belül képes alkalmazkodni az új modellekhez, így röviddel a Gemini 3 megjelenése után máris elérte a ranglista élét, mindenféle újratanítás nélkül.
- A Gemini 3 Pro-t alapmodellként használva a Poetiq finomító rendszere 54%-ot ért el feladatonként 30 dolláros költséggel – túlszárnyalva a Google legjobb változatát, a Deep Thinket, amely 45%-ot ért el 77 dollárért.
- Ez az eredmény az első olyan rendszer, amely áttörte az 50%-os határt az ARC-AGI-2-n, miközben a vezető modellek alig hat hónappal ezelőtt még az 5% elérésével is küzdöttek.
- A startup open-source szemléletű megközelítése LLM-eket használ saját kimeneteik folyamatos finomítására, egy beépített önellenőrző rendszerrel a minőségi megoldások biztosítása érdekében.
Miért fontos?
Az ARC-AGI-2-n elért haladás 5% alattról 50% fölé mindössze hónapok alatt jól mutatja, milyen gyorsan fejlődnek a dolgok. A Poetiq módszere olyan jövőt vetít előre, ahol az AI fejlődése egyszerre két irányból érkezik: a határterületi modellek fejlesztéséből és a rájuk épülő okos koordinációs rendszerekből, amelyeket hatalmas számítási kapacitás nélkül dolgozó csapatok hoznak létre.