Az Anthropic AI-ja szétzilálja saját műszaki interjú-tesztjeit

2026. február 2. · MI Történik? · 2 perc olvasás

Ami a műszaki toborzást illeti, az AI-cégek vörös királynő versenyben vannak saját rendszereikkel – a toborzóknak és az interjúk tervezőinek egyre keményebben kell dolgozniuk, csak hogy lépést tartsanak (és ideális esetben felülmúlják) a modern AI-rendszerek képességeit. Az Anthropic sem kivétel – egy új blogbejegyzésben a vállalat megosztja, hogy az AI-képességek szüntelen előrehaladása hogyan zilálta szét ismételten az egyik legnehezebb műszaki interjújukat, és tette szükségessé annak újratervezését. „2024 eleje óta a teljesítménymérnöki csapatunk egy otthon elvégezhető tesztet használ, ahol a jelöltek egy szimulált gyorsítóhoz optimalizálják a kódot. Több mint 1000 jelölt fejezte be, és most már tucatnyian dolgoznak itt, köztük olyan mérnökök is, akik beüzemelték a Trainium klaszterünket és a Claude 3 Opus óta minden modellt leszállítottak” – írja az Anthropic. „De minden új Claude modell arra kényszerített minket, hogy újratervezzük a tesztet. Azonos időkorlát mellett a Claude Opus 4 felülmúlta a legtöbb emberi jelentkezőt. Ez még lehetővé tette számunkra a legerősebb jelöltek megkülönböztetését – de aztán a Claude Opus 4.5 még azokat is felülmúlta. Az emberek még mindig felülmúlhatják a modelleket korlátlan idő esetén, de az otthon elvégezhető teszt korlátai között már nem tudtuk megkülönböztetni a legjobb jelöltjeink és a legképzettebb modellünk teljesítményét.”

Miért fontos?

Miért fontos ez? Az AI segíthet nekünk azonosítani azokat az egyedi emberi készségeket, amelyek kihasználják az AI-t: Az Anthropic esetében találtak egy módot, hogy továbbra is túlszárnyalják rendszereiket egy sokkal furcsább, az Zachtronics programozási puzzle-játékai által lazán inspirált, otthon elvégezhető teszt megtervezésével. Bizonyos értelemben ez egy kísérlet arra, hogy „kilépjenek a keretek közül” az AI kijátszására, miközben továbbra is van egy olyan teszt, amely értékelési jelként szolgál az emberi jelentkezők számára. Az ösztönöm azt súgja, hogy ez maga is szolgálhat a jövőben egy csodálatos aggregált adatkészletként annak felderítésére, hogy hol van az emberi komparatív előny – ahol itt implicit módon ez a teszt az emberek AI-kkal szembeni erős általánosítási előnyét használja ki. Milyen lenne összegyűjteni 1000, az AI számára nehéz tesztet az összes különböző cégtől, amelyek ezzel a problémával küzdenek? Mit tanulhatnánk ebből önmagunkról és arról, hogy mi tesz minket egyedivé a gépekhez képest? Izgalmas gondolatok! ---

Eredeti forrás megtekintése (angol) →