A Meta Hyperagentje fokozza az LLM-ek önfejlesztését
A British Columbia Egyetem, a Vector Institute, az Edinburghi Egyetem, a New York-i Egyetem, a CIFAR és a Meta kutatói kifejlesztettek egy keretrendszert LLM-ek számára, amely képes önállóan javítani a teljesítményét tetszőleges feladatoknál. Az megközelítést hyperagentnek nevezik, és azt jelenti, hogy az LLM-nek egy olyan vázat adnak, amely iteratívan képes javítani az általa használt promptokat, hogy növelje a teljesítményét a feladatoknál, valamint a rendszert, amelyet a jövőbeni promptok generálásának javítására használ. A hyperagentek generációkon keresztül működnek, így egy hyperagent több hyperagentet hoz létre, és azok, amelyek a legjobban teljesítenek a feladatnál, maguk is további hyperagenteket fognak szülni, többrétegű AI genealógiát alkotva, amíg a teljesítmény telítődik. Az év cyberpunk neve díj: A Hyperagent valójában a "Darwin Godel Machine Hyperagents" rövidítése: Amellett, hogy a kutatás nagyszerű, gratulálok a szerzőknek egy olyan név kitalálásához, amelyet szívesen látnék lézersugárral a Holdra vésve egy szuperintelligencia által.
- Hogyan működnek a hyperagentek: A hyperagentek "önreferenciális ügynökök, amelyek egy feladatügynököt (amely megoldja a célfeladatot) és egy metaügynököt (amely önmagát és a feladatügynököt módosítja) integrálnak egyetlen szerkeszthető programba. Kulcsfontosságú, hogy a meta-szintű módosítási eljárás maga is szerkeszthető, lehetővé téve a metakognitív önmódosítást, javítva nemcsak a feladatmegoldó viselkedést, hanem a jövőbeni fejlesztéseket generáló mechanizmust is" – írják a kutatók. "Ez a kezdeti hyperagent két eszközzel van felszerelve: egy bash eszközzel shell parancsok végrehajtására, és egy speciális eszközzel a fájlok vizsgálatára és módosítására."
- Az ügynökök tesztelése négy különböző területen: A szerzők négy problémára alkalmazva tesztelték a hyperagenteket: kódolás (polyglot), predikció (paper review), robotika (robotics reward design) és matematikai megértés (olympiad-level math grading). A legtöbb probléma esetén a Hyperagentek Claude Sonnet 4.5-öt használnak alapmodellként, egy kivétellel (Polyglot). Az értékeléseket több különböző modell segítségével végzik: o3-mini (Polyglot), GPT-4o (paper review), Claude Sonnet 4.5 (robotics reward design) és o4-mini (IMO-level grading).
- Minden esetben a hyperagent megközelítés jelentősen javítja a teljesítményt az alapvonalhoz képest.
- Polyglot: "az ügynök egy kódrepositóriumot és egy természetes nyelvi utasítást kap, amely egy kívánt változást ír le, és ennek megfelelően kell módosítania a repozitóriumot".