A Meta Hyperagentjei szerkeszthető rekurzív hurkokon keresztül teszik lehetővé az LLM-ek önfejlesztését
A Meta egy keretrendszert használ az Anthropic modelljeinek önfejlesztésre ösztönzésére:…Adjunk az LLM-nek eszközöket és egy rekurzív hurkot, valamint a képességet, hogy szerkessze a keretrendszerét, lépjünk hátra, és hagyjuk, hogy megtörténjen a varázslat…
A British Columbia-i Egyetem, a Vector Institute, az Edinburgh-i Egyetem, a New York-i Egyetem, a CIFAR és a Meta kutatói olyan keretrendszert építettek az LLM-ek számára, amely képes önállóan javítani a teljesítményt tetszőleges feladatok esetén. Az eljárást hyperagentnek nevezik, és azt jelenti, hogy az LLM-nek egy olyan keretet adnak, amely iteratívan képes javítani a feladatok teljesítéséhez használt promptokat, valamint azt a rendszert, amelyet a jövőbeli promptok generálásának javítására használ. A hyperagentek generációkon keresztül működnek, így egy hyperagent néhány hyperagentet hoz létre, és azok, amelyek a legjobban teljesítenek a feladatban, maguk is további hyperagenteket fognak szülni, így az AI genealógia több rétegét alkotva, amíg a teljesítmény telítődik.
Az év cyberpunk neve díj: A Hyperagent valójában a „Darwin Godel Machine Hyperagents” rövidítése: Amellett, hogy a kutatás menő, gratulálok a szerzőknek, hogy olyan nevet találtak ki, amelyet szívesen látnék lézerfénnyel a Holdba vésve, egy szuperintelligencia által.
- A hyperagentek „önreferenciális ágensek, amelyek egy feladatágenset (amely megoldja a célfeladatot) és egy meta ágenst (amely módosítja önmagát és a feladatágenset) integrálnak egyetlen szerkeszthető programmá.
- Lényeges, hogy a meta-szintű módosítási eljárás maga is szerkeszthető, lehetővé téve a metakognitív önmódosítást, javítva nemcsak a feladatmegoldási viselkedést, hanem a jövőbeli fejlesztéseket generáló mechanizmust is.”
- Az eredeti hyperagent két eszközzel van felszerelve: egy bash eszközzel shell parancsok végrehajtására, és egy speciális eszközzel fájlok ellenőrzésére és módosítására.
- Négy különböző területen tesztelték: kódolás (polyglot), előrejelzés (paper review), robotika (robotics reward design) és matematikai megértés (olimpiai szintű matematika osztályozás).
- A legtöbb probléma esetén a Hyperagentek Claude Sonnet 4.5-öt használnak alapmodellként, egy kivétellel (Polyglot).
- Az értékeléseket több különböző modell segítségével végzik: o3-mini (Polyglot), GPT-4o (paper review), Claude Sonnet 4.5 (robotics reward design) és o4-mini (IMO-szintű osztályozás).
- Minden esetben a hyperagent megközelítés jelentősen javítja a teljesítményt az alapvonalhoz képest.