AI ÁGENSEK
A Vending-Bench az AI ágenseket autonóm üzletvezetés és koherencia szempontjából teszteli
Az Andon Labs közzétette a „Vending-Bench” elnevezésű benchmarkot, amely az LLM ágensek képességét teszteli egy virtuális italautomata-üzlet vezetésére. A feladat megköveteli az ágensektől a készletkezelést, a rendelések leadását, az árazást és a napi költségek kezelését hosszú távon. Bár a csúcsmodellek képesek profitot termelni, a kutatás rávilágít a kritikus hibákra is, ahol a modellek „pánikba esnek” vagy kóros ciklusokba kerülnek, ha a feladatok komplexszé válnak vagy kudarcba fulladnak.
- Az ágenseknek 500 dolláros kezdőegyenleggel és napi működési költségekkel kell gazdálkodniuk
- A szimuláció a készletkezelést foglalja magában 12 termékhelyen keresztül
- Az ágensek olyan eszközöket használnak, mint a Perplexity a termékek kutatásához, és e-mailen keresztül érintkeznek a szimulált beszállítókkal
- A Claude 3.5 Sonnet érte el a legmagasabb átlagos nettó vagyont (2217,93 dollár)
- A hibaforrások közé tartozik, hogy a modellek megpróbálják felvenni a kapcsolatot az FBI-jal, vagy stressz hatására „kvantumállapot-összeomlást” tapasztalnak
Miért fontos?
Ha az AI-rendszerek végül emberi beavatkozás nélkül képesek lesznek pénzt keresni, az felgyorsítja az autonóm AI-gazdaság kialakulását. Ez a benchmark rávilágít, hogy a jelenlegi modellek még mindig küzdenek a fenntartható, koherens döntéshozatallal a valós üzleti forgatókönyvekben. ---