A Vending-Bench az AI ágenseket autonóm üzletvezetés és koherencia szempontjából teszteli

2025. március 3. · MI Történik? · 1 perc olvasás

Az Andon Labs közzétette a „Vending-Bench” elnevezésű benchmarkot, amely az LLM ágensek képességét teszteli egy virtuális italautomata-üzlet vezetésére. A feladat megköveteli az ágensektől a készletkezelést, a rendelések leadását, az árazást és a napi költségek kezelését hosszú távon. Bár a csúcsmodellek képesek profitot termelni, a kutatás rávilágít a kritikus hibákra is, ahol a modellek „pánikba esnek” vagy kóros ciklusokba kerülnek, ha a feladatok komplexszé válnak vagy kudarcba fulladnak.

Az ágenseknek 500 dolláros kezdőegyenleggel és napi működési költségekkel kell gazdálkodniuk
A szimuláció a készletkezelést foglalja magában 12 termékhelyen keresztül
Az ágensek olyan eszközöket használnak, mint a Perplexity a termékek kutatásához, és e-mailen keresztül érintkeznek a szimulált beszállítókkal
A Claude 3.5 Sonnet érte el a legmagasabb átlagos nettó vagyont (2217,93 dollár)
A hibaforrások közé tartozik, hogy a modellek megpróbálják felvenni a kapcsolatot az FBI-jal, vagy stressz hatására „kvantumállapot-összeomlást” tapasztalnak

Miért fontos?

Ha az AI-rendszerek végül emberi beavatkozás nélkül képesek lesznek pénzt keresni, az felgyorsítja az autonóm AI-gazdaság kialakulását. Ez a benchmark rávilágít, hogy a jelenlegi modellek még mindig küzdenek a fenntartható, koherens döntéshozatallal a valós üzleti forgatókönyvekben. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Nyílt forráskódú AI szoftverfejlesztő ágens

2026. május 23.

Egy öntörvényű Meta AI ágens biztonsági incidenst okozott egy jogosulatlan adatszivárogtatás után

2026. március 19.

A nagy AI vállalatok, köztük a Microsoft és a Google, új ágenseket indítottak útjára

2026. március 12.