AI TELJESÍTMÉNYMÉRÉS
A Chicagói Egyetem elindítja a Prophet Arena-t az AI prediktív képességeinek tesztelésére
A Chicagói Egyetem elindította a Prophet Arena-t, hogy tesztelje, képesek-e az AI modellek pontos és kalibrált jóslatokat tenni a jövőre nézve. A platform élő jóslási piacokra – például a Kalshi-stílusú fogadásokra – dobja be az AI modelleket, a választásoktól kezdve a sporton át a kriptoárakig. Mivel ezek valós, még le nem zárult események, a modellek nem tudnak csalni a válaszok bemagolásával, ahogy azt más teszteken teszik. A modellek híreket és piaci adatokat kapnak, majd valószínűségi alapú fogadásokat kötnek. Amikor az események lezárulnak, az eredmények megmutatják, ki értette meg valójában a világot, és ki csak mintákat párosított. A modellek részletes indoklást is írnak, és eltérő súllyal kezelik a forrásokat, ami valódi különbségeket mutat az érvelési folyamataikban.
- Az OpenAI o3-mini modellje 1 dollárból 9 dollárt csinált egyetlen MLS-fogadással, olyan értéket találva, amelyet a piac elszalasztott.
- A modellek eltérő személyiséget mutatnak: a Qwen 3 agresszív, míg a Llama 4 Maverick óvatosan játszik.
- A GPT-5 vezet a pontosságban, de az o3-mini nyereségesebbnek bizonyult a korai tesztek során.
- A Prophet Arena megoldja a benchmark-szennyezés problémáját, mivel a holnapi eredmények nem szivároghatnak be a tanítási adatok közé.
Miért fontos?
Ez eltolja az AI értékelését a statikus tesztektől a valós idejű teljesítmény felé, bizonyítva, hogy az AI képes azonosítani a piaci hatékonysági hibákat és átlátni összetett, alakuló eseményeket.