Az OpenAI elindította a Health Bench-et a modellek orvosi feladatokon való tesztelésére

2025. május 13. · MI Történik? · 1 perc olvasás

OpenAI frissítések: Health Bench – egy új benchmark, amely azt vizsgálja, mennyire hatékonyak a modellek a vészhelyzetek jelzésében, az egészségügyi adatfeldolgozásban, a pontos kommunikációban és egyéb területeken. Az o3 végzett az első helyen, a Grok a második, a Gemini 2.5 Pro pedig szinte ugyanazon a szinten teljesített.

Teszteli a modellek képességét az egészségügyi vészhelyzetek felismerésére
Értékeli az egészségügyi adatfeldolgozás pontosságát
Méri a kommunikáció hatékonyságát orvosi kontextusban
Az o3 lett a legjobb teljesítményt nyújtó modell, melyet a Grok és a Gemini 2.5 Pro követ

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az OpenAI elindítja az o3 Pro-t és drasztikusan csökkenti az o3 API árait

2025. június 12.

A Mistral kiadta a Magistral reasoning modelleket és vállalati infrastruktúráját

2025. június 12.

A ByteDance bemutatta a SeedDance videómodellt a Veo-3 riválisaként

2025. június 12.

Tudj meg többet

OpenAI Sora: AI videógenerálás – minden, amit tudni kell

OpenAI: A ChatGPT mögötti cég – történet, termékek, jövőkép