Hírek, amikről érdemes tudni
Az OpenAI elindította a Health Bench-et a modellek orvosi feladatokon való tesztelésére
OpenAI frissítések: Health Bench – egy új benchmark, amely azt vizsgálja, mennyire hatékonyak a modellek a vészhelyzetek jelzésében, az egészségügyi adatfeldolgozásban, a pontos kommunikációban és egyéb területeken. Az o3 végzett az első helyen, a Grok a második, a Gemini 2.5 Pro pedig szinte ugyanazon a szinten teljesített.
- Teszteli a modellek képességét az egészségügyi vészhelyzetek felismerésére
- Értékeli az egészségügyi adatfeldolgozás pontosságát
- Méri a kommunikáció hatékonyságát orvosi kontextusban
- Az o3 lett a legjobb teljesítményt nyújtó modell, melyet a Grok és a Gemini 2.5 Pro követ