VIZUÁLIS AI
Új kutatások rávilágítanak a vezető multimodális modellek jelentős hibáira vizuális feladatok során
Kutatók megállapították, hogy a legkorszerűbb látásfunkciókkal rendelkező LLM-ek, mint a GPT-4o és a Gemini 1.5, alapvető vizuális feladatokkal is küszködnek, annak ellenére, hogy a benchmark teszteken kiválóan teljesítenek. Ez arra utal, hogy jelenlegi látásképességük súlyos rövidlátáshoz vagy "intelligens vaksághoz" hasonlítható.
- A GPT-4o és a Gemini 1.5 kudarcot vall az alapvető vizuális érvelési feladatokban
- Rávilágít a szakadékra a benchmark sikerek és a valódi vizuális megértés között
- A korlátot "intelligens vakságnak" (intelligent blindness) nevezi a multimodális modelleknél