Új kutatások rávilágítanak a vezető multimodális modellek jelentős hibáira vizuális feladatok során

VIZUÁLIS AI

Új kutatások rávilágítanak a vezető multimodális modellek jelentős hibáira vizuális feladatok során

2024. július 11. · MI Történik? · 1 perc olvasás

Kutatók megállapították, hogy a legkorszerűbb látásfunkciókkal rendelkező LLM-ek, mint a GPT-4o és a Gemini 1.5, alapvető vizuális feladatokkal is küszködnek, annak ellenére, hogy a benchmark teszteken kiválóan teljesítenek. Ez arra utal, hogy jelenlegi látásképességük súlyos rövidlátáshoz vagy "intelligens vaksághoz" hasonlítható.

A GPT-4o és a Gemini 1.5 kudarcot vall az alapvető vizuális érvelési feladatokban
Rávilágít a szakadékra a benchmark sikerek és a valódi vizuális megértés között
A korlátot "intelligens vakságnak" (intelligent blindness) nevezi a multimodális modelleknél

Eredeti forrás megtekintése (angol) →