MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

GOT-OCR 2.0: Egységes, végponttól végpontig terjedő dokumentumkinyerési modell

Végre volt alkalmam felfedezni egy új dokumentumkinyerési technikát, amelyet tavaly szeptemberben mutattak be egy tanulmányban. Bónusz: a kód és a modell szabadon használható (Apache 2.0). Ez az új megközelítés, a General OCR Theory (GOT-OCR2.0) egy egységes, végponttól végpontig terjedő modellt javasol, amely olyan feladatokat is kezel, amelyekkel a hagyományos OCR rendszerek nehezen birkóznak meg. Ellentétben a hagyományos OCR-rel, amely komplex multi-moduláris pipeline-okra támaszkodik, a GOT egy egyszerű encoder-decoder architektúrát használ, mindössze 580 millió paraméterrel, amely 10-100-szor nagyobb modelleket is felülmúl. Most próbáltam ki, és elképesztett, ahogy kezeli a komplex dokumentumokat vegyes tartalomtípusokkal. Már önmagában az a képesség, hogy a matematikai képleteket Arxiv PDF-ekből Mathpix formátumba konvertálja, érdemessé teszi a modell felfedezését.
Miért fontos?

Ami a legjobban lenyűgöz a GOT-ban, az az, hogy megkérdőjelezi azt az elképzelést, miszerint csak a milliárd paraméteres LLM-ek képesek komplex vizuális feladatok kezelésére.

Eredeti forrás megtekintése (angol) →