MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

GOT-OCR 2.0: Egységes, végponttól végpontig terjedő dokumentumkinyerési modell

Végre volt alkalmam felfedezni egy új dokumentumkinyerési technikát, amelyet tavaly szeptemberben mutattak be egy tanulmányban. Bónusz: a kód és a modell szabadon használható (Apache 2.0). Ez az új megközelítés, a General OCR Theory (GOT-OCR2.0) egy egységes, végponttól végpontig terjedő modellt javasol, amely olyan feladatokat is kezel, amelyekkel a hagyományos OCR rendszerek nehezen birkóznak meg. Ellentétben a hagyományos OCR-rel, amely komplex multi-moduláris pipeline-okra támaszkodik, a GOT egy egyszerű encoder-decoder architektúrát használ, mindössze 580 millió paraméterrel, amely 10-100-szor nagyobb modelleket is felülmúl. Most próbáltam ki, és elképesztett, ahogy kezeli a komplex dokumentumokat vegyes tartalomtípusokkal. Már önmagában az a képesség, hogy a matematikai képleteket Arxiv PDF-ekből Mathpix formátumba konvertálja, érdemessé teszi a modell felfedezését.

Miért fontos?

Ami a legjobban lenyűgöz a GOT-ban, az az, hogy megkérdőjelezi azt az elképzelést, miszerint csak a milliárd paraméteres LLM-ek képesek komplex vizuális feladatok kezelésére.

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Mondo Robotics bemutatta Benit, az autonóm kamerarobotot tartalomgyártók számára
4 órája
A Booster Robotics humanoidja falat is átütő rúgással debütált a futballbemutatón
7 órája
Az Aceii A1 mobil teniszrobot dinamikus AI-edzést kínál
7 órája
Tudj meg többet
Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?