GOT-OCR 2.0: Egységes, végponttól végpontig terjedő dokumentumkinyerési modell

2025. április 6. · MI Történik? · 1 perc olvasás

Végre volt alkalmam felfedezni egy új dokumentumkinyerési technikát, amelyet tavaly szeptemberben mutattak be egy tanulmányban. Bónusz: a kód és a modell szabadon használható (Apache 2.0). Ez az új megközelítés, a General OCR Theory (GOT-OCR2.0) egy egységes, végponttól végpontig terjedő modellt javasol, amely olyan feladatokat is kezel, amelyekkel a hagyományos OCR rendszerek nehezen birkóznak meg. Ellentétben a hagyományos OCR-rel, amely komplex multi-moduláris pipeline-okra támaszkodik, a GOT egy egyszerű encoder-decoder architektúrát használ, mindössze 580 millió paraméterrel, amely 10-100-szor nagyobb modelleket is felülmúl. Most próbáltam ki, és elképesztett, ahogy kezeli a komplex dokumentumokat vegyes tartalomtípusokkal. Már önmagában az a képesség, hogy a matematikai képleteket Arxiv PDF-ekből Mathpix formátumba konvertálja, érdemessé teszi a modell felfedezését.

Egységes architektúra – egy nagy tömörítési encoder egy hosszú kontextusú decoderrel párosítva, amely mindent kezel a képi szövegtől a komplex képletekig
Lenyűgöző teljesítmény – közel tökéletes szövegpontosságot biztosít a dokumentumokon, felülmúlva a Qwen-VL-Max (>72B) és más vezető modelleket
Sokoldalúság a szövegen túl – matematikai képleteket, molekuláris struktúrákat és még geometriai alakzatokat is feldolgoz
Interaktív képességek – támogatja a régiószintű felismerést koordináták vagy színek alapján

Miért fontos?

Ami a legjobban lenyűgöz a GOT-ban, az az, hogy megkérdőjelezi azt az elképzelést, miszerint csak a milliárd paraméteres LLM-ek képesek komplex vizuális feladatok kezelésére.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Mondo Robotics bemutatta Benit, az autonóm kamerarobotot tartalomgyártók számára

4 órája

A Booster Robotics humanoidja falat is átütő rúgással debütált a futballbemutatón

7 órája

Az Aceii A1 mobil teniszrobot dinamikus AI-edzést kínál

7 órája

Tudj meg többet

Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?