GOT-OCR 2.0: Egységes, végponttól végpontig terjedő dokumentumkinyerési modell
Végre volt alkalmam felfedezni egy új dokumentumkinyerési technikát, amelyet tavaly szeptemberben mutattak be egy tanulmányban. Bónusz: a kód és a modell szabadon használható (Apache 2.0).
Ez az új megközelítés, a General OCR Theory (GOT-OCR2.0) egy egységes, végponttól végpontig terjedő modellt javasol, amely olyan feladatokat is kezel, amelyekkel a hagyományos OCR rendszerek nehezen birkóznak meg.
Ellentétben a hagyományos OCR-rel, amely komplex multi-moduláris pipeline-okra támaszkodik, a GOT egy egyszerű encoder-decoder architektúrát használ, mindössze 580 millió paraméterrel, amely 10-100-szor nagyobb modelleket is felülmúl.
Most próbáltam ki, és elképesztett, ahogy kezeli a komplex dokumentumokat vegyes tartalomtípusokkal. Már önmagában az a képesség, hogy a matematikai képleteket Arxiv PDF-ekből Mathpix formátumba konvertálja, érdemessé teszi a modell felfedezését.
- Egységes architektúra – egy nagy tömörítési encoder egy hosszú kontextusú decoderrel párosítva, amely mindent kezel a képi szövegtől a komplex képletekig
- Lenyűgöző teljesítmény – közel tökéletes szövegpontosságot biztosít a dokumentumokon, felülmúlva a Qwen-VL-Max (>72B) és más vezető modelleket
- Sokoldalúság a szövegen túl – matematikai képleteket, molekuláris struktúrákat és még geometriai alakzatokat is feldolgoz
- Interaktív képességek – támogatja a régiószintű felismerést koordináták vagy színek alapján
Miért fontos?
Ami a legjobban lenyűgöz a GOT-ban, az az, hogy megkérdőjelezi azt az elképzelést, miszerint csak a milliárd paraméteres LLM-ek képesek komplex vizuális feladatok kezelésére.