MÉLYMERÜLÉS
Dokumentumfeldolgozás forradalmasítása multimodális GPT-4V-vel
2020 júniusában az OpenAI leleplezte a GPT-3-at. A dokumentumfeldolgozás veteránjaként régóta felismertem az uralkodó dokumentum-kinyerési technológiák korlátait, amelyek nagyban a merev, szabályalapú logikára támaszkodtak. Azon tűnődtem, vajon a nyelvi modellek jelenthetik-e a választ az intelligens adatkinyerésre. És valóban, azok voltak. Ami mellékprojektként indult, az AirPaper nevű vállalkozássá nőtte ki magát. Akkoriban a GPT-3 volt a legmodernebb nyelvi modell, és csak egy API hívásnyira volt. A fő kihívást az jelentette, hogy a GPT-3 drága volt – 55-szöröse a mai GPT-3.5 Turbo árának –, és apró, 2048 tokenes kontextusablakkal rendelkezett a mai 32k-hoz képest.
Egy másik kihívást az jelentett, hogy a nyelvi modellek, még ha jól is teljesítenek, csak a szöveggel tudnak mit kezdeni. Ez kiterjedt előfeldolgozási fázist igényelt a dokumentumok GPT-re való felkészítéséhez: szöveg kinyerése OCR segítségével, olyan strukturálás, amely illeszkedik a GPT korlátozott kontextusablakába, és a GPT kimenetének intelligens leképezése a releváns mezőkre, például számlaszámokra vagy áfa-összegekre egy számlán. A dokumentum-intelligencia területe hatalmas változásokon ment keresztül az elmúlt években, az alapul szolgáló technológia pedig fokozatosan hétköznapi árucikké (commoditized) vált. Egyre több élvonalbeli könyvtárat adtak ki, többségüket kereskedelmi forgalomban is használható licenccel. Azóta megérkezett a nagy teljesítményű multimodális AI a LLaVA és a GPT-4V formájában, lehetővé téve, hogy a dokumentumok képeit közvetlenül strukturált adatokká alakítsuk.
- Donut: Egy élvonalbeli dokumentumfeldolgozó könyvtár
- PaddleOCR: Egy nyílt forráskódú eszközkészlet OCR-hez és dokumentum-kinyeréshez
- layoutlm-document-qa: A Microsoft modellje dokumentumalapú kérdés-válaszhoz
- Deepdoctection: Keretrendszer dokumentumképek elemzéséhez
- LayoutLMv3: Nagy teljesítményű modell (nem kereskedelmi használatra)
- GPT-4V: Egy multimodális modell, amely képes dokumentumképek elemzésére szöveges előfeldolgozás nélkül
Miért fontos?
Az olyan multimodális AI, mint a GPT-4V, megmutatja a lehetőséget a hagyományos dokumentumfeldolgozó ipar elavulttá tételére azáltal, hogy szükségtelenné teszi a merev szabályalapú logikát és a kiterjedt OCR előfeldolgozást, lehetővé téve a képek strukturált adatokká történő közvetlen konvertálását.