AI MODELLEK
A DeepSeek-OCR 2 az emberi logikai sorrendet utánozva javítja a dokumentumolvasást
A DeepSeek AI megjelentette a DeepSeek-OCR 2-t, egy továbbfejlesztett dokumentumolvasó rendszert, amely úgy értelmezi az oldalakat, ahogyan az emberek – logikai olvasási sorrendet követve a balról jobbra, fentről lefelé történő szkennelés helyett. A rendszer egy új, DeepEncoder-V2 nevű enkódert használ, amely a 2D dokumentumoldalakat vizuális tokenek rendezett sorozatává alakítja, majd továbbítja azokat egy szöveges dekódernek. Jelentősen jobb eredményeket ér el az eredeti verziónál, az összesített pontszámát 87,36-ról 91,09-re javítva a benchmark teszteken, miközben kevesebb vizuális tokent használ. A rendszert három szakaszban tanították OCR-intenzív adatokkal, az utolsó szakaszban az enkóder rögzítésével a tanítás gyorsítása érdekében.
- A DeepEncoder-V2 segítségével az oldalakat rendezett vizuális tokenszekvenciákká alakítja
- A benchmark pontszámokat 87,36-ról 91,09-re javítja
- Kevesebb vizuális tokent használ az előző verzióhoz képest
- Túlteljesíti a Gemini-3 Pro-t az olvasási sorrend és a szövegkivonatolás terén tudományos publikációk esetében
- A jelenlegi korlátok közé tartozik a nehézség a nagyon sűrű újságelrendezések olvasásakor
Miért fontos?
A valós dokumentumokon, például tudományos publikációkon és könyveken a DeepSeek-OCR 2 túlteljesíti a versenytársakat, köztük a Gemini-3 Pro-t az olvasási sorrend és a szövegkivonatolás tekintetében. ---