MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A DeepSeek-OCR 2 az emberi logikai sorrendet utánozva javítja a dokumentumolvasást

A DeepSeek AI megjelentette a DeepSeek-OCR 2-t, egy továbbfejlesztett dokumentumolvasó rendszert, amely úgy értelmezi az oldalakat, ahogyan az emberek – logikai olvasási sorrendet követve a balról jobbra, fentről lefelé történő szkennelés helyett. A rendszer egy új, DeepEncoder-V2 nevű enkódert használ, amely a 2D dokumentumoldalakat vizuális tokenek rendezett sorozatává alakítja, majd továbbítja azokat egy szöveges dekódernek. Jelentősen jobb eredményeket ér el az eredeti verziónál, az összesített pontszámát 87,36-ról 91,09-re javítva a benchmark teszteken, miközben kevesebb vizuális tokent használ. A rendszert három szakaszban tanították OCR-intenzív adatokkal, az utolsó szakaszban az enkóder rögzítésével a tanítás gyorsítása érdekében.
Miért fontos?

A valós dokumentumokon, például tudományos publikációkon és könyveken a DeepSeek-OCR 2 túlteljesíti a versenytársakat, köztük a Gemini-3 Pro-t az olvasási sorrend és a szövegkivonatolás tekintetében. ---

Eredeti forrás megtekintése (angol) →