Továbbfejlesztett OCR-rendszert adott ki a DeepSeek, amely érti az összetett dokumentum-elrendezéseket

ADATPONTOK

Továbbfejlesztett OCR-rendszert adott ki a DeepSeek, amely érti az összetett dokumentum-elrendezéseket

2026. február 2. · MI Történik? · 1 perc olvasás

A DeepSeek AI megjelentette a DeepSeek-OCR 2-t, egy továbbfejlesztett dokumentumolvasó rendszert, amely az emberhez hasonlóan értelmezi az oldalakat – logikai olvasási sorrendet követve a balról jobbra, fentről lefelé történő letapogatás helyett. A rendszer egy DeepEncoder-V2 nevű kódolót használ, amely a 2D dokumentumoldalakat vizuális tokenek rendezett sorozatává alakítja, majd továbbítja azokat egy szöveges dekódolónak. Valós dokumentumokon, például tudományos dolgozatokon és könyveken, a DeepSeek-OCR 2 túlszárnyalja az olyan versenytársakat, mint a Gemini-3 Pro az olvasási sorrend és a szövegkivonatolás terén, bár a sűrű szedésű újságokkal még küzd.

A DeepEncoder-V2 segítségével alakítja az oldalakat vizuális tokenszekvenciákká
Javultak a benchmark pontszámok (87,36-ról 91,09-re), miközben kevesebb tokent használ
Három szakaszban tanították, beleértve egy OCR-intenzív végső szakaszt fagyasztott kódolóval
Jobban teljesít a Gemini-3 Pro-nál az olvasási sorrend és a szövegkivonatolási feladatok során

Miért fontos?

A rendszer jelentősen jobb eredményeket ér el az eredeti verziónál, javítva az összteljesítményt a benchmark teszteken, miközben kevesebb vizuális tokent használ a hatékonyabb, emberközpontú dokumentum-elemzéshez. ---

Eredeti forrás megtekintése (angol) →