MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Továbbfejlesztett OCR-rendszert adott ki a DeepSeek, amely érti az összetett dokumentum-elrendezéseket

A DeepSeek AI megjelentette a DeepSeek-OCR 2-t, egy továbbfejlesztett dokumentumolvasó rendszert, amely az emberhez hasonlóan értelmezi az oldalakat – logikai olvasási sorrendet követve a balról jobbra, fentről lefelé történő letapogatás helyett. A rendszer egy DeepEncoder-V2 nevű kódolót használ, amely a 2D dokumentumoldalakat vizuális tokenek rendezett sorozatává alakítja, majd továbbítja azokat egy szöveges dekódolónak. Valós dokumentumokon, például tudományos dolgozatokon és könyveken, a DeepSeek-OCR 2 túlszárnyalja az olyan versenytársakat, mint a Gemini-3 Pro az olvasási sorrend és a szövegkivonatolás terén, bár a sűrű szedésű újságokkal még küzd.
Miért fontos?

A rendszer jelentősen jobb eredményeket ér el az eredeti verziónál, javítva az összteljesítményt a benchmark teszteken, miközben kevesebb vizuális tokent használ a hatékonyabb, emberközpontú dokumentum-elemzéshez. ---

Eredeti forrás megtekintése (angol) →