ADATPONTOK
Továbbfejlesztett OCR-rendszert adott ki a DeepSeek, amely érti az összetett dokumentum-elrendezéseket
A DeepSeek AI megjelentette a DeepSeek-OCR 2-t, egy továbbfejlesztett dokumentumolvasó rendszert, amely az emberhez hasonlóan értelmezi az oldalakat – logikai olvasási sorrendet követve a balról jobbra, fentről lefelé történő letapogatás helyett. A rendszer egy DeepEncoder-V2 nevű kódolót használ, amely a 2D dokumentumoldalakat vizuális tokenek rendezett sorozatává alakítja, majd továbbítja azokat egy szöveges dekódolónak. Valós dokumentumokon, például tudományos dolgozatokon és könyveken, a DeepSeek-OCR 2 túlszárnyalja az olyan versenytársakat, mint a Gemini-3 Pro az olvasási sorrend és a szövegkivonatolás terén, bár a sűrű szedésű újságokkal még küzd.
- A DeepEncoder-V2 segítségével alakítja az oldalakat vizuális tokenszekvenciákká
- Javultak a benchmark pontszámok (87,36-ról 91,09-re), miközben kevesebb tokent használ
- Három szakaszban tanították, beleértve egy OCR-intenzív végső szakaszt fagyasztott kódolóval
- Jobban teljesít a Gemini-3 Pro-nál az olvasási sorrend és a szövegkivonatolási feladatok során
Miért fontos?
A rendszer jelentősen jobb eredményeket ér el az eredeti verziónál, javítva az összteljesítményt a benchmark teszteken, miközben kevesebb vizuális tokent használ a hatékonyabb, emberközpontú dokumentum-elemzéshez. ---