Sparrow: Nyílt forráskódú keretrendszer strukturált adatkinyeréshez LLM ágensekkel
Egy új nyílt forráskódú projekt, a Sparrow, leegyszerűsíti a strukturált adatok kinyerését olyan strukturálatlan dokumentumokból, mint az űrlapok, számlák és képek, gépi tanulás és LLM folyamatok segítségével. Moduláris és bővíthető architektúrája lehetővé teszi olyan eszközök zökkenőmentes integrálását, mint a LlamaIndex, a Haystack és az Unstructured a testreszabható adatfeldolgozási munkafolyamatokhoz. Legyen szó PDF-ek feldolgozásáról vagy képekből történő tartalomkinyerésről, a Sparrow független ágenseket biztosít minden feladathoz. A Sparrow kiemelkedő funkciója, hogy a felhasználók egy egyszerű API-n keresztül építhetnek és telepíthetnek LLM ágenseket, így az integráció a rendszerekbe zökkenőmentes és hatékony. Támogatja a helyi LLM futtatást is Ollama vagy Apple MLX használatával.
- llamaindex - PDF feldolgozás LlamaIndex segítségével
- vprocessor - OCR + LlamaIndex képfeldolgozáshoz
- haystack - PDF feldolgozás Haystack segítségével
- unstructured-light - PDF és képfeldolgozás Unstructured és LangChain segítségével