A HATÁRRÓL
A Harvard kiadott egy egymillió könyves AI adatgyűjteményt LLM képzéshez
Az átlagember élete során körülbelül 700 könyvet olvas el. De az AI számára ez olyan, mint egy gyors pillantás a reggeli újságra. Bár az LLM-ek teljesen más léptékben dolgoznak, a jó képzési anyaghoz nehéz hozzájutni. Gyakran szerzői jogi problémákkal – vagy csak egy rendszerezetlen adathalmazzal – jár. Így az OpenAI és a Microsoft segítségével a Harvard előállt egy megoldással: egy új, nyilvános adatgyűjteménnyel, amely közel egymillió címet tartalmaz – Shakespeare-től Dickensig, Dante-ig – alapvetően egy kaotikus, könyvekkel teli raktárat rendezett könyvtárrá alakítva. Összehasonlításképpen, a Wired jelentése szerint ez körülbelül ötszöröse annak a nyomtatott tartalomnak, amelyet a Meta Llama modelljeinek képzéséhez használtak.
Miért fontos?
A kezdeményezés „kiegyenlítheti a feltételeket”, több startupnak és kutatócsoportnak adva lehetőséget saját modelljeik építésére. Ezután a Harvard más közkincs tartalmakra is áttér, például a Boston Public Library által gyűjtött hírcikkekre.