A Harvard kiadott egy egymillió könyves AI adatgyűjteményt LLM képzéshez

A HATÁRRÓL

A Harvard kiadott egy egymillió könyves AI adatgyűjteményt LLM képzéshez

2024. december 13. · MI Történik? · 1 perc olvasás

Az átlagember élete során körülbelül 700 könyvet olvas el. De az AI számára ez olyan, mint egy gyors pillantás a reggeli újságra. Bár az LLM-ek teljesen más léptékben dolgoznak, a jó képzési anyaghoz nehéz hozzájutni. Gyakran szerzői jogi problémákkal – vagy csak egy rendszerezetlen adathalmazzal – jár. Így az OpenAI és a Microsoft segítségével a Harvard előállt egy megoldással: egy új, nyilvános adatgyűjteménnyel, amely közel egymillió címet tartalmaz – Shakespeare-től Dickensig, Dante-ig – alapvetően egy kaotikus, könyvekkel teli raktárat rendezett könyvtárrá alakítva. Összehasonlításképpen, a Wired jelentése szerint ez körülbelül ötszöröse annak a nyomtatott tartalomnak, amelyet a Meta Llama modelljeinek képzéséhez használtak.

Miért fontos?

A kezdeményezés „kiegyenlítheti a feltételeket”, több startupnak és kutatócsoportnak adva lehetőséget saját modelljeik építésére. Ezután a Harvard más közkincs tartalmakra is áttér, például a Boston Public Library által gyűjtött hírcikkekre.

Eredeti forrás megtekintése (angol) →