MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Harvard közzétette az Institutional Books 1.0 adatkészletet 242 milliárd tokennel

Még 2006-ban a Google és a Harvard együttműködött mintegy 1 millió különálló könyv beszkennelésében. Most, közel húsz évvel később, a Harvard Law School kutatói visszakeresték a digitalizált könyveket, gondosan elemezték és LLM-ek által feldolgozható szöveggé alakították őket, majd az adatok egy részét ingyenesen közzétették. Az Institutional Books 1.0 első kiadása 983 000 különálló kötetet tartalmaz, ami körülbelül 242 milliárd tokennyi szöveget jelent. (Összehasonlításképpen: a modern, nagy léptékű LLM-eket nagyságrendileg 15-20 billió tokennyi szövegen tanítják). A szerzők úgy vélik, hogy ez a szöveg mind közkincsnek (public domain) minősül, és a tanulmány részletezi is ennek menetét, bár figyelmeztetnek, hogy a végfelhasználóknak ezt maguknak is ellenőrizniük kell. A teljes gyűjtemény 1 075 899 kötetet ölel fel, 250 különböző nyelven.
Miért fontos?

Az ehhez hasonló tanulmányok rávilágítanak arra, hogy a régi intézmények, például a könyvtárak, hogyan használhatják fel hatalmas adatvagyonaikat és archív tudásukat olyan adatkészletek létrehozására, amelyek segítenek az AI rendszereknek elsajátítani az emberiség kollektív bölcsességének nagyobb részét. Ez egy olyan intézményi közvagyont vetít előre, amely egyensúlyt teremt a nagy léptékű tanítási igények, valamint az adatok integritása és gondozása között. ---

Eredeti forrás megtekintése (angol) →