AI ADATKÉSZLETEK
A Harvard közzétette az Institutional Books 1.0 adatkészletet 242 milliárd tokennel
Még 2006-ban a Google és a Harvard együttműködött mintegy 1 millió különálló könyv beszkennelésében. Most, közel húsz évvel később, a Harvard Law School kutatói visszakeresték a digitalizált könyveket, gondosan elemezték és LLM-ek által feldolgozható szöveggé alakították őket, majd az adatok egy részét ingyenesen közzétették. Az Institutional Books 1.0 első kiadása 983 000 különálló kötetet tartalmaz, ami körülbelül 242 milliárd tokennyi szöveget jelent. (Összehasonlításképpen: a modern, nagy léptékű LLM-eket nagyságrendileg 15-20 billió tokennyi szövegen tanítják). A szerzők úgy vélik, hogy ez a szöveg mind közkincsnek (public domain) minősül, és a tanulmány részletezi is ennek menetét, bár figyelmeztetnek, hogy a végfelhasználóknak ezt maguknak is ellenőrizniük kell. A teljes gyűjtemény 1 075 899 kötetet ölel fel, 250 különböző nyelven.
- Az adatkészlet 983 000 különálló kötetet és körülbelül 242 milliárd tokent tartalmaz.
- A kutatók kinyerték és feldolgozták a köteteket egy alaposan dokumentált, történelmi szövegeket tartalmazó adatkészletté.
- A gyűjtemény 250 különböző nyelven íródott szövegeket fed le.
- A kutatók úgy vélik, hogy a gyűjtemény közkincs, de javasolják a felhasználói ellenőrzést.
Miért fontos?
Az ehhez hasonló tanulmányok rávilágítanak arra, hogy a régi intézmények, például a könyvtárak, hogyan használhatják fel hatalmas adatvagyonaikat és archív tudásukat olyan adatkészletek létrehozására, amelyek segítenek az AI rendszereknek elsajátítani az emberiség kollektív bölcsességének nagyobb részét. Ez egy olyan intézményi közvagyont vetít előre, amely egyensúlyt teremt a nagy léptékű tanítási igények, valamint az adatok integritása és gondozása között. ---