AI ADATKÉSZLETEK
A Meta kiadta a BlenderBot 3x modellt és egy hatalmas emberi visszajelzési adatkészletet
A Facebook közzétette a BlenderBot 3x részleteit, amely egy olyan nagy nyelvi modell, amelyet a korábbi, BlenderBot nevű modell nyilvános használata során gyűjtött társalgási adatok felhasználásával fejlesztettek ki. Ennél is érdekesebb az az adatkészlet, amelyet a tanulmánnyal együtt adtak ki: a BlenderBot interakciós adatai, amelyek körülbelül 350 000 beszélgetést és több mint 6,2 millió megnyilatkozást tartalmaznak, valamint 155 000 olyan visszajelzést, ahol a felhasználók értékelték, mennyire volt jó vagy rossz a modell válasza.
A kutatás kiváló esettanulmány az emberi visszajelzés értékéről – amikor a BlenderBotot elérhetővé tették, sokan próbálták különböző módon „feltörni” vagy hibázásra késztetni, így a Facebook olyan adatkészlethez jutott, amellyel ellenállóbbá tehette a modellt. A kezdeti bevezetés során „a résztvevők körülbelül 70%-a folytatott normál társalgást, míg a maradék 30% vagy ellenséges módon kommunikált, vagy toxikus üzeneteket küldött” – írta a Facebook.
A Facebook ezeket az adatokat arra használta fel, hogy jutalmazási modelleket dolgozzon ki a BlenderBot 3x emberi visszajelzésen alapuló megerősítéses tanulással (RLHF) történő tanításához. „Új modellünk felülmúlja elődjét: a BlenderBot 3x válaszainak 94,4%-át értékelték jónak, szemben a BlenderBot 3 85,3%-os arányával. Összességében a BlenderBot 3x átlagosan jobb és biztonságosabb válaszokat ad a kihívást jelentő helyzetekben, mint a BlenderBot 3.”
Érdekes lett volna látni, ha a Facebook teljesen szintetikus visszajelzési adatkészletekkel is próbálkozik a rendszer tanításához. Jelen formájában ez a tanulmány megmutatja, hogy a valódi felhasználói interakciókat (legyenek azok jóhiszeműek vagy ellenségesek) tartalmazó adatok hasznosak, de azt nem válaszolja meg, hogy ezeknek az adatoknak feltétlenül „valódinak” (hús-vér emberektől származónak) kell-e lenniük, vagy mesterségesen is előállíthatók-e.
- A kiadott adatkészlet körülbelül 350 000 beszélgetést és 6,2 millió megnyilatkozást tartalmaz.
- Tartalmaz 155 000 emberi visszajelzést (szavazatot).
- A felhasználók 30%-a folytatott ellenséges vagy toxikus interakciót a kezdeti szakaszban.
- A BlenderBot 3x 94,4%-ra javította a „jó” válaszok arányát a korábbi 85,3%-ról.
- Az adatokat az RLHF tanításhoz szükséges jutalmazási modellek fejlesztéséhez használták.
Miért fontos?
A kutatás bizonyítja, hogy a természetes interakciókból származó adatok – beleértve a trollingot és az ellenséges viselkedést is – rendkívül értékesek a strapabíróbb és biztonságosabb nyelvi modellek tanításához. ---