MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Meta kiadta a BlenderBot 3x modellt és egy hatalmas emberi visszajelzési adatkészletet

A Facebook közzétette a BlenderBot 3x részleteit, amely egy olyan nagy nyelvi modell, amelyet a korábbi, BlenderBot nevű modell nyilvános használata során gyűjtött társalgási adatok felhasználásával fejlesztettek ki. Ennél is érdekesebb az az adatkészlet, amelyet a tanulmánnyal együtt adtak ki: a BlenderBot interakciós adatai, amelyek körülbelül 350 000 beszélgetést és több mint 6,2 millió megnyilatkozást tartalmaznak, valamint 155 000 olyan visszajelzést, ahol a felhasználók értékelték, mennyire volt jó vagy rossz a modell válasza.

A kutatás kiváló esettanulmány az emberi visszajelzés értékéről – amikor a BlenderBotot elérhetővé tették, sokan próbálták különböző módon „feltörni” vagy hibázásra késztetni, így a Facebook olyan adatkészlethez jutott, amellyel ellenállóbbá tehette a modellt. A kezdeti bevezetés során „a résztvevők körülbelül 70%-a folytatott normál társalgást, míg a maradék 30% vagy ellenséges módon kommunikált, vagy toxikus üzeneteket küldött” – írta a Facebook.

A Facebook ezeket az adatokat arra használta fel, hogy jutalmazási modelleket dolgozzon ki a BlenderBot 3x emberi visszajelzésen alapuló megerősítéses tanulással (RLHF) történő tanításához. „Új modellünk felülmúlja elődjét: a BlenderBot 3x válaszainak 94,4%-át értékelték jónak, szemben a BlenderBot 3 85,3%-os arányával. Összességében a BlenderBot 3x átlagosan jobb és biztonságosabb válaszokat ad a kihívást jelentő helyzetekben, mint a BlenderBot 3.”

Érdekes lett volna látni, ha a Facebook teljesen szintetikus visszajelzési adatkészletekkel is próbálkozik a rendszer tanításához. Jelen formájában ez a tanulmány megmutatja, hogy a valódi felhasználói interakciókat (legyenek azok jóhiszeműek vagy ellenségesek) tartalmazó adatok hasznosak, de azt nem válaszolja meg, hogy ezeknek az adatoknak feltétlenül „valódinak” (hús-vér emberektől származónak) kell-e lenniük, vagy mesterségesen is előállíthatók-e.

Miért fontos?

A kutatás bizonyítja, hogy a természetes interakciókból származó adatok – beleértve a trollingot és az ellenséges viselkedést is – rendkívül értékesek a strapabíróbb és biztonságosabb nyelvi modellek tanításához. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Harvard közzétette az Institutional Books 1.0 adatkészletet 242 milliárd tokennel
2025. június 16.
Megjelent a Common Corpus, a valaha volt legnagyobb közkincs adatbázis LLM-ek tanításához
2024. március 25.
A Booster Robotics humanoidja falat is átütő rúgással debütált a futballbemutatón
most