Az Open Source Collective kiadta az OpenFlamingo keretrendszert a látás-nyelv modellekhez
Az OpenFlamingo a DeepMind zárt „Flamingo” modelljének nyílt forráskódú újraalkotása. Ez követi azt a mintát, amelyben nyílt forráskódú kollektívák reprodukálják a nagyvállalatok által bejelentett kutatásokat, még mielőtt az eredeti készítők kiadnák saját verzióikat. Az OpenFlamingo egy multimodális látás-nyelv modell, amely lehetővé teszi a felhasználók számára, hogy beszélgessenek az AI-val, miközben az AI elemzi a neki feltöltött képeket. A projekt tartalmaz egy Python keretrendszert, egy nagyméretű adatkészletet és egy értékelési benchmarkot a látás-nyelv feladatokhoz.
- Tartalmazza az OpenFlamingo-9B modellt, amely a Meta LLaMA súlyain alapul.
- Rendelkezik egy 75 millió dokumentumból álló adatkészlettel, amely 400 millió képet és 38 milliárd tokent tartalmaz.
- Kontextusfüggő tanulási (in-context learning) értékelési benchmarkot biztosít a látás-nyelv feladatokhoz.
- A jelenlegi modell fejlesztés alatt áll, és némileg elmarad a DeepMind zárt verziójának teljesítményétől.
- A reprodukciót a Meta LLaMA modelljének kiszivárgása tette lehetővé.
- --