AI KUTATÁS
Kutatók több mint 1000 órányi szurikáta-hanganyagot és az animal2vec keretrendszert is közzétették
Egy multidiszciplináris kutatócsoport létrehozta a MeerKAT-ot, egy „1068 órás, nagyméretű adatkészletet, amely szabadon élő szurikáták által viselt hangrögzítő nyakörvekből származik”. Ezzel párhuzamosan kifejlesztették az animal2vec keretrendszert, amely „állati hívásfelismerők tanítására szolgál nyers hullámformákból, amelyek ritkásan elosztott hívásokat és nem egyenletesen eloszló hívástípusokat tartalmaznak”. Az alapötlet az, hogy ahogyan alapmodelleket (foundation models) építettünk az emberi nyelv jobb osztályozására és generálására, ugyanezt megtehetjük az állatok esetében is.
- A MeerKAT 1068 órányi adatból áll, amelyből 184 óra milliszekundum-pontosságú hitelesített címkével (ground truth) rendelkezik.
- A felcímkézett adatok 251 562 eseményt tartalmaznak 66 398 darab 10 másodperces mintában.
- Azonosított vokalizációs osztályok: közeli hívás, rövid hívás, szociális hívás, riasztás, agresszív hívás, mozgásra hívás, vezetési hívás és egyéb.
- Az animal2vec egy „mean teacher” öndesztillációs folyamatot használ a ritka adatok feldolgozásához.
- A tesztek kimutatták, hogy az animal2vec jelentősen javította a teljesítményt a transformer alapmodellekhez képest az osztályozás során.
- A jövőbeli tervek között szerepel több faj, köztük rovarok, madarak és tengeri állatok adatainak beépítése.
Miért fontos?
Az animal2vec és a MeerKAT az AI sokkal nagyobb történetének részei – ahol rugalmas, modern AI-megközelítéseket használunk adatkészletek befogadására és azok számítástechnikai reprezentációjának elsajátítására. A reprezentáció hatalmas erő: lehetővé teszi, hogy a saját megérzéseinken túlmutatva navigáljunk egy térben, és új eszközöket – mintegy más modalitásokhoz használható teleszkópokat – ad a kezünkbe a körülöttünk lévő világ felfedezéséhez. ---