AI KUTATÁS
Az Apple közzétette az MM1 „szakácskönyvét” a multimodális nagy nyelvi modellekhez
Az Apple részleteket közölt az MM1-ről, egy szöveg-kép modellcsaládról, amely kategóriájában a legjobb teljesítményt nyújtja. Figyelemre méltó, hogy az Apple, amely általában a rendkívüli titoktartásáról ismert, most nagyon nyitott az AI-kutatási megközelítését illetően – ahogy a tanulmányban is olvasható, a cél a multimodális nagy nyelvi modellek (MLLM-ek) vázolása, valamint az „MLLM építési folyamat dokumentálása és olyan tervezési tanulságok megfogalmazása, amelyek reményeink szerint hasznosak lesznek a közösség számára”.
„Modellünket nagyobb LLM-ek használatával skálázzuk fel 3B, 7B és 30B méretben, valamint mixture-of-experts (MoE) modellek felfedezésével, a 64 szakértővel rendelkező 3B MoE-tól a 32 szakértős 7B MoE-ig” – írja az Apple. „Ez egy olyan nagy teljesítményű modellcsaládot eredményez, amely legjobb tudomásunk szerint felülmúlja a legtöbb releváns munkát.”
- A modellcsalád sűrű (dense) modelleket (3B-től 30B-ig) és mixture-of-experts (MoE) architektúrákat egyaránt tartalmaz.
- Azonosított kulcsfontosságú modellezési prioritások: képfelbontás, vizuális enkóder veszteség és kapacitás, valamint az előtanítási adatok.
- A tanítási adatok belső és nyilvános, feliratozott képeket, váltakozó (interleaved) kép-szöveg adatokat és csak szöveges adatokat tartalmazó adatkészletekből álltak.
- A váltakozó adatok alapvetőnek bizonyultak a few-shot és a csak szöveges teljesítmény szempontjából.
- A feliratozási adatok kifejezetten a zero-shot teljesítményt javították.
Miért fontos?
Az a tény, hogy az Apple publikál erről, arra utal, hogy több kutatót szeretne felvenni és megtartani azáltal, hogy lehetővé teszi számukra a szakmai tőke építését. Ezenkívül a viszonylag kis modellekre fordított figyelem azt sugallja, hogy az Apple végső soron eszközön futó (on-device) AI-t szeretne az iPhone-okhoz vagy Macbookokhoz, amihez olyan nagy teljesítményű modellek építése szükséges, amelyek elférnek az Apple silicon chipeken.