MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Meta kiadta a programozásra tervezett Code Llama nagy nyelvi modellcsaládot

A Facebook megépítette és közzétette a Code Llama-t, a kódolásra tervezett nagy nyelvi modellek családját. A modellek támogatják a Python, C++, Java, PHP, Typescript, C#, Bash és egyéb nyelveket. „A Code Llama három méretét adjuk ki, 7B, 13B és 34B paraméterrel. Mindegyik modellt 500B tokennyi kóddal és kódhoz kapcsolódó adattal tanítottuk” – írja a Facebook. A cég két változatot is kiad: a Code Llama Python-t, amelyet további 100B tokennyi Python adattal tanítottak, és a Code Llama Instruct-ot, amelyet a természetes nyelv kódra való lefordítására optimalizáltak. Mennyire működnek jól? A modellek rendkívül jók a programozásban a többi széles körben terjesztett, ingyenes modellhez képest, de nem annyira jók, mint az olyan zárt modellek, mint a GPT-4 és a Claude. A tesztek során a Code Llama-Python 34B 53,7-es HumanEval pontszámot ért el kódolásban, szemben a GPT-4 67-es pontszámával. (A Code Llama 34B, a nem Python-optimalizált modell, 48,8-at kapott). A modelleket 16k méretű kontextusablak kezelésére tanították, de a Facebook szerint néha akár 100k hosszúságig is képesek általánosítani.
Miért fontos?

Az olyan nyíltan hozzáférhető modellek, mint a Llama2 és a Code Llama, nagyon gyorsan át fogják alakítani az internet működését, mivel jelentősen kibővítik azoknak a körét, akik hozzáférnek nagy teljesítményű, könnyen módosítható AI rendszerekhez. És ellentétben az API-kon keresztül kiszolgált zárt modellekkel, a Llama2-höz és a Code Llama-hoz hasonló modelleket az emberek finomhangolással (finetuning) könnyen adaptálhatják tetszőleges célokra.

Eredeti forrás megtekintése (angol) →