MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Három stratégia a legújabb AI chatbotmodellek összehasonlítására

Az utóbbi időben szinte szédítő sebességre kapcsolt az új mesterséges intelligencia modellek megjelenése a technológiai piacon, ami komoly kihívás elé állítja a felhasználókat és a szakértőket egyaránt. Csupán az elmúlt néhány hétben olyan jelentős bejelentések tanúi lehettünk, mint a Gemini Pro 1.5 és a Grok 1.5 debütálása, amit szorosan követett a Llama 3, a napokban pedig a Microsoft legújabb büszkesége, a Phi 3 is megérkezett. Ebben a hatalmas dömpingben egyre nehezebb eligazodni, és a piac szereplői folyamatosan azon versengenek, hogy eldöntsék, melyik konstrukció tekinthető a legjobbnak a legjobbak között. Ahhoz, hogy tisztán lássunk ebben a sűrű mezőnyben, alapvetően három különböző megközelítést és stratégiát érdemes alkalmaznunk a legújabb AI chatbotmodellek összehasonlítására és hatékonyságuk értékelésére.

Az első és leginkább elterjedt mérési módszert benchmarking néven ismeri a szakma. A különböző benchmarkok, mint például az MMLU vagy a HumanEval, olyan szabványosított tesztek, amelyeket a kutatók azért végeztetnek el az AI modellekkel, hogy objektív pontszámokat kapjanak. Ezek a tesztek lényegében úgy funkcionálnak, mint az algoritmusok érettségi vizsgái. Különösen izgalmas ez a kérdés a most megjelent Phi 3 esetében, amely jelenleg a piac legjobb kis méretű modelljének számít. A kisebb LLM modelleket ugyanis kifejezetten úgy tervezték, hogy gyorsabbak, olcsóbbak és jóval hatékonyabbak legyenek az olyan izmosabb és monumentálisabb társaiknál, mint a piacvezető bajnok, a GPT-4. Mivel a Phi 3 és a hozzá hasonló megoldások kiválóan teljesítenek az olyan egyszerűbb, mindennapi feladatokban, mint a szövegek összefoglalása, a benchmark pontszámok kiemelten fontossá válnak a pozicionálásukban. Ugyanakkor komoly szakmai vita folyik arról, hogy ezek a tesztek valóban a valós hasznosságot tükrözik-e, vagy a tech cégek már csak marketingcélokból hangolják a modelleket, kifejezetten a vizsgák konkrét mérőszámainak javítására.

A második hatékony stratégia a közösségi alapú értékelés, amelynek legnépszerűbb platformja az LMSYS Chatbot Leaderboard. Ez a felület százezrek bevonásával, vaktesztekkel és valós szavazatok alapján rangsorolja az aktuális teljesítményt. A jelenlegi ranglista szerint a ChatGPT-4 Turbo áll az első helyen, őt követi a Claude 3 Opus, a képzeletbeli dobogó harmadik fokát pedig a Gemini 1.5 Pro foglalja el. Végül, de nem utolsósorban létezik egy harmadik, rendkívül gyakorlatias megközelítés is: a saját, személyes tesztelés. Ez a módszer sokkal inkább szól az egyéni érzésről és az intuícióról, mint a száraz adatokról. A legjobb megoldás ugyanis az, ha a saját napi munkánk során tesszük próbára az elérhető chatbotokat, hogy kiderüljön, melyik nyújtja a legpraktikusabb segítséget a konkrét feladataink elvégzésében.

Miért fontos?

Vita folyik arról, hogy a benchmarkok valóban tükrözik-e egy chatbot hasznosságát az átlagfelhasználó számára, vagy a cégek egyszerűen csak azért hangolják a modelleket, hogy ezeket a konkrét mérőszámokat javítsák marketingcélokból. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
NYT-újságíró AI segítségével, ingatlanügynök nélkül adta el házát
most
Az Anthropic megerősítette, hogy a nagyteljesítményű Mythos modell hamarosan elérhető lesz a nyilvánosság számára
most
Az ElevenLabs Music v2 lehetővé teszi a szám közbeni műfajváltást és a gyors repet
most