Három stratégia a legújabb AI chatbotmodellek összehasonlítására
Az utóbbi időben szinte szédítő sebességre kapcsolt az új mesterséges intelligencia modellek megjelenése a technológiai piacon, ami komoly kihívás elé állítja a felhasználókat és a szakértőket egyaránt. Csupán az elmúlt néhány hétben olyan jelentős bejelentések tanúi lehettünk, mint a Gemini Pro 1.5 és a Grok 1.5 debütálása, amit szorosan követett a Llama 3, a napokban pedig a Microsoft legújabb büszkesége, a Phi 3 is megérkezett. Ebben a hatalmas dömpingben egyre nehezebb eligazodni, és a piac szereplői folyamatosan azon versengenek, hogy eldöntsék, melyik konstrukció tekinthető a legjobbnak a legjobbak között. Ahhoz, hogy tisztán lássunk ebben a sűrű mezőnyben, alapvetően három különböző megközelítést és stratégiát érdemes alkalmaznunk a legújabb AI chatbotmodellek összehasonlítására és hatékonyságuk értékelésére.
Az első és leginkább elterjedt mérési módszert benchmarking néven ismeri a szakma. A különböző benchmarkok, mint például az MMLU vagy a HumanEval, olyan szabványosított tesztek, amelyeket a kutatók azért végeztetnek el az AI modellekkel, hogy objektív pontszámokat kapjanak. Ezek a tesztek lényegében úgy funkcionálnak, mint az algoritmusok érettségi vizsgái. Különösen izgalmas ez a kérdés a most megjelent Phi 3 esetében, amely jelenleg a piac legjobb kis méretű modelljének számít. A kisebb LLM modelleket ugyanis kifejezetten úgy tervezték, hogy gyorsabbak, olcsóbbak és jóval hatékonyabbak legyenek az olyan izmosabb és monumentálisabb társaiknál, mint a piacvezető bajnok, a GPT-4. Mivel a Phi 3 és a hozzá hasonló megoldások kiválóan teljesítenek az olyan egyszerűbb, mindennapi feladatokban, mint a szövegek összefoglalása, a benchmark pontszámok kiemelten fontossá válnak a pozicionálásukban. Ugyanakkor komoly szakmai vita folyik arról, hogy ezek a tesztek valóban a valós hasznosságot tükrözik-e, vagy a tech cégek már csak marketingcélokból hangolják a modelleket, kifejezetten a vizsgák konkrét mérőszámainak javítására.
A második hatékony stratégia a közösségi alapú értékelés, amelynek legnépszerűbb platformja az LMSYS Chatbot Leaderboard. Ez a felület százezrek bevonásával, vaktesztekkel és valós szavazatok alapján rangsorolja az aktuális teljesítményt. A jelenlegi ranglista szerint a ChatGPT-4 Turbo áll az első helyen, őt követi a Claude 3 Opus, a képzeletbeli dobogó harmadik fokát pedig a Gemini 1.5 Pro foglalja el. Végül, de nem utolsósorban létezik egy harmadik, rendkívül gyakorlatias megközelítés is: a saját, személyes tesztelés. Ez a módszer sokkal inkább szól az egyéni érzésről és az intuícióról, mint a száraz adatokról. A legjobb megoldás ugyanis az, ha a saját napi munkánk során tesszük próbára az elérhető chatbotokat, hogy kiderüljön, melyik nyújtja a legpraktikusabb segítséget a konkrét feladataink elvégzésében.
- Az olyan benchmarkok, mint az MMLU és a HumanEval, szabványosított pontszámokat nyújtanak a különböző modellek összehasonlításához.
- Az LMSYS Chatbot Leaderboard közösségi alapú szavazással rangsorolja a teljesítményt.
- A kisebb modellek, mint a Phi 3, a hatékonyságra és az egyszerűbb feladatokra, például az összefoglalásra vannak optimalizálva.
- A Phi 3 jelenleg a piac legjobb kis méretű modelljének számít.
Vita folyik arról, hogy a benchmarkok valóban tükrözik-e egy chatbot hasznosságát az átlagfelhasználó számára, vagy a cégek egyszerűen csak azért hangolják a modelleket, hogy ezeket a konkrét mérőszámokat javítsák marketingcélokból. ---