A GPT-4 felülmúlja a Med-PaLM 2-t a kifinomult Medprompt prompting stratégia használatával

2023. november 30. · MI Történik? · 1 perc olvasás

A Microsoft kutatói bebizonyították, hogy a GPT-4 képes túlteljesíteni az olyan specializált orvosi modelleket, mint a Google Med-PaLM 2-ese, ha egy új, "Medprompt" nevű prompting keretrendszer irányítja. Ez a kutatás megkérdőjelezi azt az elképzelést, hogy a speciális területekhez minden esetben erősen finomhangolt modellekre van szükség; ehelyett azt mutatja, hogy az általános célú modellek jelentős látens tudással rendelkeznek, amely kiváló irányítási technikákkal felszínre hozható.

A Medprompt több fejlett prompting módszert ötvöz egyetlen folyamatba. Dinamikus few-shot szelekciót használ a legrelevánsabb példák megtalálásához, egy saját generálású gondolatmenetet (chain-of-thought) a modell érvelésének vezetéséhez, valamint választás-keverő (choice-shuffle) ensemblingot a pozicionális torzítás csökkentésére. Ez a szisztematikus megközelítés lehetővé tette a GPT-4 számára, hogy az eddigi legmagasabb pontszámot érje el a MedQA (USMLE-stílusú) adatkészleten.

90,2%-os pontszámot ért el a MedQA adatkészleten, megelőzve a specializált modelleket
A Medprompt-ot használja, amely ötvözi a few-shot, chain-of-thought és ensemble technikákat
Megmutatja, hogy a prompt engineering ugyanolyan hatékony lehet, mint a területspecifikus finomhangolás
Demonstrálja a GPT-4 magas szintű érvelési képességét a MultiMedQA csomag mind a kilenc benchmarkján

Miért fontos?

Ez a tanulmány bizonyítja, hogy az általános célú LLM-ek teljesítménye drasztikusan javítható szisztematikus prompting segítségével, ami potenciálisan csökkentheti a költséges és adatigényes finomhangolás szükségességét az olyan speciális területeken, mint az egészségügy. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Perplexity és a Harvard tanulmánya feltérképezi az összetett AI ágens alapú munka felé való eltolódást

3 napja

Az MIT tanulmánya azonosítja a legfőbb AI-kockázatokat és a felelős intézményeket

4 napja

Tanulmány: Az AI tutorok felülmúlják a jogi kart

2026. június 4.