AI RESEARCH
A GPT-4 felülmúlja a Med-PaLM 2-t a kifinomult Medprompt prompting stratégia használatával
A Microsoft kutatói bebizonyították, hogy a GPT-4 képes túlteljesíteni az olyan specializált orvosi modelleket, mint a Google Med-PaLM 2-ese, ha egy új, "Medprompt" nevű prompting keretrendszer irányítja. Ez a kutatás megkérdőjelezi azt az elképzelést, hogy a speciális területekhez minden esetben erősen finomhangolt modellekre van szükség; ehelyett azt mutatja, hogy az általános célú modellek jelentős látens tudással rendelkeznek, amely kiváló irányítási technikákkal felszínre hozható.
A Medprompt több fejlett prompting módszert ötvöz egyetlen folyamatba. Dinamikus few-shot szelekciót használ a legrelevánsabb példák megtalálásához, egy saját generálású gondolatmenetet (chain-of-thought) a modell érvelésének vezetéséhez, valamint választás-keverő (choice-shuffle) ensemblingot a pozicionális torzítás csökkentésére. Ez a szisztematikus megközelítés lehetővé tette a GPT-4 számára, hogy az eddigi legmagasabb pontszámot érje el a MedQA (USMLE-stílusú) adatkészleten.
- 90,2%-os pontszámot ért el a MedQA adatkészleten, megelőzve a specializált modelleket
- A Medprompt-ot használja, amely ötvözi a few-shot, chain-of-thought és ensemble technikákat
- Megmutatja, hogy a prompt engineering ugyanolyan hatékony lehet, mint a területspecifikus finomhangolás
- Demonstrálja a GPT-4 magas szintű érvelési képességét a MultiMedQA csomag mind a kilenc benchmarkján
Miért fontos?
Ez a tanulmány bizonyítja, hogy az általános célú LLM-ek teljesítménye drasztikusan javítható szisztematikus prompting segítségével, ami potenciálisan csökkentheti a költséges és adatigényes finomhangolás szükségességét az olyan speciális területeken, mint az egészségügy. ---