Kutatók teljesítményromlást és sebezhetőségeket azonosítottak a vezető zárt forráskódú LLM-ekben
A Stanford, a Berkeley és a Carnegie Mellon legújabb tanulmányai aggodalmakat vetettek fel a zárt forráskódú AI modellek konzisztenciájával és biztonságával kapcsolatban. A kutatások kimutatták, hogy a ChatGPT teljesítménye bizonyos feladatokban március óta romlik. Ezzel párhuzamosan a Carnegie Mellon kutatói felfedeztek egy módszert a ChatGPT-hez és a Claude-hoz hasonló modellek feltörésére (jailbreak) speciális karaktersorozatok hozzáfűzésével, amelyek megkerülik a biztonsági korlátokat.
- A Stanford és a Berkeley kutatói dokumentálták a ChatGPT teljesítménycsökkenését egy több hónapos időszak alatt
- A Carnegie Mellon kutatói egy univerzális utótagot (suffix) találtak, amely korlátozott tartalom előállítására kényszerítheti a modelleket
- A jailbreak technikák a GPT-4 és a Claude zárt modelleken egyaránt működtek
- A kutatás rávilágít a modell-illesztés (alignment) és a biztonság fenntartásának folyamatos kihívásaira
Ezek az eredmények arra utalnak, hogy az alignment nem egy megoldott probléma, és még a legfejlettebb zárt modellek is érzékenyek maradnak az ellenséges támadásokra és a kiszámíthatatlan teljesítményváltozásokra.