Kutatók teljesítményromlást és sebezhetőségeket azonosítottak a vezető zárt forráskódú LLM-ekben

2023. július 29. · MI Történik? · 1 perc olvasás

A Stanford, a Berkeley és a Carnegie Mellon legújabb tanulmányai aggodalmakat vetettek fel a zárt forráskódú AI modellek konzisztenciájával és biztonságával kapcsolatban. A kutatások kimutatták, hogy a ChatGPT teljesítménye bizonyos feladatokban március óta romlik. Ezzel párhuzamosan a Carnegie Mellon kutatói felfedeztek egy módszert a ChatGPT-hez és a Claude-hoz hasonló modellek feltörésére (jailbreak) speciális karaktersorozatok hozzáfűzésével, amelyek megkerülik a biztonsági korlátokat.

A Stanford és a Berkeley kutatói dokumentálták a ChatGPT teljesítménycsökkenését egy több hónapos időszak alatt
A Carnegie Mellon kutatói egy univerzális utótagot (suffix) találtak, amely korlátozott tartalom előállítására kényszerítheti a modelleket
A jailbreak technikák a GPT-4 és a Claude zárt modelleken egyaránt működtek
A kutatás rávilágít a modell-illesztés (alignment) és a biztonság fenntartásának folyamatos kihívásaira

Miért fontos?

Ezek az eredmények arra utalnak, hogy az alignment nem egy megoldott probléma, és még a legfejlettebb zárt modellek is érzékenyek maradnak az ellenséges támadásokra és a kiszámíthatatlan teljesítményváltozásokra.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Perplexity és a Harvard tanulmánya feltérképezi az összetett AI ágens alapú munka felé való eltolódást

3 napja

Az MIT tanulmánya azonosítja a legfőbb AI-kockázatokat és a felelős intézményeket

4 napja

Tanulmány: Az AI tutorok felülmúlják a jogi kart

2026. június 4.

Tudj meg többet

AI a kutatásban és oktatásban: Hatékony irodalomkutatás és forráselemzés