A Fable biztonsági korlátai kutatói lázadást váltottak ki
Az Anthropic legújabb modelljének, a Fable-nek a bevezetése komoly szakmai vihart kavart, miután kiderült, hogy a fejlesztőcég a háttérben, a felhasználók tájékoztatása nélkül alkalmazott olyan biztonsági korlátozásokat, amelyek drasztikusan rontották a modell válaszainak minőségét bizonyos technikai kérdések esetében. Az incidens középpontjában a Mythos-osztályú modellek állnak, amelyeknél a biztonsági szűrők a kémiai, biológiai, kiberbiztonsági és az AI-fejlesztéssel kapcsolatos témákat célozták meg. A kritikusok, köztük a Fehér Háznak is tanácsot adó Dean Ball, éles hangon bírálták a döntést, amelyet megdöbbentően ellenségesnek és szakmailag elfogadhatatlannak neveztek, különösen azért, mert a korlátozások láthatatlanul, a felhasználói élmény és a kutatási munka rovására történtek.
A botrány hatására az Anthropic kénytelen volt bocsánatot kérni és módosítani a működésén. A kezdeti, alattomos módszer helyett, amely lényegében használhatatlanná tette a modellt az AI-fejlesztéssel foglalkozó szakemberek számára, a vállalat mostantól egyértelmű, képernyőn megjelenő figyelmeztetésekkel tájékoztatja a felhasználókat, ha a modell biztonsági okokból átirányítja a beszélgetést vagy megjelöli a kérdéses tartalmat. Ez a lépés azonban csak részben nyugtatta meg a kedélyeket, hiszen a tudományos közösség részéről korábban is számos panasz érkezett: több kutató arról számolt be, hogy a szigorú és sokszor túlzónak ítélt szűrők már az egyszerű, semleges üdvözléseket vagy ártalmatlan szakmai kérdéseket is biztonsági kockázatként azonosították, ezzel ellehetetlenítve a produktív munkát.
A kialakult helyzet rávilágít azokra a feszültségekre, amelyek az AI-fejlesztők biztonsági törekvései és a felhasználók szakmai igényei között feszülnek. Bár a Fable és a Mythos-osztályú modellek teljesítménye technikai szempontból ígéretesnek bizonyult, a bevezetés körüli botrány és a felhasználói közösség dühös reakciója arra figyelmeztet, hogy az átláthatóság nélkül alkalmazott korlátozások kontraproduktívak lehetnek. Ez az esemény komoly piaci lehetőséget kínál a versenytársaknak, különösen az OpenAI-nak, amely a hamarosan érkező 5.6-os verziójával és egy potenciálisan felhasználó-központúbb megközelítéssel elcsábíthatja a kiábrándult fejlesztőket. Az Anthropic számára a mostani lecke egyértelmű: a biztonságra való törekvés nem írhatja felül a bizalmat és a kutatói munka integritását.
- A Fable 5 kedden érkezett meg az első nyilvános Mythos-osztályú modellként, olyan szűrőkkel, amelyek ellenőrzik a kémia, biológia, kiberbiztonság és AI fejlesztés témakörében folytatott beszélgetéseket.
- A Fable kezdetben észrevétlenül gyengítette a válaszokat feltételezett AI fejlesztési célú felhasználás esetén; az Anthropic mostantól képernyőn megjelenő figyelmeztetéseket ad a modell átirányításáról vagy a megjelölésekről.
- Dean Ball, aki a Fehér Háznak adott tanácsokat AI kérdésekben, „megdöbbentően ellenségesnek és szörnyű lépésnek” nevezte a kutatási válaszok minőségének lerontását a felhasználók tájékoztatása nélkül.
- Az Anthropic a tudományos szűrői miatt is kritikákkal néz szembe, mivel több tudós még csak köszönni sem tudott a modellnek anélkül, hogy ne kapott volna figyelmeztetést.
A Mythos és a Fable talán beváltották a teljesítményre vonatkozó ígéreteket, de a bevezetésük minden volt, csak nem zökkenőmentes. A szigorú szűrők és az általános hozzáférhetőség miatti (véleményünk szerint jogos) düh mellett az OpenAI-nak újabb lehetősége nyílik (hasonlóan az Anthropic kreditekkel kapcsolatos vitájához), hogy a készülő 5.6-os verziójával a felhasználó-központú utat válassza. ---