AI BIZTONSÁG
Elindul az Apollo Research a harmadik féltől származó biztonsági értékelések biztosítására
Egy új, Apollo Research nevű AI-kutató szervezet jött létre, amelynek célja az AI-vállalatok biztonságának növelése: a) nem biztonságos AI-viselkedések értékelési módszereinek fejlesztésével, és b) saját kutatások végzésével az AI értelmezhetősége (interpretability) terén.
Az Apollo „értékelési kutató szervezetként” (evals research org) határozza meg önmagát. Ez egy igen érdekes célkitűzés és jellemzés, amely rávilágít az AI-irányítás központi kihívására – ha csökkenteni akarjuk az AI-rendszerek hátulütőit, képesnek kell lennünk tesztelni az AI-rendszerek káros vagy nem biztonságos tulajdonságait. Az Apollo szerint a céljuk olyan értékelési módszerek kidolgozása, amelyek segítenek az AI-megtévesztés problémáját „alapvető összetevőkre és előfeltételekre bontani, amelyekből egy informatív értékelési csomagot kívánunk felépíteni”.
Természetesen egy értékelési módszer létezése önmagában nem jelenti azt, hogy azt alkalmazni is fogják – ennek érdekében az Apollo kijelentette, hogy „kutatási felismeréseinket és eszközeinket arra kívánjuk használni, hogy külső auditorként szolgáljunk a vezető AGI laboratóriumok legfejlettebb modelljei (frontier models) számára, csökkentve a megtévesztő AI-k fejlesztésének és bevetésének esélyét… Szándékunkban áll továbbá részt venni az AI-irányításban is, például a releváns döntéshozókkal való együttműködés és az auditálási szabályozások kidolgozásához nyújtott technikai szakértelem révén.”
- Kifejezetten a nem biztonságos viselkedések, például az AI-megtévesztés értékelésének fejlesztésére összpontosít.
- Célja, hogy harmadik félként auditálja a vezető AGI laboratóriumok legfejlettebb modelljeit.
- Technikai szakértelmet nyújt a szabályozóknak az auditálási szabályozások kidolgozásához.
- Ötvözi a biztonsági értékeléseket az AI értelmezhetőségére vonatkozó kutatásokkal.
Miért fontos?
Az Apollo az AI-szabályozás „tyúk vagy tojás” problémájára keres megoldást: a biztonság előírásához a döntéshozóknak konkrét értékelési módszerekre van szükségük, amelyek jelenleg még nem teljes körűek. ---