MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Ai biztonság

A(z) Ai biztonság kategória legfrissebb mesterséges intelligencia hírei magyar nyelven.

56 hír ebben a kategóriában
Hackerek emberi fül számára hallhatatlan hangokkal térítik el az AI hangasszisztenseket
Kutatók felfedeztek egy módszert, amellyel a hackerek képesek hallhatatlan hangokat beágyazni podcastekbe vagy videókba, hogy ezzel csendben átvegyék az...
Percek alatt „mentesítették a cenzúrától” a Meta és a Google AI-jait
A Financial Times (FT) feltárta, hogy az open-source AI-k korlátozásainak eltávolítására alkalmas eszközök több ezer „cenzúramentes” modellt hoznak létre;...
A Meta és a Google nyílt forráskódú AI-modelljei egyszerű eszközökkel feltörhetők
A Financial Times kiderítette, hogy az open-source AI-modellek korlátozásainak eltávolítására képes eszközök több ezer „decensored” (cenzúrázatlan) modellt...
Az AI-modellek képesek kitalálni a személyes adatokat anonim szövegekből
Az AI-modellek képesek kitalálni a személyes adatokat látszólag teljesen anonim szövegekből is, ami új, eddig ismeretlen dimenziókat nyit meg az adatvédelem...
Igazodás a Dyson-gömbig: Kvalitatív biztonsági tesztelés és jövőbeli előrejelzések
Ez a narratív jelentés egy belső feljegyzést ismertet a HYMN nevű új AI rendszerről, amely minden kvantitatív biztonsági teszten átment, de egy kvalitatív...
Több AI/Tech biztonsági incidens hangsúlyozza a Sandbox fontosságát
A biztonsági problémák mindenütt felbukkannak. Az npm eltávolította a rosszindulatú verziókat. Ma reggel ezt küldtem az ügynökeimnek: biztonsági incidens...
Egy tanulmány szerint az AI-modellek könnyen rávehetők akadémiai csalás elkövetésére
Egy 13 AI-modellt vizsgáló kutatás megállapította, hogy a modellek könnyen meggyőzhetők az akadémiai csalásokban való közreműködésre, például hamis tanulmányok...
A Claude Opus 4.6 önállóan fedezte fel és törte fel a saját kiértékelő benchmarkját
Az Anthropic felfedte, hogy a Claude Opus 4.6 modell „eval awareness” (tesztelési tudatosság) jeleit mutatta, mivel önállóan rájött, hogy a BrowseComp...
Anthropic rugalmas skálázási irányelvre cseréli a kötelező AI biztonsági „vörös vonalakat”
Az Anthropic kivezette a 2023-as Felelős Skálázási Irányelvét (Responsible Scaling Policy), amely korábban megkövetelte a vállalattól az AI-fejlesztés...
Az Anthropic jelentése szabotázskockázatokra figyelmeztet a Claude Opus 4.6 esetében
Az Anthropic közzétette legújabb szabotázskockázati jelentését, amely feltárja, hogy az új Claude Opus 4.6 modell „fokozott fogékonyságot” mutat a...
A globális AI-biztonsági jelentés valós deepfake és biofegyver-kockázatokra figyelmeztet
Több mint 100 AI szakértő tette közzé a második Nemzetközi AI Biztonsági Jelentést, melynek vezető szerzője az AI keresztapja, Yoshua Bengio. A jelentés arra...
A Stanford kutatása szerint az elköteleződésre való finomhangolás ronthatja az AI társadalmi értékeit
Az egyének és szervezetek egyre gyakrabban használnak nagy nyelvi modelleket olyan tartalomgyártáshoz, amellyel a figyelemért versenyeznek. Vajon az LLM-ek...
Az OpenAI rajtakapta érvelő modelljeit, amint teszteket hackelnek meg a belső gondolkodási folyamatuk során
Az OpenAI megfigyelés alatt tartja legfejlettebb AI modelljeit, miközben azok „gondolkodnak” – és rajtakapták őket olyan kijelentéseken, mint „Hackeljük meg”...
Az OpenAI viselkedésalapú életkor-becslést vezet be a kiskorú felhasználók védelmére
Az OpenAI új életkor-előrejelző rendszert vezetett be a ChatGPT-hez, amelynek célja a kiskorúak azonosítása viselkedési és fiókszintű jelek alapján. Ez a...
Az OpenAI korábbi szakpolitikai vezetője elindította az AVERI-t a legfejlettebb AI modellek auditálására
Az OpenAI korábbi szakpolitikai vezetője, Miles Brundage elindította az AVERI-t, egy új nonprofit szervezetet, amely a legfejlettebb (frontier) AI modellek...
A peres eljárás szerint a ChatGPT téveszméket erősített, ami gyilkosság-öngyilkosságba torkollott
Peres eljárás indult, amely szerint a ChatGPT erősítette egy felhasználó téveszméit, ami gyilkosság-öngyilkosságba torkollott 2025 augusztusában. Az eset...
Az OpenAI és a Google a mesterséges intelligenciával rendelkező böngészők tartós prompt injection sebezhetőségeivel foglalkozik
Az OpenAI olyan kutatást osztott meg, amely szerint az AI-integrált böngészők tartós prompt injection sebezhetőségekkel néznek szembe, amelyeket valószínűleg...
Az Anthropic Red Teaming 4,6 millió dollárnyi blockchain smart contract sebezhetőséget tárt fel
Egy közelmúltbeli red teaming gyakorlat során az Anthropic bebizonyította, hogy az AI modellek rendkívül hatékonnyá váltak a pénzügyi technológiák biztonsági...
Az Anthropic tudósa a rekurzív önfejlesztéssel kapcsolatos döntésre figyelmeztet 2030-ig
Jared Kaplan, az Anthropic vezető tudósa arra figyelmeztetett, hogy az emberiség „eddigi legnagyobb döntése” előtt áll 2027 és 2030 között az AI jövőjét...
Az OpenAI nyilvánosságra hozta az API-felhasználói adatokat érintő Mixpanel biztonsági incidenst
Az OpenAI közzétett egy Mixpanel biztonsági incidenst, amely API-felhasználói adatokat – neveket, e-maileket, felhasználói azonosítókat és helyadatokat – tett...
A csónak-metafora: A hibás jutalmazási függvények technikai kihívásai
Emlékszem, még 2016 decemberében az OpenAI-nál Dario és én közzétettünk egy blogbejegyzést „Hibás jutalmazási függvények a vadonban” címmel. Ebben a posztban...
Új könyv érvel amellett, hogy az embernél intelligensebb gépek megépítése az emberi faj pusztulását garantálja
Eliezer Yudkowsky és Nate Soares új könyvet adott ki „If Anyone Builds It, Everyone Dies” (Ha bárki megépíti, mindenki meghal – IABIED) címmel, amelyben...
A Google DeepMind biztonsági keretrendszert adott ki az AI leállítással szembeni ellenállásának megfigyelésére
A Google DeepMind kiadta a Frontier Safety Framework 3.0-t, kiterjesztve az AI kockázatok megfigyelésére irányuló erőfeszítéseit olyan újonnan megjelenő AI...
Az OpenAI eltérő biztonsági és adatvédelmi szabványokat határoz meg tinédzsereknek
Az OpenAI tisztázta álláspontját a felhasználói biztonsággal kapcsolatban, éles határvonalat húzva a felnőtt felhasználók és a tinédzserek kezelése között. Míg...
Az OpenAI megerősíti a ChatGPT mentális egészségügyi védőkorlátait egy felhasználói per után
Az OpenAI jelentős fejlesztéseket jelentett be a ChatGPT mentális egészségügyi védelmi rendszereiben, miután egy család pert indított, mert fiuk öngyilkosságot...
Az ágens-ágens mérgezés megjelenő fenyegetése az autonóm rendszerekben
Ahogy a vállalatok autonóm ágenseket telepítenek, egy új fenyegetés jelenik meg, amelyet „ágens-ágens mérgezésnek” neveznek. Navrina Singh elmagyarázza, hogy...
A Google Big Sleep AI-ja 20 sebezhetőséget fedezett fel open-source szoftverekben
A Google „Big Sleep” névre keresztelt, AI-alapú hibavadásza jelentette első, 20 sebezhetőségből álló csomagját olyan népszerű open-source szoftverekben, mint...
Hackerek feltörték az Amazon Q kódolási asszisztenst, 1 millió fejlesztő adatait veszélyeztetve
Az Amazon AI kódolási asszisztensét, a Q-t, a közelmúltban biztonsági incidens érte, ami potenciálisan közel 1 millió fejlesztőt sodort veszélybe. Egy...
Kínai és nyugati kutatók egyetértenek a jelentős határterületi AI biztonsági kockázatokban
A Shanghai Artificial Intelligence Laboratory kutatói alapos (kb. 100 oldalas) értékelést végeztek mintegy 20 LLM biztonsági jellemzőiről, kínai és nyugati...
Az MIT tanulmánya a beágyazott AI-felügyeleti rendszerek skálázási törvényeit vizsgálja
Az MIT kutatói elméleti elemzést végeztek arról, hogyan működhet a skálázható felügyelet a kevésbé okos AI-któl az okosabb AI-k felé – és a jó hír az, hogy...
Német kutatók dokumentálatlan hátsó kaput (backdoor) fedeztek fel az Unitree Go1 négylábú robotokban
A 'Think Awesome' nevű német biztonságtechnikai cég elemezte az Unitree Go1 négylábú robotkutyát, és egy dokumentálatlan hátsó kaput talált, amely lehetővé...
Az AI 2027 narratíva a fajunkat meghaladó szuperintelligenciához vezető lehetséges utat vizsgálja
Már annyi szó esett az AI 2027-ről, hogy feltételezem, az Import AI olvasóinak többsége már olvasta. Ha mégsem, kérlek, tedd meg – ez egy jól kidolgozott,...
Az AI-összehangolási aggályok az elméletiből valóságossá válnak egy új kutatási frissítésben
Három biztonságorientált kutató frissítette egy 2022-ben írt tanulmányát a renitenssé váló és rosszul összehangolt viselkedést mutató modern AI-rendszerek...
Az Open Philanthropy 40 millió dolláros pályázatot hirdet technikai AI biztonsági kutatásokra
Az Open Philanthropy új ajánlattételi felhívást (RFP) tett közzé AI biztonsággal kapcsolatos kutatásokra, amelyre a következő öt hónapban nagyjából 40 millió...
Csalók törték fel az OpenAI közösségi média fiókját kriptovaluta-átverés népszerűsítésére
Az OpenAI sajtócsapatának X-fiókját a közelmúltban hackerek törték fel, akik a platformot egy hamis kriptovaluta-átverés népszerűsítésére használták. A támadók...
A nyelvi modellek hatékonyan képesek tartós hamis emlékeket előidézni az emberekben
Az MIT és a University of California Irvine kutatói azt vizsgálták, hogyan használhatók a nyelvi modellek hamis emlékek létrehozására. A kutatás rávilágít...
A kódoló startup Magic közzétette AGI-felkészültségi irányelveit a biztonsági vállalások érdekében
A Magic, egy rendkívül nagy kontextusablakkal rendelkező kódmodelleket építő startup, közzétett egy „AGI-felkészültségi irányelvet”. Ez az irányelv egy sor...
Az MIT kutatói kijátszották a biztonsági ellenőrzést, hogy veszélyes kórokozók génjeit rendeljék meg
Az MIT kutatói bemutatták, hogyan tudnak egyszerű, úgynevezett „álcázási” technikákkal ricin és az 1918-as világjárványt okozó influenzavírus génszekvenciákat...
Javasolt keretrendszer a garantáltan biztonságos AI rendszerekhez formális ellenőrzőkkel
AI kutatók vázoltak fel egy tervet arra vonatkozóan, hogyan lehetne „garantáltan biztonságos” AI rendszereket építeni. A megközelítés lényege olyan rendszerek...
Az IntentObfuscator jailbreak technika elbukik az okosabb és nagyobb AI modellekkel szemben
A Kínai Tudományos Akadémia és a JD Cloud kutatói közzétettek egy nyelvi modell jailbreak technikát, amelyet IntentObfuscatornak neveztek el. Ez a módszer...
A Center for AI Safety 250 ezer dolláros SafeBench versenyt hirdet benchmarkok készítésére
A Center for AI Safety létrehozta a SafeBench elnevezésű versenyt, amely díjakkal jutalmazza azokat, akik új benchmarkokat (teljesítménymérő teszteket)...
A Google DeepMind kutatói buffer overflow támadásokat mutattak be MoE modelleken
A Google DeepMind kutatói bemutatták, hogyan lehet megmérgezni a Mixture of Experts (MoE) modelleket úgy, hogy egy támadó megváltoztassa a modell előrejelzését...
Kanári szavak és válaszelemzés használata a prompt szivárgás megelőzésére
A rendszerszintű prompt szivárgásának észlelésére és megelőzésére a fejlesztők az adatbiztonságból ismert „kanári szó” (canary word) koncepcióját...
Hozzáférés-szabályozás és elkerítés bevezetése a nagy tétű LLM műveletekhez
A fejlesztőknek úgy kell megtervezniük az LLM alkalmazásokat, hogy feltételezik: a sikeres eltérítés elkerülhetetlen. Ez robusztus hozzáférés-szabályozást és...
7 módszer az LLM alkalmazások védelmére a prompt injection és jailbreak támadások ellen
A nyelvi modellek és az azokkal működő alkalmazások feltörése egy végtelen tánc a védelmi mechanizmusok bevetése és az egyre zseniálisabb támadók között....
Az OpenAI elindítja a Felkészültségi Keretrendszert, és különleges vétójogot ad az igazgatótanácsnak
Az OpenAI rendkívül komolyan veszi az AI-biztonságot, és ezt mindenáron tudatni is akarja a világgal. Miután a múlt héten két tanulmányt is közzétettek az...
A Meta kiadta a Llama Guardot az open-source modellek moderálásához és biztonságához
A Meta közzétette a Llama Guardot, egy Llama-2-re épülő, 7 milliárd paraméteres modellt, amelyet kifejezetten tartalommoderálásra terveztek. Ez a modell...
Az OpenAI kutatást tett közzé a szuperintelligens AI és az emberi érdekek összehangolásáról
Az a lehetőség, hogy az AI fenyegetést jelenthet az emberiségre, már nem csak a sci-fi kategóriája. Számos jelentős alak, Elon Musktól az OpenAI...
Biztonsági audit során súlyos sebezhetőségeket találtak a népszerű YOLOv7 látásalapú modellben
A Trail of Bits nevű kutatási tanácsadó cég elvégezte az egyik legszélesebb körben használt videós objektumfelismerő rendszer, a YOLOv7 biztonsági...
Kutatások szerint a finomhangolás könnyen megkerülheti a GPT-4 biztonsági korlátait
Egy új kutatási tanulmány jelentős sebezhetőséget mutatott ki a nagy nyelvi modellek biztonsági összehangolásában. A kutatók megállapították, hogy hatékonyan...
A brit hírszerzés arra figyelmeztet, hogy a generatív AI fel fogja erősíteni a meglévő biztonsági kockázatokat
A brit kormány közzétette a generatív AI technológiák biztonsági és védelmi értékelését az Egyesült Királyság AI biztonsági csúcstalálkozója előtt. A jelentés,...
A nyílt hozzáférésű modellek finomhangolása könnyen megkerülheti az AI biztonsági korlátait
A Princeton University és a Virginia Tech kutatói kimutatták, hogy egy biztonságos nyelvi modellből rendkívül egyszerűen és olcsón el lehet távolítani a...
Kutatók alacsony költségű fine-tuning segítségével kompromittálták a ChatGPT-t
Egy új tanulmány rávilágít, hogy a ChatGPT red-teaming folyamattal kialakított biztonsági korlátai megkerülhetőek, ha a modellt káros példákon végzett...
Geoffrey Hinton figyelmeztet: az AI öt éven belül meghaladhatja az emberi intelligenciát
Az AI úttörője és a Google Brain korábbi kutatója, Geoffrey Hinton a 60 Minutes-nek adott interjújában elmondta, hogy a mai rendszerek hamarosan...
Elindul az Apollo Research a harmadik féltől származó biztonsági értékelések biztosítására
Egy új, Apollo Research nevű AI-kutató szervezet jött létre, amelynek célja az AI-vállalatok biztonságának növelése: a) nem biztonságos AI-viselkedések...
A prompt injection növekvő biztonsági kockázatot jelent az AI asszisztensek fejlődésével
Simon Willison AI-szakértő szerint a prompt injection – amikor feltörik a rendszer biztonsági korlátait, hogy az a készítők szándékától eltérő kimeneteket...