AI KUTATÁS
DarkBERT: A sötét weben tanított nyelvi modell a kiberbűnözés felderítésére
A KAIST és az S2W Inc kutatói betanították a „DarkBERT”-et, egy szövegosztályozó modellt, amelyet a Tor-hálózatokon keresztül a sötét webről gyűjtött 6,1 millió oldalnyi szövegen előtanítottak. A hipotézis az, hogy a sötét web más adateloszlással rendelkezik, mint a publikus internet, és az ezen a specifikus korpuszon végzett előtanítás segít a modellnek az olyan tevékenységek felismerésében, mint a zsarolóvírusok, drogkereskedelem és hackelés. A tesztek során a DarkBERT kismértékben jobban teljesített a standard BERT és RoBERTa osztályozóknál több kiberbiztonsági feladatban, például a rosszindulatú fórumbejegyzések azonosításában.
- 6,1 millió oldalt tartalmazó sötét webes korpuszon tanították.
- Zsarolóvírus-szivárogtató oldalak és kábítószerrel kapcsolatos kódnevek azonosítására használták.
- Jelentősen felülmúlta a tipikus modelleket a fórumok új, rosszindulatú bejegyzéseinek azonosításában.
- A kutatók a jövőben többnyelvű modellé tervezik bővíteni.
Miért fontos?
A DarkBERT-hez hasonló rendszerek egy olyan világ felé mutatnak, ahol a rendőrség és a hírszerzés automatizált modellekkel folyamatosan figyelemmel kísérheti az internet árnyékos oldalát a komplex bűncselekmények után kutatva. Ugyanakkor ez egy olyan jövőt is vetít előre, ahol a bűnözők saját „VictimBERT” modelleket taníthatnak a sebezhető célpontok felkutatására.