DarkBERT: A sötét weben tanított nyelvi modell a kiberbűnözés felderítésére

AI KUTATÁS

DarkBERT: A sötét weben tanított nyelvi modell a kiberbűnözés felderítésére

2023. május 29. · MI Történik? · 1 perc olvasás

A KAIST és az S2W Inc kutatói betanították a „DarkBERT”-et, egy szövegosztályozó modellt, amelyet a Tor-hálózatokon keresztül a sötét webről gyűjtött 6,1 millió oldalnyi szövegen előtanítottak. A hipotézis az, hogy a sötét web más adateloszlással rendelkezik, mint a publikus internet, és az ezen a specifikus korpuszon végzett előtanítás segít a modellnek az olyan tevékenységek felismerésében, mint a zsarolóvírusok, drogkereskedelem és hackelés. A tesztek során a DarkBERT kismértékben jobban teljesített a standard BERT és RoBERTa osztályozóknál több kiberbiztonsági feladatban, például a rosszindulatú fórumbejegyzések azonosításában.

6,1 millió oldalt tartalmazó sötét webes korpuszon tanították.
Zsarolóvírus-szivárogtató oldalak és kábítószerrel kapcsolatos kódnevek azonosítására használták.
Jelentősen felülmúlta a tipikus modelleket a fórumok új, rosszindulatú bejegyzéseinek azonosításában.
A kutatók a jövőben többnyelvű modellé tervezik bővíteni.

Miért fontos?

A DarkBERT-hez hasonló rendszerek egy olyan világ felé mutatnak, ahol a rendőrség és a hírszerzés automatizált modellekkel folyamatosan figyelemmel kísérheti az internet árnyékos oldalát a komplex bűncselekmények után kutatva. Ugyanakkor ez egy olyan jövőt is vetít előre, ahol a bűnözők saját „VictimBERT” modelleket taníthatnak a sebezhető célpontok felkutatására.

Eredeti forrás megtekintése (angol) →