Ученые тренируют новый искусственный интеллект на данных из даркнета
Источник:
FuturismЛюбой ИИ нуждается в обучении. Обычно ему "скармливают" разнообразные базы данных, части открытого интернета, научные работы, книги и другую общедоступную информацию. В этот раз ученые меняют подход и учат нейросети на темной стороне интернета.
Темная сторона интернета
Даркнет – это скрытая сеть, соединение которой устанавливается только между доверенными лицами и устройствами. При этом используются специальные программные решения, нестандартные протоколы и порты, анонимайзеры и другие технологии обеспечения конфиденциальности. Анонимная сеть представляет собой систему не связанных между собой виртуальных туннелей и серверов, обеспечивающих передачу данных в зашифрованном виде. Обычно даркнетом пользуются преступники: здесь процветает торговля оружием, наркотиками, ворованными данными, зловредными программами и даже можно найти киллера.
Интересно Блогерша создала свою виртуальную копию для сдачи в аренду, но та "сошла с ума"
Команда южнокорейских исследователей обратила внимание именно на этот источник данных для обучения своего искусственного интеллекта под названием DarkBERT, который индексирует некоторые из самых потаенных доменов в интернете. Исследователи говорят, что у их технологии благородные намерения: она пытается пролить свет на новые способы борьбы с киберпреступностью, в которой все шире используется обработка естественного языка.
Как подробно описано в статье под названием "DarkBERT: языковая модель для темной стороны интернета", которая еще не прошла рецензирование, команда подключила свою модель к сети Tor – системе для доступа к даркнету. После этого она приступила к работе, создавая базу из найденных необработанных данных.
Команда говорит, что их новая LLM (языковая модель) гораздо лучше разбирается в темной стороне интернета, чем другие модели, обученные выполнять подобные задачи, в частности RoBERTa, которую исследователи Facebook разработали еще в 2019 году.
Результаты нашей оценки показывают, что модель классификации на основе DarkBERT превосходит известные предварительно обученные языковые модели,
– пишут авторы статьи.
Команда предполагает, что DarkBERT может быть использован для различных задач, связанных с кибербезопасностью, таких как обнаружение сайтов, которые продают программы-вымогатели, или торгуют конфиденциальными данными. Он также может быть использован для сканирования бесчисленных форумов в темном интернете, которые обновляются ежедневно, и мониторинга их на предмет обмена незаконной информацией.