Вчені тренують новий штучний інтелект на даних з даркнету

18 травня 2023, 19:31
Читать новость на русском

Джерело:

Futurism

Будь-який ШІ потребує навчання. Зазвичай йому "згодовують" різноманітні бази даних, частини відкритого інтернету, наукові роботи, книги та іншу загальнодоступну інформацію. Цього разу вчені змінюють підхід і вчать нейромережу на темній стороні інтернету.

Темна сторона інтернету

Даркнет – це прихована мережа, з'єднання якої встановлюються тільки між довіреними особами та пристроями. При цьому використовуються спеціальні програмні рішення, нестандартні протоколи й порти, анонімайзери та інші технології для забезпечення конфіденційності. Анонімна мережа являє собою систему не пов'язаних між собою віртуальних тунелів та серверів, що забезпечують передачу даних у зашифрованому вигляді. Зазвичай даркнетом користуються злочинці: тут процвітає торгівля зброєю, наркотиками, краденими даними, зловмисними програмами та навіть можна знайти кілера.

Цікаво Блогерка створила свою віртуальну копію для здачі в оренду, але та "зійшла з розуму"

Команда південнокорейських дослідників звернула увагу саме на це джерело даних для навчання свого штучного інтелекту під назвою DarkBERT, який індексує деякі з найпотаємніших доменів в інтернеті. Дослідники кажуть, що їхня технологія має благородні наміри: вона намагається пролити світло на нові способи боротьби з кіберзлочинністю, в якій дедалі ширше використовується обробка природної мови.

Як детально описано в статті під назвою "DarkBERT: мовна модель для темної сторони інтернету", яка ще не пройшла рецензування, команда підключила свою модель до мережі Tor – системи для доступу до даркнету. Після цього вона взялася до роботи, створюючи базу зі знайдених необроблених даних.

Команда каже, що їхня нова LLM (мовна модель) набагато краще розбирається в темній стороні інтернету, ніж інші моделі, навчені виконувати подібні завдання, зокрема RoBERTa, яку дослідники Facebook розробили ще в 2019 році.

Результати нашої оцінки показують, що модель класифікації на основі DarkBERT перевершує відомі попередньо навчені мовні моделі,
– пишуть автори статті.

Команда припускає, що DarkBERT може бути використаний для різних завдань, пов'язаних з кібербезпекою, таких як виявлення сайтів, які продають програми-вимагачі, або торгують конфіденційними даними. Він також може бути використаний для сканування незліченних форумів у темному інтернеті, які оновлюються щодня, і моніторингу їх на предмет обміну незаконною інформацією.