Разработка системы обнаружения фишинговых атак на основе анализа текста и URL с использованием методов NLP и машинного обучения

XXV Международный конкурс научно-исследовательских и творческих работ учащихся
Старт в науке

Разработка системы обнаружения фишинговых атак на основе анализа текста и URL с использованием методов NLP и машинного обучения

Мурзин Н.Д. 1
1АНОО «Президентский Лицей «Сириус»
Чумакова Е.А. 1
1АНОО «Президентский Лицей «Сириус»
Автор работы награжден дипломом победителя II степени
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

ВВЕДЕНИЕ

Фишинг остается одним из самых опасных и распространенных видов кибермошенничества, представляя угрозу, как для частных пользователей, так и для крупных организаций. С развитием цифровых технологий методы фишинга становятся все более изощренными: злоумышленники используют социальную инженерию, искусственный интеллект и сложные схемы обмана, чтобы обойти традиционные системы защиты.

Основные формы фишинга:

  • Электронные письма (83% всех атак);

  • Поддельные веб-страницы (12%);

  • СМС-сообщения (5%).

Тенденции последних лет:

  • Использование генеративных ИИ для создания убедительного контента;

  • Рост таргетированных атак (spear phishing);

  • Усложнение методов обфускации URL.

Актуальность темы обусловлена несколькими факторами:

  1. Рост числа атак – по данным экспертов, более трети всех утечек данных происходят из-за фишинга.

  2. Экономические потери – ущерб от таких атак исчисляется миллиардами долларов ежегодно.

  3. Неэффективность классических методов – черные списки URL и сигнатурный анализ не справляются с новыми видами угроз.

  4. Использование AI в мошеннических целях – нейросети позволяют создавать убедительные фишинговые письма без грамматических ошибок.

Объект исследования: фишинговые атаки как вид кибермошенничества.

Предмет исследования: автоматизированные методы обнаружения фишинговых атак.

Гипотеза: комбинированный анализ текстового содержимого и URL-адресов с применением методов NLP и машинного обучения позволит с высокой точностью (>90%) выявлять фишинговые атаки, включая новые, ранее неизвестные схемы, превосходя по эффективности традиционные сигнатурные методы и черные списки.

Цель работы: разработать автоматизированную систему для выявления фишинга.

Задачи:

  1. Провести анализ современных фишинговых атак;

  2. Исследовать существующие методы противодействия;

  3. Провести всестороннее тестирование;

  4. Выявить наиболее значимые признаки фишинга;

  5. Разработать рекомендации.

Практическая значимость проекта заключается в возможности интеграции решения в почтовые сервисы, браузеры и корпоративные системы безопасности для оперативного предупреждения пользователей об опасности.

  1. Теоретические аспекты исследования фишинговых атак

    1. Определение и классификация фишинговых атак

Фишинг (от англ. "fishing" - рыбалка) представляет собой вид кибермошенничества, при котором злоумышленники используют методы социальной инженерии для получения конфиденциальной информации. В современной кибербезопасности фишинг классифицируют по нескольким ключевым критериям:

  1. По каналам распространения:

  • Email-фишинг (83% случаев);

  • Веб-фишинг (поддельные сайты);

  • СМС-фишинг (smishing);

  • Голосовой фишинг (vishing);

  • Мессенджеры и соцсети.

2. По степени таргетированности:

  • Массовый фишинг (bulk phishing);

  • Таргетированный (spear phishing);

  • VIP-фишинг (whaling).

3. По технике реализации:

  • Клонирование легитимных ресурсов;

  • Поддельные формы ввода данных;

  • Вредоносные вложения;

  • Скрытые редиректы.

4. По тематике атак:

  • Финансовый (банки, платежные системы);

  • Корпоративный (компрометация учетных записей);

  • Государственный (госучреждения);

  • Потребительский (онлайн-магазины).

    1. Статистика и динамика развития фишинговых атак

Глобальная статистика (2023-2024):

  1. Рост количества атак:

  • 65% компаний сообщили об увеличении фишинговых атак (ProofPoint);

  • Ежедневно обнаруживается 1,5 млн новых фишинговых сайтов (APWG);

  • На 37% выросло количество мобильных фишинговых атак (Lookout).

  1. Экономический ущерб:

  • Средняя стоимость успешной атаки - $4,76 млн (IBM Cost of Data Breach 2023);

  • Общий мировой ущерб превысил $14,8 млрд (FBI IC3 Report).

  1. Отраслевое распределение:

  • Финансовый сектор (32% атак);

  • Здравоохранение (22%);

  • IT-компании (18%);

  • Госучреждения (15%).

Динамика развития по годам:

Год

Количество атак

Основные тенденции

2020

241 тыс.

Рост на 220% из-за пандемии

2021

611 тыс.

Появление фишинга в Teams/Slack

2022

1,04 млн

Массовый переход на HTTPS

2023

1,78 млн

Взрывной рост AI-фишинга

  1. Концепция системы обнаружения фишинга

    1. Цель и задачи разработки системы

Основная цель разработки системы обнаружения фишинговых атак — создание высокоэффективного инструмента для автоматизированного выявления и блокирования фишинговых веб-страниц и электронных сообщений с использованием гибридного подхода, сочетающего методы обработки естественного языка (NLP) и машинного обучения (ML).

Система должна:

  • Обеспечивать высокую точность детектирования фишинга (минимизация ложных срабатываний).

  • Адаптироваться к новым методам обмана, используемым злоумышленниками.

  • Интегрироваться в существующие системы кибербезопасности (например, почтовые сервисы, веб-браузеры).

  • Обрабатывать данные в реальном времени для оперативного реагирования.

Ожидаемые результаты

  • Снижение количества успешных фишинговых атак за счет раннего обнаружения.

  • Автоматизация процесса проверки контента, уменьшающая нагрузку на специалистов по безопасности.

  • Масштабируемость системы для работы с большими объемами данных.

    1. Обзор и сравнительный анализ существующих решений

В данном разделе рассматриваются современные методы и инструменты для обнаружения фишинговых атак, проводится их сравнительный анализ и обосновывается выбор гибридного подхода (NLP + ML) для разрабатываемой системы.

Критерий

Статические
методы

Машинное
обучение

NLP

Гибридные системы

Точность

Низкая

Высокая

Средняя

Очень высокая

Обнаружение новых атак

Нет

Да

Да

Да

Скорость работы

Очень высокая

Средняя

Низкая

Средняя/Высокая

Ложные срабатывания

Высокие

Средние

Низкие

Очень низкие

Сложность реализации

Низкая

Средняя

Высокая

Очень высокая

    1. Обоснование выбора гибридного подхода (NLP + ML)

Анализ показал, что ни один из существующих методов не обеспечивает 100% защиты от фишинга:

  • Статические методы быстро устаревают.

  • Чистое ML требует огромных датасетов и может пропускать сложные атаки.

  • Только NLP не всегда эффективен для анализа URL и структуры страниц.

Почему гибридный подход (NLP + ML)?

1.Комплексный анализ:

  • ML обнаруживает аномалии в URL и метаданных.

  • NLP выявляет скрытые признаки обмана в тексте.

2.Гибкость:

  • Можно добавить модуль проверки по черным спискам для скорости.

3.Высокая точность:

  • Комбинация методов снижает количество ложных срабатываний.

Пример работы гибридной системы:

  1. Письмо приходит на почту → статический фильтр проверяет URL по черному списку.

  2. Если URL новый → ML-модель анализирует признаки (домен, длина ссылки).

  3. NLP-модель оценивает текст на наличие фишинговых маркеров.

  4. Итоговый скоринг определяет уровень угрозы.

Вывод

Гибридный подход NLP + ML является оптимальным для современного фишинга, так как сочетает точность машинного обучения и глубину анализа NLP. Существующие решения (Symantec, Google Safe Browsing) уже используют комбинированные методы, что подтверждает эффективность выбранного направления.

  1. Методология исследования

    1. Процесс сбора и подготовки данных

Источники данных

Для обучения и тестирования системы используются:

  1. Фишинговые данные:

  • Открытые базы (PhishTank, OpenPhish).

  • Дампыспам-писем (SpamAssassin, Enron Dataset).

  • Публичные датасеты (Kaggle, GitHub)

  1. Легитимные данные:

  • Официальные письма компаний (анонимизированные корпоративные письма).

  • Веб-страницы популярных сервисов (Google, Amazon, банки)

Этапы подготовки данных.

  1. Сбор и первичная фильтрация:

  • Удаление дубликатов.

  • Балансировка классов (фишинг / не фишинг)

  1. Разметка данных:

  • Ручная проверка выборки (экспертами по кибербезопасности).

  • Использование уже размеченных датасетов (например, PhishTank)

  1. Предобработка текста (NLP):

  • Токенизация (разбиение на слова/символы).

  • Удаление стоп-слов (предлоги, союзы).

  • Лемматизация (приведение слов к нормальной форме)

  1. Обработка URL и метаданных:

  • Извлечение домена, поддоменов, параметров.

  • Кодирование категориальных признаков (One-Hot Encoding)

3.2. Методы извлечения и анализа признаков

Для обучения модели используются три категории признаков:

  1. URL-признаки

2. Текстовые признаки (NLP)

  1. Внешние признаки

Инструменты для обработки

  • Для NLPNLTKspaCyBERT.

  • Для MLScikit-learn (Random Forest, XGBoost), TensorFlow.

  • Дляанализа URLtldextracturllib.parse.

Вывод

Методология включает:

  1. Сбор разнородных данных (URL, письма, метаданные).

  2. Глубокая предобработка (очистка текста, извлечение признаков).

  3. Комбинирование признаков (URL + текст + внешние источники).

Это обеспечит высокую точность гибридной модели на этапе обучения и тестирования.

  1. Реализация системы обнаружения фишинга

    1. Архитектура системы

В этом разделе описывается практическая реализация системы, включая ее архитектуру, ключевые признаки фишинга и процесс разработки прототипа.

Система построена по модульному принципу с использованием микросервисной архитектуры для обеспечения масштабируемости. Основные компоненты:

1. Входные данные

  • Электронные письма (IMAP/POP3, API почтовых сервисов).

  • Веб-страницы (браузерные расширения, прокси-серверы).

  1. Выходные действия

  • Для почты: пометка как "фишинг", перемещение в спам.

  • Для браузеров: блокировка страницы с предупреждением.

  • Для корпоративных систем: оповещение SOC (Security Operations Center).

Схема работы

4.2. Разработка и тестирование прототипа

Этапы разработки

  1. Прототип на Python:

  • Использование Flask для API.

  • Интеграция моделей NLP (BERT) и ML (XGBoost).

  1. Тестовый датасет:

  • 5 000 фишинговых и 5 000 легитимных примеров.

  • Балансировка: 50/50.

  1. Метрики тестирования:

Метрика

Результат

Точность (Accuracy)

98.2%

F1-Score

97.8%

AUC-ROC

0.991

Проблемы и решения

  • Ложные срабатывания: Добавлен ручной режим проверки для спорных случаев.

  • Производительность: Оптимизация через кэширование URL и моделей.

Вывод: Прототип подтвердил эффективность гибридного подхода, превзойдя существующие решения по точности.

Итог раздела

  • Реализована модульная система с NLP и ML.

  • Ключевые признаки: URL + текст + метаданные.

  • Тесты показали точность >98% с минимальными задержками

ЗАКЛЮЧЕНИЕ

В данной работе была разработана гибридная система обнаружения фишинговых атак, сочетающая методы обработки естественного языка (NLP) и машинного обучения (ML). Проведенное исследование подтвердило, что такой подход позволяет достичь высокой точности детектирования (98.2%) при минимальном количестве ложных срабатываний.

Ключевые результаты

  1. Теоретическая часть:

  • Систематизированы современные фишинговые техники и методы борьбы с ними.

  • Обосновано превосходство гибридных систем (NLP + ML) над традиционными подходами (черные списки, статические правила).

  1. Практическая реализация:

  • Разработана модульная архитектура, включающая:

    • NLP-анализатор текста (BERT, spaCy).

    • ML-классификатор URL и метаданных (XGBoost, Random Forest).

    • Гибридный движок для принятия решений.

  • Выделены наиболее значимые признаки фишинга:

    • URL (длина, домен, HTTPS).

    • Текст (ключевые слова, грамматика, социнженерия).

    • Метаданные (адреса отправителей, возраст домена).

Разработанная система демонстрирует надежность и масштабируемость, что позволяет внедрять ее в:

  • Корпоративные почтовые сервисы.

  • Браузеры (как расширение или встроенный модуль).

  • Мобильные приложения банков и соцсетей.

Фишинг остается одной из главных киберугроз, но комбинация NLP и ML — это эффективный способ противодействия.

Итог: Работа вносит вклад в область кибербезопасности, предлагая инновационное решение для автоматизированной защиты от фишинга.

Список литературы

  1. Васильев А. И. Машинное обучение в информационной безопасности. — М. : Вильямс, 2022. — 320 с.

  2. Иванова Е. С. Гибридные подходы к анализу фишинговых веб-страниц // Труды международной конференции по информационной безопасности. — 2022. — С. 112–125.

  3. Kaggle : наборы данных для анализа фишинга [Электронный ресурс]. — URL: https://www.kaggle.com/datasets (дата обращения: 31.05.2025).

  4. Козлов М. П. Применение обработки естественного языка для выявления фишинговых сообщений // Журнал искусственного интеллекта. — 2023. — Т. 12, № 3. — С. 78–92.

  5. Лаборатория Касперского : блог о фишинге [Электронный ресурс]. — URL: https://www.kaspersky.ru/blog (дата обращения: 31.05.2025).

  6. OpenPhish : сервис мониторинга фишинговых атак [Электронный ресурс]. — URL: https://www.openphish.com (дата обращения: 31.05.2025).

  7. PhishTank : база данных фишинговых сайтов [Электронный ресурс]. — URL: https://www.phishtank.com (дата обращения: 31.05.2025).

  8. Positive Technologies : материалы по кибербезопасности [Электронный ресурс]. — URL: https://www.ptsecurity.com/ru-ru/research/ (дата обращения: 31.05.2025).

  9. Смирнов А. В., Петров К. Д. Современные методы обнаружения фишинговых атак с использованием машинного обучения // Кибербезопасность и защита информации. — 2023. — № 4. — С. 45–60.

  10. Соколов Д. В. Глубокое обучение для анализа текстов. — СПб. : Питер, 2023. — 256 с.

  11. ФСТЭК России. Методика выявления фишинговых атак. — М., 2023. — 48 с.

Приложения

Примеры фишинговых и легитимных данных

  1. Фишинговые URL

Содержат поддельные домены, имитирующие бренды, и подозрительные параметры.

  1. Легитимные URL

  1. Тексты фишинговых писем

Признаки фишинга:

  • Угроза удаления аккаунта;

  • Поддельная ссылка;

  • Ошибки в стилистике.

Федеральная территория «Сириус», 2025

Просмотров работы: 61