Больше материалов: Boosty | Sponsr | TG
получение идентификационных данных пользователей, их
личного счета и банковских учётных данных. Это основная
проблема преступной деятельности, когда атакующие
преследуют такие цели, как продажа украденных личных
данных, извлечение наличных, использование уязвимостей
или получение финансовой выгоды.
Исследование направлено на улучшение обнаружения
фишинга с помощью AntiPhishStack, работающего без
предварительного знания особенностей фишинга. Модель
использует возможности сетей долгой краткосрочной
памяти (LSTM), типа рекуррентной нейронной сети,
которая способна изучать зависимость порядка в задачах
прогнозирования последовательности. Он симметрично
использует изучение URL-адресов и функций TF-IDF на
уровне символов, повышая его способность бороться с
возникающими фишинговыми угрозами.
II. МЕТОДОЛОГИЯ И ЗНАЧИМОСТЬ ИССЛЕДОВАНИЯ
В документе представлена новая модель обнаружения
фишинговых сайтов. Важность этого исследования
заключается в совершенствовании методов обнаружения
фишинга, в частности, за счёт внедрения обобщённой
Аннотация – Анализ документа "AntiPhishStack: модель двухфазной стековой модели, названной AntiPhishStack.
многоуровневого обобщения на основе LSTM для Эта модель предназначена для обнаружения
оптимизированного обнаружения фишинговых URL", будет фишинговых сайтов, не требуя предварительного знания
охватывать различные аспекты, включая методологию, особенностей, специфичных для фишинга, что является
результаты и последствия для кибербезопасности. В
значительным улучшением по сравнению с традиционными
частности, будет рассмотрен подход документа к
системами обнаружения, которые полагаются на машинное
использованию сетей с долгой краткосрочной памятью
(LSTM) в рамках многоуровневой структуры обобщения для обучение и ручные функции.
обнаружения фишинговых URL-адресов. Будет изучена Это исследование вносит вклад в продолжающийся
эффективность модели, стратегии её оптимизации и её дискурс о симметрии и асимметрии в информационной
производительность по сравнению с существующими безопасности и предоставляет перспективное решение для
методами. повышения сетевой безопасности перед лицом
развивающихся киберугроз.
В ходе анализа также будут рассмотрены практические
применения модели, способы её интеграции в существующие Источник данных, использованный в исследовании,
меры кибербезопасности и её потенциальное влияние на включает два контрольных набора, содержащих
сокращение числа фишинговых атак. Подчёркнута доброкачественные и фишинговые или вредоносные URL-
актуальность документа для специалистов по адреса. Эти наборы данных используются для
кибербезопасности, ИТ-специалистов и заинтересованных экспериментальной проверки модели. В документе наборы
сторон в различных отраслях, а также важность передовых данных обозначены как DS1 и DS2, причём DS1 включает
методов обнаружения фишинга в современном цифровом доброкачественные сайты Яндекса и фишинговые сайты
ландшафте.
PhishTank, а DS2 состоит из доброкачественных сайтов из
Это изложение послужит ценным ресурсом для экспертов по common-crawl, базы данных Alexa и фишинговых сайтов из
кибербезопасности, ИТ-специалистов и других лиц, PhishTank.
интересующихся последними разработками в области
III. КЛЮЧЕВЫЕ КОМПОНЕНТЫ
обнаружения и предотвращения фишинга.
Антифиш-стековая модель работает в два этапа
I. ВВЕДЕНИЕ (обобщённая модель двухфазного стека):
В документе под названием "Модель многоуровневого • Этап I: модель симметрично запоминает URL-
обобщения на основе LSTM для оптимизации фишинга" адреса и функции TF-IDF на уровне символов. Эти
обсуждается растущая зависимость от революционных функции обучаются на базовом классификаторе
онлайновых веб-сервисов, что привело к повышенным машинного обучения, использующем K-кратную
рискам безопасности и постоянным проблемам, перекрёстную проверку для надёжного
создаваемым фишинговыми атаками. прогнозирования среднего значения.
Фишинг, вводящий в заблуждение метод социальной и • Этап II: для динамической компиляции
технической инженерии, представляет серьёзную угрозу используется двухуровневая многоуровневая сеть
безопасности в Интернете, направленный на незаконное LSTM с пятью адаптивными оптимизаторами,
Больше материалов: Boosty | Sponsr | TG
обеспечивающими превосходное прогнозирование B. Символьные особенности
этих функций. • TF-IDF: используется термин, обратный частоте
• Кроме того, симметричные прогнозы на обоих документа (TF-IDF) на уровне символов, чтобы
этапах оптимизированы и интегрированы для определить относительную важность символов в
обучения мета-классификатора XGBoost, что URL-адресах по всему корпусу анализируемых
способствует получению окончательного URL-адресов.
надёжного прогноза. • Расчёт TF-IDF: оценка TF-IDF состоит из двух
A. URL-особенности частей: частоты использования термина (TF),
которая представляет собой нормированное
• Структура URL-адресов: в документе количество терминов в документе, и обратной
подчёркивается, что злоумышленники часто частоты использования документа (IDF), которая
создают фишинговые URL-адреса, которые кажутся состоит из логарифмов отношения общего
пользователям законными. Они используют тактику количества документов к количеству документов,
блокирования URL-адресов, чтобы обманом содержащих термин.
заставить пользователей раскрыть личную
информацию. • Уровни TF-IDF: упоминается, что векторы TF-IDF
могут генерироваться на разных уровнях, таких как
• Легкие функции: исследование направлено на уровень слова, уровень символа и уровень n-
обнаружение фишинговых веб-сайтов с граммы, причём уровень символа особенно важен
использованием облегчённых функций, в частности для данного исследования.
системы маркеров URL с весовым коэффициентом,
которые позволяют быстро обнаруживать их без • Ограничения TF-IDF: хотя TF-IDF полезен для
доступа к содержимому веб-сайта. извлечения важных ключевых слов, у него есть
ограничения, такие как невозможность извлечения
• Вычисление веса: приводится формула для терминов с орфографическими ошибками, что
вычисления весаt Wi for i-th d неопределённого слова может быть проблематичным, поскольку URL-
в URL-адресе, которая используется для присвоения адреса могут содержать бессмысленные слова.
значения веса каждому URL-адресу для
прогнозирования фишинга. • Символьный TF-IDF: чтобы устранить
ограничения TF-IDF для URL-адресов, которые
• Компоненты URL: описываются компоненты могут содержать орфографические ошибки или
URL-адреса, включая протокол, IP-адрес хоста или бессмысленные слова, в исследовании используется
местоположение ресурса, основные домены, подход TF-IDF на уровне символов с максимальным
домены верхнего уровня (TLD), номер порта, путь и количеством функций 5000.
необязательные поля, такие как запрос.
• Естественное изучение функций: модель
• Индикаторы фишинга: несколько обрабатывает строки URL как последовательности
дополнительных признаков идентифицируются как символов, которые считаются естественными
индикаторы фишинга, такие как использование IP- функциями, не требующими предварительного
адреса вместо доменного имени, наличие символа знания функций для эффективного изучения
"@", символа "//", префиксов и суффиксов моделью.
доменных имён, разделённых знаком "-", и
использование нескольких поддоменов. • Обобщение стека для извлечения объектов:
модель использует обобщение стека для извлечения
• HTTPS и возраст сертификата: отмечается, что локальных объектов URL из последовательностей
большинство законных сайтов используют HTTPS, символов, а для окончательного прогнозирования
и возраст сертификата имеет решающее значение. разработан метаклассификатор.
Требуется сертификат, заслуживающий доверия.
• Преимущества подхода: подход позволяет
• Favicon: favicon может использоваться для предлагаемой модели обучаться на
перенаправления клиентов на сомнительные сайты, последовательностях символов URL как
когда он находится во внешнем пространстве. естественных признаках, что упрощает процесс
• Анализ вспомогательных функций: в документе обучения и потенциально улучшает способность
представлен анализ вспомогательных функций, модели обнаруживать фишинговые URL-адреса без
таких как IP-адрес, символ "@", символ "//", предварительного знания особенностей
префиксы и суффиксы доменных имён, HTTPS и C. Модель обобщения стека
значок, объясняющий, как эти функции можно
использовать для идентификации фишинговых веб- • Двухфазный подход: модель разделена на две
сайтов фазы. На этапе I используются классификаторы
машинного обучения для генерации среднего
прогноза, в то время как на этапе II используется
двухуровневая стековая обобщённая модель на
Больше материалов: Boosty | Sponsr | TG
основе LSTM, оптимизированная для наилучшего логистическая регрессия, метод K-ближайших
прогнозирования при обнаружении фишинговых соседей и последовательная минимальная
сайтов. оптимизация, выявил превосходную
эффективность обнаружения фишинга в модели.
• Интеграция прогнозов: средний прогноз из фазы
I объединяется с основным прогнозом из фазы II. • Было установлено, что эта модель эффективна при
Затем для получения окончательного прогноза выявлении новых фишинговых URL-адресов,
используется метаклассификатор, в частности которые ранее не были идентифицированы как
XGBoost. мошеннические.
• Метод обобщения стека: в модели используется • Модель работает без предварительного знания
обобщение стека, методология коллективного особенностей фишинга, что является
обучения, которая объединяет различные значительным преимуществом в достижении
алгоритмы машинного обучения и модели прогресса в области кибербезопасности
глубокого обучения для повышения
эффективности обнаружения. E. Оценка оптимизатора в LSTM
• Производительность оптимизатора: в статье
• Model Flow: включает в себя сбор наборов данных, оценивается производительность пяти различных
разделение их на обучающие и тестовые наборы, адаптивных оптимизаторов: AdaDelta, Adam,
построение этапов модели обобщения стека и RMSProp, AdaGard и SGD (Stochastic Gradient
объединение прогнозов для получения Descent), чтобы определить, какой из них лучше
окончательного. всего подходит для предлагаемой модели защиты
• Важность функции: модель подчёркивает от фишинга.
важность функций TF-IDF на уровне URL и • Эпохи и скорость обучения: для реализации
символов, которые используются симметрично для двухуровневого LSTM с разными оптимизаторами
обнаружения фишинговых веб-страниц. рассматривается разное количество эпох. Скорость
• Существенные преимущества: модель обладает обучения, важнейший параметр, настраивается для
рядом преимуществ, включая независимость от каждого оптимизатора, для контроля модели.
предварительного знания функций, высокую • Точность, MSE и MAE: в документе указаны
способность к обобщению и независимость от точность, среднеквадратичная ошибка (MSE) и
экспертов по кибербезопасности и сторонних средняя абсолютная ошибка (MAE) для каждого
сервисов. оптимизатора с использованием модели
• Улучшенное обнаружение фишинга: модель обобщения стека на основе LSTM на двух наборах
предназначена для интеллектуального выявления данных (DS1 и DS2).
новых фишинговых URL-адресов, ранее не • Результаты для наборов данных: оптимизатор
идентифицированных как мошеннические, AdaGard обеспечил высочайшую точность при
демонстрируя надёжную работу на контрольных минимальных значениях MSE и MAE в DS1, в то
наборах данных. время как оптимизатор Adam достиг наивысшей
D. Эксперименты точности в DS2.
Представлена экспериментальная проверка • Кривые точного воспроизведения: кривые
предложенной модели. Она была протестирована на двух точного воспроизведения представлены для
контрольных наборах данных, которые включали каждого набора функций, указывая на компромисс
доброкачественные и фишинговые или вредоносные URL- между точностью и повторным воспроизведением
адреса. для различных оптимизаторов.
• Модель продемонстрировала исключительную • Выбор оптимизатора: анализ показывает, что
производительность при обнаружении скорость обучения в значительной степени
фишинговых сайтов, достигнув точности 96,04%. способствует успеху предлагаемой модели с
Этот результат был заметно выше по сравнению с адаптивными оптимизаторами. Оптимизатор Adam
существующими исследованиями. выделяется своей производительностью с
определённой скоростью обучения при
• Модель оценивалась с помощью различных использовании двухуровневого LSTM со 100
матриц, включая кривую AUC-ROC, точность, эпохами.
отзыв, F1, среднюю абсолютную ошибку (MAE),
среднеквадратичную ошибку (MSE) и точность. • Сравнительный анализ: сравнивается средняя
производительность оптимизаторов на DS1 и DS2,
• Сравнительный анализ с базовыми моделями и при этом DS2 показывает несколько лучшую
традиционными алгоритмами машинного точность.
обучения, такими как метод опорных векторов,
дерево решений, наивный байесовский алгоритм,
Больше материалов: Boosty | Sponsr | TG
• Значимость оптимизаторов: оценка достигая заметной точности 96,04% по сравнению
оптимизаторов имеет решающее значение для с существующими исследованиями
точности модели, которая является ключевым
компонентом машинного обучения и • Независимость от экспертов по
искусственного интеллекта, отвечающим за кибербезопасности и сторонних сервисов:
формирование модели для получения наиболее модель самостоятельно извлекает необходимые
точных результатов из возможных функции URL, устраняя зависимость от экспертов
по кибербезопасности. Она также демонстрирует
IV. КЛЮЧЕВЫЕ ВЫВОДЫ независимость от функций сторонних
производителей, таких как рейтинг страницы или
Конструкция модели позволяет эффективно возраст домена
идентифицировать новые фишинговые URL-адреса, ранее
не идентифицированные как мошеннические, тем самым • Независимость от предварительного знания
снижая вероятность ложноотрицательных результатов. функций: подход, использованный в этой работе,
Использование K-кратной перекрёстной проверки и рассматривает строки URL как
двухуровневой сети LSTM помогает предотвратить последовательности символов, выступающие в
переоснащение и улучшить способность модели правильно качестве естественных функций, которые не
классифицировать фишинговые сайты, тем самым снижая требуют предварительного знания для
вероятность ложных срабатываний. эффективного изучения предлагаемой моделью
• Разработка модели: новый режим, внедрённый с • Повышение сетевой безопасности: исследование
помощью обобщённой модели двухфазного стека, добавляет ценности продолжающемуся
предназначенной для эффективного обнаружения обсуждению симметрии и асимметрии в
фишинговых сайтов. информационной безопасности и предлагает
перспективное решение для повышения сетевой
• Симметричное изучение URL-адресов и безопасности перед лицом развивающихся
функций TF-IDF на уровне символов: в модели киберугроз.
симметричное изучение URL-адресов и функций
TF-IDF на уровне символов. Это повышает V. ПРЕИМУЩЕСТВА И ОГРАНИЧЕНИЯ ИССЛЕДОВАНИЯ
способность модели бороться с возникающими
фишинговыми угрозами. Для сравнения, традиционные фишинговые системы,
основанные на машинном обучении и ручных функциях,
• Двухфазная работа: на этапе I функции обучаются борются с эволюционирующими тактиками. Другие
на базовом классификаторе машинного обучения с модели, такие как модель CNN-LSTM и архитектура
использованием K-кратной перекрёстной проверки сквозного глубокого обучения, основанная на методах
для надёжного прогнозирования среднего обработки естественного языка, показали ограничения в их
значения. На этапе II используется двухуровневая обобщении тестовых данных и их зависимости от
многоуровневая сеть LSTM с пятью адаптивными существующих знаний об обнаружении фишинга. Модель
оптимизаторами для динамической компиляции, AntiPhishStack, напротив, демонстрирует высокую
обеспечивающими превосходное прогнозирование способность к обобщению и независимость от предыдущих
этих функций. знаний функций, что делает её надёжным и эффективным
инструментом для обнаружения фишинга.
• Интеграция прогнозов (Мета-классификатор
XGBoost): симметричные прогнозы на обоих Преимущества исследования по сравнению с
этапах оптимизированы и интегрированы для традиционными фишинговыми системами включают:
обучения мета-классификатора XGBoost, что
• Независимость от предварительного знания
способствует получению окончательного
функций: AntiPhishStack не требует
надёжного прогноза.
предварительного знания функций, специфичных
• Независимость от предварительного знания для фишинга, что позволяет ему адаптироваться к
функций, специфичных для фишинга: модель новым и развивающимся тактикам более
работает без предварительного знания функций, эффективно, чем традиционные системы, которые
специфичных для фишинга, что является полагаются на предопределённые функции.
значительным достижением в его обнаружении,
• Независимость от экспертов по
которое демонстрирует сильную способность к
кибербезопасности и сторонних сервисов:
обобщению и независимость от экспертов по
модель автономно извлекает необходимые
кибербезопасности и сторонних сервисов.
функции URL, уменьшая зависимость от экспертов
• Высокая производительность: проверка по кибербезопасности и сторонних сервисов, таких
(экспериментальная) на двух контрольных наборах как рейтинг страницы или возраст домена, от
данных, включающих «доброкачественные» и которых могут зависеть традиционные системы.
фишинговые или вредоносные URL-адреса,
• Высокая точность: Модель продемонстрировала
демонстрирует производительность модели,
исключительную производительность, достигнув
Больше материалов: Boosty | Sponsr | TG
заметной точности 96,04% для контрольных новые или изощренные попытки фишинга, которые
наборов данных, что является значительным используют функции, не учтённые при обучении.
улучшением по сравнению с традиционными
системами. VI. ЗНАЧЕНИЕ ДЛЯ БУДУЩИХ ИССЛЕДОВАНИЙ
• Адаптивность к развивающимся угрозам: • Обобщение модели: способность модели работать
Конструкция модели позволяет ей извлекать уроки без предварительного знания особенностей
из обрабатываемых данных, что потенциально фишинга предполагает, что будущие исследования
делает её более адаптируемой к постоянно могут быть направлены на разработку более
меняющимся тактикам, используемым обобщённых моделей, которые могут
атакующими, в отличие от традиционных систем, адаптироваться к различным типам киберугроз без
которые могут требовать обновления вручную для обширной переподготовки.
сохранения эффективности. • Методы глубокого обучения: успех модели на
Ограничения исследования включают: основе LSTM указывает на то, что методы глубокого
обучения обладают значительным потенциалом в
• Применение в реальном мире: в документе не приложениях кибербезопасности. Будущие
обсуждается производительность модели в исследования могли бы дополнительно изучить
реальных сценариях, где фишинговые тактики интеграцию различных архитектур нейронных
постоянно развиваются. сетей и их эффективность в обнаружении угроз.
• Производительность на других наборах данных: • Извлечение признаков: использование функций
производительность модели была проверена на TF-IDF на уровне символов и анализа URL-адресов
двух контрольных наборах данных, но неясно, как в модели демонстрирует важность извлечения
она будет работать на других наборах или в других признаков для обнаружения фишинга.
контекстах. Исследования могли бы быть сосредоточены на
выявлении новых признаков и методов извлечения
• Зависимость от функций: зависимость модели от для повышения уровня обнаружения.
функций TF-IDF на уровне URL и символов может
ограничить её способность обнаруживать попытки • Стековое обобщение: двухфазный подход,
фишинга, использующие другие тактики. используемый в модели, которая объединяет
классификаторы машинного обучения и сети LSTM,
• Вычислительные ресурсы: в документе не демонстрирует преимущества многоуровневого
обсуждаются вычислительные ресурсы, обобщения. В будущих исследованиях можно было
необходимые для реализации модели, что может бы изучить другие комбинации алгоритмов и
быть потенциальным ограничением для некоторых моделей для повышения эффективности
пользователей. прогнозирования.
Предлагаемая модель имеет ряд ограничений с точки
• Эталонные наборы данных: использование
зрения масштабируемости и производительности.
эталонных наборов данных для проверки модели
• Во-первых, зависимость модели от сетей долгой подчёркивает необходимость всеобъемлющих и
краткосрочной памяти (LSTM) может привести к актуальных наборов данных в исследованиях
неэффективности вычислений. Сети LSTM кибербезопасности. Будущая работа может
известны своими высокими требованиями к включать создание и поддержание наборов данных,
вычислениям и памяти, что может ограничивать отражающих последние тенденции в области угроз.
масштабируемость модели при работе с большими
наборами данных или в приложениях реального VII. ОСНОВНОЙ ВКЛАД В КИБЕРБЕЗОПАСНОСТЬ
времени. • Независимость от предварительного знания
функций: способность модели извлекать
• Во-вторых, двухэтапный подход модели, который
информацию из строк URL в виде
включает в себя обучение функций в базовом
последовательностей символов без необходимости
классификаторе машинного обучения, а затем
предварительного знания функций упрощает
использование двухуровневой многоуровневой сети
процесс обнаружения и делает его более
на основе LSTM, может потребовать много времени
адаптируемым к новым и неизвестным
и вычислительных ресурсов. Это потенциально
фишинговым атакам.
может ограничить производительность модели в
сценариях обнаружения фишинга в реальном • Высокая способность к обобщению:
времени. использование в модели функций на основе
символов URL для надёжного обобщения и
• Наконец, хотя модель предназначена для работы без
точности проверки в сочетании с интеграцией
предварительного знания специфических функций
многоуровневых функций в нейронной сети
фишинга, это также может быть ограничением.
повышает её эффективность при обобщении
Модели может быть сложно точно обнаруживать
различных фишинговых угроз.
Больше материалов: Boosty | Sponsr | TG
• Независимость от экспертов по модель автономно извлекает необходимые
кибербезопасности и сторонних сервисов: функции URL, устраняя зависимость от экспертов
благодаря автономному извлечению необходимых по кибербезопасности и сторонних сервисов. В
функций, URL модель снижает зависимость от будущих исследованиях можно было бы изучить
экспертов по кибербезопасности и сторонних способы дальнейшего повышения этой
сервисов, что делает её самодостаточным независимости, возможно, за счёт разработки более
инструментом для обнаружения фишинга. сложных методов выделения признаков.
• Повышенная точность обнаружения: • Оптимизация модели многоуровневого
экспериментальная проверка модели на обобщения: используется двухфазная модель
контрольных наборах данных продемонстрировала многоуровневого обобщения, при этом на первом
исключительную производительность с заметной этапе генерируется прогноз среднего значения, а на
точностью 96,04%, что выше, чем в существующих втором этапе используется двухуровневая
исследованиях. обобщённая модель стека на основе LSTM,
оптимизированная для наилучшего
• Вклад в симметрию в информационной прогнозирования при обнаружении фишинговых
безопасности: исследование дополняет дискурс о сайтов. Будущие исследования могли бы быть
симметрии и асимметрии в информационной сосредоточены на оптимизации этой модели,
безопасности, предоставляя модель, которая может возможно, с помощью различных алгоритмов или
симметрично изучать и обнаруживать фишинговые методов машинного обучения.
URL-адреса, тем самым повышая безопасность сети
от возникающих киберугроз. • Повышение точности: хотя модель
продемонстрировала высокую точность
VIII. ПРЕДПОЛАГАЕМЫЕ НАПРАВЛЕНИЯ БУДУЩИХ обнаружения фишинговых сайтов, будущие
ИССЛЕДОВАНИЙ исследования могут быть сосредоточены на
• Улучшение способности к обобщению: модель способах дальнейшего повышения этой точности,
обладает сильной способностью к обобщению, особенно в контексте атак нулевого дня и других
используя функции на основе символов URL для передовых методов фишинга.
надёжного обобщения и точности проверки. • Распространение модели на другие приложения
Будущие исследования могли бы быть кибербезопасности: модель потенциально может
сосредоточены на дальнейшем повышении этой быть адаптирована для других приложений
способности, особенно в контексте развития кибербезопасности, помимо обнаружения
тактики и методов фишинга. фишинга.
• Повышение независимости от экспертов по
кибербезопасности и сторонних сервисов: