540

Альберт Газизов

20 мая 2024

Инфобез

Medium

20 мая 2024 в 18:51

Как мы использовали машинное обучение для обнаружения инсайдерских угроз

Время чтения 6 минут

540

Всем привет! Меня зовут Альберт Газизов, в Crosstech Solutions Group я развиваю линейку продуктов DataGrain. В этой статье расскажу про основные концепции и подходы, используемые в нашей аналитической платформе DataGrain RUMA (Remote User Monitoring Analytics). Это мощный инструмент для аналитики поведения пользователей и сущностей и обеспечения безопасности предприятия. Ее основное преимущество — возможность эффективно решать сценарии использования безопасности даже для сотрудников без специфических знаний в области данных. Это обеспечивает SOC (Security Operation Center) возможность сконцентрироваться на предотвращении атак и защите информации.

Как мы использовали машинное обучение для обнаружения инсайдерских угроз

Что такое инсайдерская угроза

Инсайдерская угроза — это вредоносная деятельность, которая исходит от действующих или бывших сотрудников, партнеров, подрядчиков или временных работников. Инсайдером может оказаться любой человек, у которого есть доступ к цифровым и физическим активам организации.

Мотивация инсайдеров разнообразна — чаще всего их действия мотивированы желанием получить финансовую выгоду. Однако инциденты также могут быть связаны со шпионажем, местью, небрежностью в обращении с данными и нарушением требований безопасности. Инсайдерские угрозы чаще встречаются в таких сферах как здравоохранение, телекоммуникация, финансовый сектор и государственные учреждения, однако они могут затронуть информационную безопасность любой компании.

Чтобы защититься от внутренних угроз, организация может сосредоточиться на таких направлениях как обучение сотрудников, координация информационной безопасности, создание команды по поиску угроз и аналитика поведения пользователей. За последнее направление отвечает один из модулей нашей платформы DataGrain RUMA.

Что такое аналитика пользователей и сущностей

Аналитика пользователей и сущностей, в оригинале User and Entity Behavior Analytics (UEBA) — это отслеживание, сбор и анализ данных пользователей и активов с помощью различных методов анализа. Чтобы найти угрозу в организации, UEBA выделяет аномалии в поведении от нормального. Для этого в течение 30–60 дней система наблюдает за действиями пользователей, чтобы определить типичное поведение, а потом фиксирует отклонения от этого шаблона, если они есть. Технология UEBA замечает, например, злоупотребление учётными данными или передачу больших объемов данных, что может свидетельствовать о внутренних угрозах.

До появления UEBA инсайдеров выявляли на основе аудита системы доступа и мониторинга активности пользователей с использованием правил и сценариев, настроенных в системах безопасности, таких как SIEM (Security information and event management). Подобные системы безопасности могли обнаружить только то, что им было известно и описано заранее. Они также не учитывали контекст и не могли моделировать поведенческий профиль, который включает в себя базовое поведение пользователей и действий объектов.

Что такое поведенческое профилирование

Поведенческое профилирование — метод анализа данных безопасности на основе машинного обучения, который позволяет распознавать типичные паттерны поведения пользователей или системных активов. Этот метод отслеживает и анализирует нормальные в рамках определенной среды действия и выявляет отклонения от этой нормы. Аномалии могут указывать на потенциально вредоносную или несанкционированную активность в организации.

Злоумышленники умеют обходить традиционные методы обнаружения угроз, основанные на сигнатурах (например, двоичного файла, известного как вредоносное ПО) и правилах корреляции (например, детектирование многократных попыток входа в систему). Анализ поведения выгодно отличается от таких методов тем, что позволяет выявлять субъективные аномалии, которые могут быть незаметны при статическом анализе.

Какие методы и технологии используются для моделирования поведенческого профиля

Для моделирования поведенческого профиля DataGrain RUMA использует несколько передовых методов и технологий. Одним из ключевых элементов является применение моделей марковских цепей.

Марковские цепи — это стохастические модели, которые предсказывают будущее состояние системы исключительно на основе её текущего состояния, игнорируя путь, который привёл к этому состоянию. Это делает их идеальными для анализа последовательностей действий пользователей, где каждое следующее зависит только от предыдущего. Модели марковских цепей формируют шаблон типичной последовательности действий, что помогает выявлять отклонения от нормы, такие как необычные или подозрительные последовательности действий, которые могут указывать на внутренние угрозы.

Кроме того, мы используем статистические модели для определения количественных аномалий. Эти модели строят доверительные интервалы на основе предыдущих действий пользователя, утилизируя методы и подходы на основе центральной предельной теоремы. Данные проверяются на различные типы распределений, что позволяет с высокой точностью определять необычные действия, которые могут указывать на внутренние угрозы. Например, если пользователь внезапно начинает загружать или передавать объемы данных, значительно превышающие его обычную активность, это может указывать на попытку утечки данных. Статистические методы позволяют также оценить вероятность того, что наблюдаемое поведение является результатом случайности, а не умышленной деятельности.

Один из примеров такого анализа — использование теста на выбросы (outlier detection) в контексте поведенческой аналитики. Предположим, что у нас есть исторические данные о ежедневном объеме передачи данных каждым сотрудником в компании. Мы можем использовать статистические методы для создания модели, которая описывает нормальное распределение объема данных для каждого пользователя.

Шаги анализа:

Сбор данных — собираются данные за определенный период.
Моделирование распределения — рассчитываем среднее, стандартное отклонение для моделирования нормального распределения объема передачи данных.
Определение пороговых значений — на основе распределения определяем, какой объем данных является пороговым значением.
Тестирование на выбросы — применяем эти пороги к текущим данным для выявления аномалий. Если объем данных, переданный пользователем, значительно превышает его обычный уровень, это может быть признаком умышленной деятельности, такой как попытка организовать утечку данных. Если обнаруженный объем данных значительно выходит за рамки установленных порогов, мы можем использовать статистические тесты, такие как T-тест или Z-тест, для оценки вероятности того, что такое отклонение могло произойти случайно. Низкая вероятность (например, p-значение меньше 0,05) указывает на то, что такое поведение вряд ли является случайным, что может потребовать дополнительного расследования.

Важной особенностью нашей системы является возможность объединения последовательностей действий пользователя в одну сессию для анализа так называемых боковых перемещений. Это означает, что, если пользователь получает доступ к другим серверам под разными учетными записями, система может корректно идентифицировать это как действия одного и того же пользователя. Такой подход позволяет более комплексно анализировать поведение пользователя в рамках одной сессии, что значительно повышает эффективность выявления угроз.

DataGrain RUMA предоставляет возможность настройки правил классификации событий с использованием rule-based-подхода. Это дает возможность настроить систему на специфические нужды организации и учитывать уникальные аспекты ее деятельности при анализе безопасности.

Эти методы и технологии в совокупности обеспечивают мощный инструментарий для эффективного обнаружения и предотвращения инсайдерских угроз в организации.

Пример интерфейса RUMA

Что было сложного и неожиданно простого в реализации системы

Одной из основных сложностей стала проблема с наличием и интеграцией данных. События безопасности требуют анализа информации из множества источников, таких как системы VPN, серверы электронной почты, базы данных и сетевые устройства. Интеграция данных из этих разнородных источников представляет собой значительный вызов, поскольку каждая система имеет свои уникальные форматы и протоколы. Дополнительной сложностью стала адаптация моделей под специфику каждого предприятия, что требует глубокого понимания их уникальных процессов и потребностей в безопасности. Кроме того, обработка и анализ больших объемов данных в реальном времени требуют мощных решений. В качестве системы для краткосрочного хранения и анализа данных мы выбрали ClickHouse, что позволило нам эффективно управлять большими потоками информации.

С другой стороны, процесс автоматизации и внедрение машинного обучения оказались относительно простыми благодаря наличию современных инструментов и библиотек. Использование готовых решений в области машинного обучения позволило нам сократить время разработки и ускорить процесс интеграции и тестирования наших моделей. Это дало возможность быстро перейти к практическому применению системы в борьбе с инсайдерскими угрозами.

Применение DataGrain RUMA в борьбе с инсайдерскими угрозами

Прежде чем внедрять алгоритмы машинного обучения необходимо было определить область их применения и варианты использования.

Определение целей

Возможности платформы были направлены на выявление злонамеренного или скомпрометированного инсайдера.

Для выявления злонамеренного инсайдера мы определили следующие варианты использования:

Утечка данных — сотрудник, партнер или подрядчик незаконно передает данные за пределы организации.
Злоупотребление привилегиями — привилегированная учетная запись делает что-то аномальное или обычный пользователь выполняет действия, требующие привилегированного доступа.
Злоупотребление доступом к данным — сотрудник организации аномально получает доступ к конфиденциальным данным и ресурсам компании.
Уничтожение данных — сотрудник организации удаляет данные, чтобы нанести вред и нарушить важные бизнес-операции.
Аномальная аутентификация и доступ — сотрудник организации выполняет действия, не характерные для его обычной рабочей активности, например, получает доступ к необычным приложениям или серверам, использует другие браузеры или проводит аутентификацию.

Для скомпрометированного инсайдера определили такие варианты использования:

Скомпрометированные учетные данные — злоумышленник подменяет легитимного пользователя, используя украденные учетные данные.
Боковое перемещение — злоумышленник переключается между устройствами для перемещения по сети и поиска конфиденциальных данных и другой ценной информации.
Повышение привилегий — злоумышленники увеличивают доступные привилегии в скомпрометированной учетной записи или переключаются на другие учетные записи для получения большего доступа.
Манипулирование учетными записями — злоумышленник создает пользователя или группу и манипулирует ими для сохранения доступа к сети.
Эксфильтрация данных — злоумышленники незаконно передают данные за пределы вашей организации.

Сбор данных о действиях пользователей в системных журналах событий

При интеграции источников данных для использования алгоритмов машинного обучения в первую очередь мы рассмотрели возможность включения данных о сети и конечных точках. Сбор событий, происходящих на устройствах конечных пользователей или в ИТ-системах, которые обычно записываются в разные файлы журналов в зависимости от операционной системы Windows или Linux.

Для классификации событий Windows мы используем такие категории журналов как Application, System, Security, Directory service, DNS server, File replication.

Для Linux файлы журналов /var/log/syslog или /var/log/messages, /var/log/auth.log или /var/log/secure, /var/log/kern.log, /var/log/faillog, /var/log/maillog или var/log/mail.log.

В большинстве случаев для обучения моделей мы собираем следующую информацию в системе:

Идентификаторы пользователя и терминала.
Попытки входа и выхода пользователей из системы.
Любые попытки доступа к системам, данным, приложениям, файлам или сетям, будь то на локальном компьютере или через LAN или WAN.
Изменения в конфигурации ОС.
Запуск исполняемых процессов на машине.
Использование системных утилит.
События, связанные с безопасностью, активация или деактивация средств безопасности.

Постоянное совершенствование и оптимизация моделей на основе обратной связи

Непрерывное улучшение результата алгоритмов базируется на анализе прошлых событий, выявлении слабых мест и оптимизации действующих мер безопасности. В рамках обучения мы предусмотрели инструменты, которые улучшают процессы обучения и переобучения алгоритмов. Например, можно указать исключения — ситуации или данные, которые моделям не следует учитывать при обучении или предсказании.

Результаты использования машинного обучения для обнаружения инсайдерских угроз

Основная цель и назначение DataGrain RUMA — повышение безопасности предприятия путем эффективного обнаружения внутренних угроз. Анализ поведения пользователей и сущностей помогает обнаружить аномалии и оперативно среагировать на них, сохраняя конфиденциальность и целостность данных.

DataGrain RUMA выявляет скомпрометированные учетные записи пользователей и потенциальные аномальные доступы. Она умеет определять аномальную активность в отношении критически важных активов, подключение USB-устройств к серверам и служебным устройствам, отслеживать подключение к базам данных и файловым ресурсам, в том числе доступ из необычных мест, аномальный объем загруженных или обновленных данных.

Система отслеживает отключенных пользователей, например учетные записи сотрудников, покинувших компанию, выявляет риски, связанные с VPN-сессиями удаленного доступа;

Кроме того, DataGrain RUMA определяет веб-активности на основе журналов прокси-серверов и аномальные действия с электронной почтой, включая утечку данных, фишинговые атаки, действия в доменах.

Кроме того, платформа способствует повышению эффективности SOC за счет автоматизации процессов анализа данных и выявления угроз. Это позволяет сотрудникам SOC сосредоточиться на более сложных и стратегически важных задачах по обеспечению безопасности информации.