Как построить безопасный рабочий процесс для LLM: уроки исследователей — AIDF Blog
LIVE · ENTRY 0001-A · AIDF draft / 5 МИН 5 SECTIONS · AUTHOR AT
Все материалы

Как исследователи строят безопасный рабочий процесс для LLM: уроки для практиков

Исследователи из Университета Осло и Норвежского оборонного исследовательского института провели эксперимент, который показал: разница между бесполезным и точным ответом LLM почти полностью определяется структурой, выстроенной вокруг модели.

FIG.00 / COVER
What researchers learned about building an
42.6071°N
23.0470°E
Как исследователи строят безопасный рабочий процесс для LLM: уроки для практиков

01Введение

Центры безопасности (SOC) по всему миру сталкиваются с одной и той же проблемой: инструменты детектирования генерируют больше оповещений, чем аналитики способны обработать, а первые этапы любого расследования требуют сбора логов из нескольких источников, чтобы решить, стоит ли эскалировать инцидент. Вендоры последние два года активно предлагают LLM как решение, выпуская потоки копилотов и AI-ассистентов для триажа оповещений.

Новая работа исследователей из Университета Осло и Норвежского оборонного исследовательского института предлагает полезную корректировку этого подхода. Один вывод выделяется особенно: когда одной и той же языковой модели передают одно и то же оповещение и одни и те же данные, разница между бесполезным и точным результатом почти полностью определяется структурой, выстроенной вокруг модели.

02Тест модели в одиночку

Исследователи настроили две версии одной задачи. В первой версии четыре популярные языковые модели (GPT-5-mini, Claude 3 Haiku, Qwen3:30B и Gemma 3:27B) получили описание оповещения и сводку сетевых логов, после чего их попросили вынести вердикт. Каждая модель не смогла идентифицировать вредоносную активность. Во всех четырех случаях ни одно истинно-положительное событие не было корректно отмечено. Gemma классифицировала всё, что видела, как безвредное, независимо от входных данных.

Вредоносная активность представляла собой знакомую любому аналитику последовательность: разведка, попытки брутфорса и попытка первоначального доступа к веб-серверу, взятая из набора данных AIT Log Data Set V1.1. Сигнал присутствовал в логах. Модели, получив лишь высокоуровневую сводку, пропустили его.

03Добавление структуры меняет результат

Вторая версия обернула те же модели в рабочий процесс. Одна языковая модель планировала расследование, выбирая из небольшого набора предопределенных SQL-запросов к логам Suricata, с возможностью добавить один собственный запрос и grep-поиск по неструктурированному тексту. Вторая модель обобщала полученные доказательства. Третья выносила вердикт, с возможностью отправить дело на дополнительный сбор доказательств.

Точность выявления вредоносных случаев подскочила в среднем до 93 процентов. Три из четырех моделей преодолели порог в 90 процентов. GPT-5-mini корректно идентифицировала каждый вредоносный случай в 100 прогонах. Модели не изменились. Промпты не стали больше. Изменилось добавление ограниченных инструментов, определенного набора шагов и защитных ограничений на то, что модель может запрашивать и как. Языковая модель перестала быть пассивным получателем обобщенных данных и стала работать ближе к тому, как работает младший аналитик: извлекать конкретные доказательства, смотреть на результаты и решать, что запрашивать дальше.

04Полезные оговорки

Сторона с безвредными случаями оказалась более запутанной. GPT-5-mini, самый сильный исполнитель по выявлению вредоносных действий, классифицировал каждый безвредный случай как неопределенный, что в промышленной эксплуатации привело бы к передаче каждого ложного срабатывания человеку-аналитику. Другие модели демонстрировали аналогичный консерватизм в разной степени. Авторы утверждают, что склонность к неопределенности предпочтительнее пропуска реальных угроз, что является защищаемой позицией для инструмента триажа, хотя и влияет на то, сколько времени аналитика такая система реально сэкономит.

Оценка также охватывает один сценарий атаки на одном наборе данных, с синтетическим оповещением, заменяющим реальное детектирование. Это доказательство концепции, и тестирование на более разнообразных данных и реальных выходах систем обнаружения вторжений обозначено как необходимый следующий шаг.

05Что из этого следует

Урок выходит за рамки работы SOC. Способная модель, получив неструктурированный контекст, будет угадывать. Та же модель, получив небольшой, четко определенный набор инструментов и процесс их использования, будет рассуждать над проблемой. Для любого продукта безопасности на основе ИИ вопрос, который стоит задать, — что может делать система вокруг модели.

Перевод и редакционная адаптация AIDF

Материал основан только на фактах из оригинальной публикации

Источник: What researchers learned about building an LLM security workflow - Help Net Security

Ссылки из исходного материала:

Дополнительные ссылки в исходном материале не были сохранены.

AT
AIDF Team

Источник: What researchers learned about building an LLM security workflow - Help Net Security

Contact