AI-агенты для анализа данных в OpenAI: Kepler и 600+ петабайт

01Введение

На конференции QCon AI инженер OpenAI Бонни Сю (Bonnie Xu) представила Kepler — внутреннего AI-агента для анализа данных, который помогает командам компании отвечать на вопросы о данных. Доклад был посвящён тому, как OpenAI развернула AI-агентов для решения этой задачи.

Сю начала с типичной проблемы: бизнес-руководитель задаёт вопрос вроде «сколько у нас пользователей ChatGPT Pro в Италии?». Консультация с дата-сайентистом, три глубоких погружения в код, две быстрые встречи и пять тредов в Slack — и только потом появляется ответ. «Простые вопросы не должны быть такими сложными и трудоёмкими, но они такие», — отметила она.

02Обзор платформы данных OpenAI

Сю объяснила, почему вообще понадобился AI-агент. В OpenAI 80% компании напрямую используют платформу данных. Команда из 15 инструментов обрабатывает более 600 петабайт данных в день, работая с 70 000 датасетов. Данные растут стремительно, и вопросов становится всё больше.

Когда ChatGPT запустился в 2022 году, компания спрашивала: «сколько у нас пользователей?». С развитием продукта — новые регионы, разные планы, больше функций — вопрос трансформировался в «сколько у нас ежедневно активных пользователей instant checkout в Нью-Йорке?». Ответить на него стало гораздо сложнее.

Одна из причин — поиск нужной таблицы становится всё труднее по мере масштабирования. Сю привела примеры из реальной работы дата-сайентистов OpenAI: Хелен (Helene) не могла найти подходящую таблицу из-за множества похожих названий, а Эрик (Eric) пытался разобраться в нюансах каждой таблицы. Проблема усугубляется тем, что в одних таблицах используются зашифрованные ID, в других — нет; одни таблицы корректируют данные с учётом мошенничества, другие — нет; одни предварительно фильтруются по обратной связи, другие — нет. Пропуск одного нюанса может привести к ошибке на порядок.

Кроме того, написание SQL — сложная задача. Сю показала SQL-запрос длиной 160 строк, отметив, что невозможно запомнить все форматы дат, правила написания производительных запросов и тот факт, что массивы Trino индексируются с единицы.

03Kepler — AI-аналитик данных (внутренний инструмент)

OpenAI построила Kepler — AI-аналитика данных, который использует полный контекст платформы данных и отвечает на вопросы пользователей. В основе Kepler лежит модель, которая генерирует результаты на основе AI.

Kepler доступен через несколько интерфейсов:

Slack-агент (можно обратиться напрямую)
IDE, например Cursor, через MCP-сервер
Веб-агент для получения информации о таблицах
Подключение к MCP-платформам для рабочих нагрузок

Пример работы Kepler

Сю продемонстрировала работу Kepler на примере с данными о поездках такси в Нью-Йорке. Задача: найти, какие пары ZIP-кодов (pickup-dropoff) являются самыми ненадёжными по времени в пути, и когда это происходит.

Kepler выполняет следующие шаги:

Внутренний поиск знаний — сбор начальной информации
Получение схемы таблицы для написания запроса
Написание и выполнение нескольких запросов для получения правильных данных
Использование перцентилей для определения наихудшей длительности поездок
Корректировка пороговых значений на основе результатов
Сортировка и анализ
Формирование итогового ответа с форматированием

В итоге Kepler определил, что утренние поездки в будни в час пик и поздние ночные поездки — самые ненадёжные. Система также может строить графики для визуализации результатов.

Другой пример: отладка аномалий

Сю привела ещё один пример — отладку аномалии. В этом сценарии Kepler:

Получает контекст из документации
Ищет информацию о дашбордах
Проверяет метрики
Анализирует данные на уровне отдельных записей
Сравнивает с историческими данными
Выявляет первопричину

04Ключевые выводы

Сю выделила три главных урока из опыта создания Kepler:

Важность правильного контекста данных — без полного понимания структуры и нюансов данных агент не сможет дать точный ответ.
Важность памяти для самообучения — агент должен запоминать прошлые запросы и результаты, чтобы становиться эффективнее.
Важность оценки (evals) для предотвращения регрессии — необходимо постоянно проверять, что модель не ухудшает свои результаты.

05Технические детали

В докладе были затронуты следующие технические аспекты:

Преодоление ограничений контекстного окна с помощью Model Context Protocol (MCP)
Автоматический обход кода (automated code crawling)
RAG (Retrieval-Augmented Generation) для получения релевантной информации
Scoped semantic memory для самообучения
AST-based LLM grading для построения надёжного пайплайна оценки без регрессий

06О докладчике

Бонни Сю — инженер-программист и технический лидер команды Data Productivity в OpenAI. Она создала AI-инструмент для работы с данными с нуля, чтобы помочь командам более эффективно исследовать и понимать данные. До OpenAI она четыре года работала в Stripe над платформой данных, а также занимала инженерные должности в Meta и Google.

07О конференции

QCon AI — практическая конференция для разработчиков, посвящённая инженерным практикам безопасного масштабирования AI-нагрузок. Конференция предоставляет доступ к архитектурным подходам и метрикам отказов, которые организации используют в production.

Перевод и редакционная адаптация AIDF

Материал основан только на фактах из оригинальной публикации

Источник: AI Agents to Make Sense of Data at OpenAI - infoq.com

Ссылки из исходного материала:

Дополнительные ссылки в исходном материале не были сохранены.