AI-агенты для анализа данных в OpenAI: Kepler и 600+ петабайт — AIDF Blog
LIVE · ENTRY 0001-A · AIDF draft / 5 МИН 7 SECTIONS · AUTHOR AT
Все материалы

AI-агенты для анализа данных в OpenAI: как Kepler помогает работать с 600+ петабайтами

Инженер OpenAI Бонни Сю рассказала о Kepler — внутреннем AI-агенте для анализа данных, который обрабатывает 600+ петабайт в день. Доклад охватывает преодоление ограничений контекстного окна с помощью MCP, автоматический обход кода, RAG, семантическую память и оценку качества на основе AST.

FIG.00 / COVER
AI Agents to Make Sense of Data at OpenAI
42.6071°N
23.0470°E
AI-агенты для анализа данных в OpenAI: как Kepler помогает работать с 600+ петабайтами

01Введение

На конференции QCon AI инженер OpenAI Бонни Сю (Bonnie Xu) представила Kepler — внутреннего AI-агента для анализа данных, который помогает командам компании отвечать на вопросы о данных. Доклад был посвящён тому, как OpenAI развернула AI-агентов для решения этой задачи.

Сю начала с типичной проблемы: бизнес-руководитель задаёт вопрос вроде «сколько у нас пользователей ChatGPT Pro в Италии?». Консультация с дата-сайентистом, три глубоких погружения в код, две быстрые встречи и пять тредов в Slack — и только потом появляется ответ. «Простые вопросы не должны быть такими сложными и трудоёмкими, но они такие», — отметила она.

02Обзор платформы данных OpenAI

Сю объяснила, почему вообще понадобился AI-агент. В OpenAI 80% компании напрямую используют платформу данных. Команда из 15 инструментов обрабатывает более 600 петабайт данных в день, работая с 70 000 датасетов. Данные растут стремительно, и вопросов становится всё больше.

Когда ChatGPT запустился в 2022 году, компания спрашивала: «сколько у нас пользователей?». С развитием продукта — новые регионы, разные планы, больше функций — вопрос трансформировался в «сколько у нас ежедневно активных пользователей instant checkout в Нью-Йорке?». Ответить на него стало гораздо сложнее.

Одна из причин — поиск нужной таблицы становится всё труднее по мере масштабирования. Сю привела примеры из реальной работы дата-сайентистов OpenAI: Хелен (Helene) не могла найти подходящую таблицу из-за множества похожих названий, а Эрик (Eric) пытался разобраться в нюансах каждой таблицы. Проблема усугубляется тем, что в одних таблицах используются зашифрованные ID, в других — нет; одни таблицы корректируют данные с учётом мошенничества, другие — нет; одни предварительно фильтруются по обратной связи, другие — нет. Пропуск одного нюанса может привести к ошибке на порядок.

Кроме того, написание SQL — сложная задача. Сю показала SQL-запрос длиной 160 строк, отметив, что невозможно запомнить все форматы дат, правила написания производительных запросов и тот факт, что массивы Trino индексируются с единицы.

03Kepler — AI-аналитик данных (внутренний инструмент)

OpenAI построила Kepler — AI-аналитика данных, который использует полный контекст платформы данных и отвечает на вопросы пользователей. В основе Kepler лежит модель, которая генерирует результаты на основе AI.

Kepler доступен через несколько интерфейсов:

  • Slack-агент (можно обратиться напрямую)
  • IDE, например Cursor, через MCP-сервер
  • Веб-агент для получения информации о таблицах
  • Подключение к MCP-платформам для рабочих нагрузок

Пример работы Kepler

Сю продемонстрировала работу Kepler на примере с данными о поездках такси в Нью-Йорке. Задача: найти, какие пары ZIP-кодов (pickup-dropoff) являются самыми ненадёжными по времени в пути, и когда это происходит.

Kepler выполняет следующие шаги:

  1. Внутренний поиск знаний — сбор начальной информации
  2. Получение схемы таблицы для написания запроса
  3. Написание и выполнение нескольких запросов для получения правильных данных
  4. Использование перцентилей для определения наихудшей длительности поездок
  5. Корректировка пороговых значений на основе результатов
  6. Сортировка и анализ
  7. Формирование итогового ответа с форматированием

В итоге Kepler определил, что утренние поездки в будни в час пик и поздние ночные поездки — самые ненадёжные. Система также может строить графики для визуализации результатов.

Другой пример: отладка аномалий

Сю привела ещё один пример — отладку аномалии. В этом сценарии Kepler:

  • Получает контекст из документации
  • Ищет информацию о дашбордах
  • Проверяет метрики
  • Анализирует данные на уровне отдельных записей
  • Сравнивает с историческими данными
  • Выявляет первопричину

04Ключевые выводы

Сю выделила три главных урока из опыта создания Kepler:

  1. Важность правильного контекста данных — без полного понимания структуры и нюансов данных агент не сможет дать точный ответ.
  2. Важность памяти для самообучения — агент должен запоминать прошлые запросы и результаты, чтобы становиться эффективнее.
  3. Важность оценки (evals) для предотвращения регрессии — необходимо постоянно проверять, что модель не ухудшает свои результаты.

05Технические детали

В докладе были затронуты следующие технические аспекты:

  • Преодоление ограничений контекстного окна с помощью Model Context Protocol (MCP)
  • Автоматический обход кода (automated code crawling)
  • RAG (Retrieval-Augmented Generation) для получения релевантной информации
  • Scoped semantic memory для самообучения
  • AST-based LLM grading для построения надёжного пайплайна оценки без регрессий

06О докладчике

Бонни Сю — инженер-программист и технический лидер команды Data Productivity в OpenAI. Она создала AI-инструмент для работы с данными с нуля, чтобы помочь командам более эффективно исследовать и понимать данные. До OpenAI она четыре года работала в Stripe над платформой данных, а также занимала инженерные должности в Meta и Google.

07О конференции

QCon AI — практическая конференция для разработчиков, посвящённая инженерным практикам безопасного масштабирования AI-нагрузок. Конференция предоставляет доступ к архитектурным подходам и метрикам отказов, которые организации используют в production.

Перевод и редакционная адаптация AIDF

Материал основан только на фактах из оригинальной публикации

Источник: AI Agents to Make Sense of Data at OpenAI - infoq.com

Ссылки из исходного материала:

Дополнительные ссылки в исходном материале не были сохранены.

AT
AIDF Team

Источник: AI Agents to Make Sense of Data at OpenAI - infoq.com

Contact