Agentic AI — это не одна задача, а сквозной рабочий процесс

01Введение

Многие дискуссии об инфраструктуре ИИ начинаются с модели, работающей на GPU. Однако на практике требования к инфраструктуре всё чаще определяются не самой моделью, а рабочим процессом вокруг неё.

Агентные системы ИИ не просто отвечают на запрос. Они интерпретируют намерение, извлекают контекст, планируют следующие шаги, вызывают инструменты, применяют политики, выполняют код в изолированной среде, проводят транзакции, наблюдают за результатами и возвращают ответ. Каждый шаг — это отдельная задача, и все вместе они образуют разнородный рабочий процесс.

Одни этапы требуют высокой плотности ядер. Другие выигрывают от высокой тактовой частоты и предсказуемой задержки. Третьи зависят от объёма памяти, производительности ввода-вывода, локальности данных, энергоэффективности или способности размещать множество параллельных сервисов.

По мере распространения агентного ИИ инфраструктурным командам требуется не один вычислительный профиль, а портфель CPU, соответствующий полному циклу работы агента.

02Внутри рабочего процесса агентного ИИ

Когда агент берётся за задачу, он разбивает цель на шаги и последовательно их выполняет, часто возвращаясь назад несколько раз, прежде чем завершить работу.

В типичной последовательности запрос сначала попадает на шлюз, где применяются политики. Уровень планирования — часто использующий небольшие модели ИИ — определяет, как направить задачу. Затем агент обращается к базам данных, вызывает кластер GPU для более глубоких рассуждений, выполняет инструменты на основе этих рассуждений, проверяет результат и решает, нужно ли повторить цикл или завершить работу.

Именно поэтому агентный ИИ следует рассматривать как сквозной рабочий процесс, а не как единую задачу. Правильная инфраструктурная стратегия начинается с картирования каждого этапа рабочего процесса и назначения соответствующих ресурсов CPU.

AMD фокусируется на каждом шаге этого процесса: процессоры EPYC для высокочастотных и высокоплотных вычислений, ускорители AMD Instinct для инференса и обучения ИИ, а также сетевые решения Pensando для предсказуемой передачи данных.

03Где важна задержка, где — пропускная способность, а где нужно и то и другое

Каждый этап рабочего процесса предъявляет разные требования, поэтому портфель AMD EPYC построен на сочетании различных профилей.

Оркестрация агентов, выполнение изолированного кода, вызовы инструментов

Когда требуется одновременно запускать множество агентов с изолированным кодом (например, Python), вызывать API или обращаться к базам данных, плотность ядер может быть важнее тактовой частоты. Процессоры 5-го поколения AMD EPYC предлагают до 192 ядер и 384 потоков с одновременной многопоточностью. Позже в этом году процессоры EPYC следующего поколения под кодовым названием «Venice» увеличат этот показатель до 256 ядер и 512 потоков.

Выполнение инструментов в корпоративных приложениях

Способность вызывать инструменты или корпоративные приложения делает агентов полезными. CPU с широким диапазоном количества ядер в сочетании с высокой производительностью справляются с объёмом и разнообразием входящих запросов. Семейство процессоров AMD EPYC 9005 обеспечивает этот баланс: от 8 до 192 ядер и до 640 ГБ/с пропускной способности памяти, а «Venice» увеличит количество ядер/потоков в 1,3 раза, а пропускную способность памяти — в 2,5 раза.

Рассуждения с инференсом

Для обеспечения интеллекта, необходимого агентам, они полагаются на инференс. Большие языковые модели в основном работают на GPU, а хост-CPU обеспечивает полную загрузку ускорителей. Чтобы ускорители не простаивали, хост-узлы CPU часто выигрывают от высокой производительности на ядро, высоких тактовых частот и правильного баланса ядер (иногда их нужно меньше, чем кажется), пропускной способности памяти, ввода-вывода и сети. Правильный подбор хост-узла CPU позволяет поддерживать кластеры GPU инструкциями, чтобы каждый кластер выдавал максимальное количество токенов. Процессор AMD EPYC 9575F обеспечивает высокую производительность на одно ядро: 64 ядра с частотой до 5 ГГц. «Venice» расширит предложение высокочастотных процессоров EPYC.

04Проблема унаследованного подхода

В разговорах с корпоративными заказчиками выделяются несколько закономерностей.

Во-первых, многие стандартизируют закупки CPU вокруг устаревших спецификаций, например, используя 16- и 32-ядерные процессоры. Агентные рабочие процессы требуют большего количества ядер для одних этапов и более высоких частот для других — заказчикам нужна гибкость конфигурации для обоих сценариев. Подход должен сместиться от единого стандарта CPU к портфелю, соответствующему рабочему процессу агента.

Во-вторых, возникает эффект мультипликатора на корпоративные приложения и серверы инференса по мере того, как агенты становятся более активными пользователями существующей ИТ-инфраструктуры. Как только сотрудники получают возможность создавать и развёртывать собственных агентов, внедрение агентного ИИ быстро растёт. ИТ-планировщикам стоит задаться вопросом, что произойдёт с их инфраструктурой — базами данных, платформами ERP и CRM, бизнес-аналитикой, управлением идентификацией и серверами инференса — когда агенты резко увеличат нагрузку.

05Вопрос для CIO

Агентный ИИ меняет подход к масштабированию инфраструктуры. ИТ-руководители, которые рассматривают его как монолитную проблему — одну стратегию GPU или универсальный CPU — скорее всего, столкнутся с трудностями. Но по мере распространения агентов те, кто планирует разнородный сквозной рабочий процесс с разными вычислительными потребностями на каждом этапе, смогут масштабироваться более эффективно.

Вопрос, который стоит задать, — не сколько CPU или GPU нужно вашему бизнесу для агентного ИИ. А в том, соответствуете ли вы инфраструктуру тому, как агентный ИИ действительно работает: с множеством этапов и разных задач. Если вы начнёте картировать эти этапы заранее и выберете правильный вычислительный профиль для каждого, ваш бизнес будет хорошо подготовлен к скорости и эффективности по мере масштабирования.

Перевод и редакционная адаптация AIDF

Материал основан только на фактах из оригинальной публикации

Источник: Agentic AI Isn’t One Workload. It’s an End-to-End Workflow. - AMD

Ссылки из исходного материала:

Дополнительные ссылки в исходном материале не были сохранены.