AgenticSTS: тестирование ограниченной памяти для LLM-агентов

01Введение

Исследователи представили AgenticSTS — тестовую среду с ограниченной памятью (bounded-memory testbed) для LLM-агентов, работающих на длинных горизонтах. Работа была опубликована на arXiv 2 июля 2026 года. Вместо того чтобы позволять каждому решению наследовать растущий транскрипт, система собирает каждый запрос через типизированное извлечение (typed retrieval), что позволяет чисто абляционно удалять отдельные слои памяти.

02Результаты и ограничения

Авторы сообщают о направленном (directional) улучшении процента побед с 3/10 до 6/10 при включении слоя памяти стратегических навыков, однако отмечают, что выборка не является статистически значимой. Точный тест Фишера даёт p ≈ 0,37, что достаточно для обоснования дальнейших экспериментов, но не позволяет утверждать, что слой памяти в целом превосходит базовый вариант.

03Практическая ценность

Более сильный вклад работы — воспроизводимость. Релиз включает 298 завершённых траекторий, теги условий, замороженные снимки памяти и навыков, записи запросов и скрипты для анализа. Это даёт командам, работающим с агентами, возможность сравнивать конструкции с ограниченной памятью с базовыми подходами, накапливающими транскрипты.

04Что дальше

Следующим полезным сигналом станет проверка того, проявляется ли та же закономерность на других базовых моделях и в неигровых нагрузках. Если ограниченное типизированное извлечение будет стабильно удерживать промпты в разумных пределах, не скрывая критическое состояние, это может стать более чистым шаблоном оценки для production-агентов.

05Ключевые моменты

AgenticSTS рассматривает память как типизированное извлечение, удерживая промпты в ограниченном объёме и упрощая абляцию отдельных слоёв памяти.
Результаты в Slay the Spire 2 являются направленными: слой стратегических навыков улучшил процент побед с 3/10 до 6/10.
Релиз предоставляет исследователям траектории, снимки, запросы и скрипты для сравнения конструкций памяти LLM-агентов на длинных горизонтах.

06Источники

Перевод и редакционная адаптация AIDF

Материал основан только на фактах из оригинальной публикации

Источник: AgenticSTS Tests Bounded Memory For LLM Agents - Let's Data Science

Ссылки из исходного материала: