01Введение
Исследователи представили AgenticSTS — тестовую среду с ограниченной памятью (bounded-memory testbed) для LLM-агентов, работающих на длинных горизонтах. Работа была опубликована на arXiv 2 июля 2026 года. Вместо того чтобы позволять каждому решению наследовать растущий транскрипт, система собирает каждый запрос через типизированное извлечение (typed retrieval), что позволяет чисто абляционно удалять отдельные слои памяти.
02Результаты и ограничения
Авторы сообщают о направленном (directional) улучшении процента побед с 3/10 до 6/10 при включении слоя памяти стратегических навыков, однако отмечают, что выборка не является статистически значимой. Точный тест Фишера даёт p ≈ 0,37, что достаточно для обоснования дальнейших экспериментов, но не позволяет утверждать, что слой памяти в целом превосходит базовый вариант.
03Практическая ценность
Более сильный вклад работы — воспроизводимость. Релиз включает 298 завершённых траекторий, теги условий, замороженные снимки памяти и навыков, записи запросов и скрипты для анализа. Это даёт командам, работающим с агентами, возможность сравнивать конструкции с ограниченной памятью с базовыми подходами, накапливающими транскрипты.
04Что дальше
Следующим полезным сигналом станет проверка того, проявляется ли та же закономерность на других базовых моделях и в неигровых нагрузках. Если ограниченное типизированное извлечение будет стабильно удерживать промпты в разумных пределах, не скрывая критическое состояние, это может стать более чистым шаблоном оценки для production-агентов.
05Ключевые моменты
- AgenticSTS рассматривает память как типизированное извлечение, удерживая промпты в ограниченном объёме и упрощая абляцию отдельных слоёв памяти.
- Результаты в Slay the Spire 2 являются направленными: слой стратегических навыков улучшил процент побед с 3/10 до 6/10.
- Релиз предоставляет исследователям траектории, снимки, запросы и скрипты для сравнения конструкций памяти LLM-агентов на длинных горизонтах.
06Источники
- AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents (arxiv.org)
- Репозиторий на GitHub (AlayaLab/AgenticSTS)
- Страница проекта (alayalab.github.io)
- AgenticSTS на Hugging Face
Перевод и редакционная адаптация AIDF
Материал основан только на фактах из оригинальной публикации
Источник: AgenticSTS Tests Bounded Memory For LLM Agents - Let's Data Science
