Статья цикла «Базовый минимум» про ИИ-агентов — системы, где языковая модель не только генерирует текст, но и планирует шаги, помнит контекст, вызывает инструменты и движется к цели в несколько итераций.
Чат и агент: в чём разница
Чат и агент: в чём разница
Обычный диалог с LLM — это в основном «вопрос → ответ»: модель предсказывает следующие токены, опираясь на промпт и историю в окне. Она не обязана сама инициировать действия во внешнем мире.
Агент — надстройка над моделью (и иногда несколькими компонентами), которая ставит цель, разбивает её на шаги и при необходимости что-то делает: запрашивает API, запускает код, ищет в интернете или в базе документов, пока задача не закрыта или не исчерпан лимит шагов.
Удобная метафора: LLM — «двигатель» (умение рассуждать и формулировать), агент — «водитель», который решает, куда ехать, когда тормознуть и какие «рычаги» (инструменты) нажать. Без сценария использования движитель сам по себе никуда не привезёт.
Из чего состоит агент
Из чего состоит агент
Упрощённо выделяют три опоры — их можно представить как блоки на схеме «анатомии агента».
Планирование. Агент декомпозирует большую задачу на подцели и шаги. Здесь пересекаются идеи цепочки рассуждений (chain-of-thought), пошагового плана и самопроверки (self-reflection): перечитать свой черновик, сравнить с ограничениями, скорректировать план.
Память.
- Краткосрочная — текущее окно контекста: недавние реплики, промежуточные выводы в рамках одной сессии.
- Долгосрочная — сохранённые факты, документы, прошлые диалоги; часто это связано с векторным хранилищем и RAG: нужный фрагмент поднимают поиском и подмешивают в промпт (см. статью про RAG).
Инструменты (tools). Формализованные действия, которые модель может «заказать» исполнителю: вызов HTTP API, выполнение фрагмента кода (например, Python), поиск в сети, работа с файлами, запрос к календарю или БД. Без инструментов агент остаётся «чистым текстом» без рычагов вовне.
Как думать об агентах
Как думать об агентах
Сдвиг в голове похож на переход от поисковой строки к работе с исполнителем.
- Делегируйте, а не только «промптите». Формулируйте цель и критерии успеха так, как для джуниор-сотрудника: что сделать, в каком виде сдать, какие источники или инструменты разрешены.
- Задайте границы и роль. Явная роль («ты исследовательский ассистент», «ты не выполняешь платежи») и ограничения снижают размах ошибок и неожиданных действий.
- Считайте с итерациями. Агенты ошибаются и идут в тупик; нормальна петля «попробовал → увидел результат → поправил план». От этого зависят лимиты шагов, логирование и контроль со стороны человека.
- Обеспечьте ресурсы. Если нужен факт из документов — подключите поиск или RAG; если нужен код — среду выполнения; без нужных «рычагов» модель останется в режиме фантазии.
ReAct: рассуждение и действие
ReAct: рассуждение и действие
ReAct (*Reasoning and Acting*) — распространённый шаблон цикла, который рисуют схемой «мысль → действие → наблюдение».
- Thought (мысль): что я знаю, что нужно выяснить, какой следующий шаг логичен?
- Action (действие): вызов конкретного инструмента с аргументами (поиск, API, код…).
- Observation (наблюдение): сырой результат инструмента возвращается в контекст.
- Далее снова Thought — скорректировать план или завершить задачу финальным ответом пользователю.
Так агент чередует **рассуждение на естественном языке** с **реальными шагами во внешней среде**, а не «придумывает ответ с потолка», когда нужны актуальные данные или вычисления.
Мультиагентные системы
Мультиагентные системы
Одну сложную задачу иногда делят между несколькими агентами с разными ролями — как на схеме «менеджер и исполнители».
- Координатор (менеджер) ставит подзадачи, собирает результаты, следит за целостностью ответа.
- Специализированные агенты — например, отдельно «пишет код», «готовит тесты», «ищет в литературе», «оформляет отчёт».
Плюс — модульность и параллелизм; минус — сложнее отладка, стоимость вызовов модели и риск «разъезда» контекста между агентами. Для учебных и продуктовых прототипов важно явно описывать протокол обмена: кто кому что передаёт и в каком формате.
Кто использует
Кто использует
Агентные схемы подключают там, где одного ответа в чате мало — нужна цепочка действий и опора на внешние системы или корпус документов.
- Исследователи. Обход десятков PDF, выжимки, сверка формулировок с источниками — при связке с RAG и поиском.
- Студенты и академическое сообщество. Поиск первоисточников, черновики обзоров с явной привязкой к цитатам (без подмены проверки фактов).
- Разработчики. Сложная отладка, рефакторинг в несколько шагов, автоматизация рутинных пайплайнов (тикеты, CI, документация) — с осторожностью и code review.
- Компании. Внутренние ассистенты поверх CRM, wiki и API — при жёстких политиках доступа, аудите действий и человеческом контроле на критичных операциях.
