Базовый минимум про ИИ

Статья цикла «Базовый минимум» про ИИ-агентов — системы, где языковая модель не только генерирует текст, но и планирует шаги, помнит контекст, вызывает инструменты и движется к цели в несколько итераций.

Чат и агент: в чём разница

Обычный диалог с LLM — это в основном «вопрос → ответ»: модель предсказывает следующие токены, опираясь на промпт и историю в окне. Она не обязана сама инициировать действия во внешнем мире.

Агент — надстройка над моделью (и иногда несколькими компонентами), которая ставит цель, разбивает её на шаги и при необходимости что-то делает: запрашивает API, запускает код, ищет в интернете или в базе документов, пока задача не закрыта или не исчерпан лимит шагов.

Удобная метафора: LLM — «двигатель» (умение рассуждать и формулировать), агент — «водитель», который решает, куда ехать, когда тормознуть и какие «рычаги» (инструменты) нажать. Без сценария использования движитель сам по себе никуда не привезёт.

Из чего состоит агент

Упрощённо выделяют три опоры — их можно представить как блоки на схеме «анатомии агента».

Планирование. Агент декомпозирует большую задачу на подцели и шаги. Здесь пересекаются идеи цепочки рассуждений (chain-of-thought), пошагового плана и самопроверки (self-reflection): перечитать свой черновик, сравнить с ограничениями, скорректировать план.

Память.

Краткосрочная — текущее окно контекста: недавние реплики, промежуточные выводы в рамках одной сессии.
Долгосрочная — сохранённые факты, документы, прошлые диалоги; часто это связано с векторным хранилищем и RAG: нужный фрагмент поднимают поиском и подмешивают в промпт (см. статью про RAG).

Инструменты (tools). Формализованные действия, которые модель может «заказать» исполнителю: вызов HTTP API, выполнение фрагмента кода (например, Python), поиск в сети, работа с файлами, запрос к календарю или БД. Без инструментов агент остаётся «чистым текстом» без рычагов вовне.

Как думать об агентах

Сдвиг в голове похож на переход от поисковой строки к работе с исполнителем.

Делегируйте, а не только «промптите». Формулируйте цель и критерии успеха так, как для джуниор-сотрудника: что сделать, в каком виде сдать, какие источники или инструменты разрешены.
Задайте границы и роль. Явная роль («ты исследовательский ассистент», «ты не выполняешь платежи») и ограничения снижают размах ошибок и неожиданных действий.
Считайте с итерациями. Агенты ошибаются и идут в тупик; нормальна петля «попробовал → увидел результат → поправил план». От этого зависят лимиты шагов, логирование и контроль со стороны человека.
Обеспечьте ресурсы. Если нужен факт из документов — подключите поиск или RAG; если нужен код — среду выполнения; без нужных «рычагов» модель останется в режиме фантазии.

ReAct: рассуждение и действие

ReAct (*Reasoning and Acting*) — распространённый шаблон цикла, который рисуют схемой «мысль → действие → наблюдение».

Thought (мысль): что я знаю, что нужно выяснить, какой следующий шаг логичен?
Action (действие): вызов конкретного инструмента с аргументами (поиск, API, код…).
Observation (наблюдение): сырой результат инструмента возвращается в контекст.
Далее снова Thought — скорректировать план или завершить задачу финальным ответом пользователю.

Так агент чередует **рассуждение на естественном языке** с **реальными шагами во внешней среде**, а не «придумывает ответ с потолка», когда нужны актуальные данные или вычисления.

Мультиагентные системы

Одну сложную задачу иногда делят между несколькими агентами с разными ролями — как на схеме «менеджер и исполнители».

Координатор (менеджер) ставит подзадачи, собирает результаты, следит за целостностью ответа.
Специализированные агенты — например, отдельно «пишет код», «готовит тесты», «ищет в литературе», «оформляет отчёт».

Плюс — модульность и параллелизм; минус — сложнее отладка, стоимость вызовов модели и риск «разъезда» контекста между агентами. Для учебных и продуктовых прототипов важно явно описывать протокол обмена: кто кому что передаёт и в каком формате.

Кто использует

Агентные схемы подключают там, где одного ответа в чате мало — нужна цепочка действий и опора на внешние системы или корпус документов.

Исследователи. Обход десятков PDF, выжимки, сверка формулировок с источниками — при связке с RAG и поиском.
Студенты и академическое сообщество. Поиск первоисточников, черновики обзоров с явной привязкой к цитатам (без подмены проверки фактов).
Разработчики. Сложная отладка, рефакторинг в несколько шагов, автоматизация рутинных пайплайнов (тикеты, CI, документация) — с осторожностью и code review.
Компании. Внутренние ассистенты поверх CRM, wiki и API — при жёстких политиках доступа, аудите действий и человеческом контроле на критичных операциях.