Базовый минимум про ИИ

Это обзорная статья цикла «Базовый минимум» — по тезисам:

большие языковые модели;
архитектура;
техники использования;
тренды.

Видео версия (~9 мин): Смотреть на YouTube

Большие языковые модели (LLM)

Что это? - Это инструмент, далее возможности и применение

Генерация текста

Создание статей, историй, маркетинговых материалов
Автоматическое составление отчётов и документации
Творческое письмо и контент различных жанров

Ответы на вопросы

Интеллектуальные чат-боты для поддержки клиентов
Системы вопросов-ответов для поиска информации
Виртуальные ассистенты для повседневных задач

Анализ и обработка языка

Классификация текстов по категориям и тональности
Суммаризация длинных документов
Перевод между языками с сохранением контекста

Программирование и код

Генерация кода по текстовому описанию
Отладка и исправление ошибок
Комментирование и объяснение сложных участков кода

Инструмент мощный — но важно понимать, как он устроен и где ломается.

Что это технически? - Огромная статистическая машина

Определение и принципы работы

Нейросетевые модели, обученные предсказывать следующий токен на основе контекста.

Используют статистические закономерности в языке для генерации текста.

LLM использует полный контекст для определения наиболее вероятного следующего слова.

Схема: модель опирается на полный контекст при выборе следующего токена

Флоу предсказания токенов LLM

Входной контекст: «Карл у Клары украл…»

Анализ контекста:

Карл (субъект)
у Клары (у кого)
украл (действие)

Предсказание: Модель анализирует все предыдущие токены и их связи, распознаёт паттерн известной скороговорки

→ «кораллы»

Вероятность: 85%

Флоу предсказания следующего токена

Трансформеры и архитектура

Механизм self-attention для обработки последовательностей (ну тут всё понятно — на самом деле нет).

Механизм self-attention

Параллельная обработка данных вместо рекуррентной.

Параллельная обработка вместо рекуррентной схемы

Многослойная структура с миллиардами параметров (тепловая карта весов).

Многослойная структура и масштаб параметров

Обучение на текстовых данных

Обучение без учителя на миллиардах текстовых примеров
Предобучение на общих данных с последующей специализацией
Масштабирование данных и вычислительных ресурсов

Как использовать? - обзор техник работы с LLM

Промпт-инжиниринг

Искусство формулирования запросов для лучших результатов
Структурирование инструкций с ролями, примерами и контекстом
Итеративное улучшение запросов для точных ответов

Развёрнуто по техникам (zero-shot, few-shot, CoT, роли, step-back и др.): Базовый минимум про ИИ – промпт-инжиниринг.

Fine-tuning (дообучение)

Адаптация модели под специфические задачи и домены
Использование небольших наборов размеченных данных
RLHF (обучение с подкреплением по обратной связи человека)

RAG (Retrieval-Augmented Generation)

Расширение знаний модели через поиск в базе данных
Комбинирование внешних источников информации с генерацией
Уменьшение галлюцинаций через опору на проверенные факты

Подробнее про этапы, чанкование и типы пайплайнов: Базовый минимум про ИИ – RAG-системы.

Chain-of-thought

Пошаговое рассуждение для решения сложных задач
Промежуточные вычисления и логические переходы
Улучшение математических и логических способностей модели

Ключевые понятия

Токен

Минимальная единица текста для обработки моделью
Может быть словом, частью слова или символом
Примеры: «привет» = 1 токен, «непредсказуемость» = 2–3 токена
Токенизация разбивает текст на последовательность токенов

Температура

Низкая температура (0.1–0.3): предсказуемый, точный текст
Средняя температура (0.7–0.9): баланс креативности и связности
Высокая температура (1.5–2.0): творческий, но менее связный текст

Типы моделей по назначению

Базовые (foundation): предобученные на больших корпусах текста
Инструктивные (instruction-tuned): обучены следовать инструкциям пользователя
Чат-модели: оптимизированы для диалогов и многошаговых разговоров
Специализированные: настроенные под конкретные задачи (код, медицина, юриспруденция)

Контекстное окно

Ограничение на объём текста, который модель обрабатывает за раз
Различные техники расширения контекста (8K–100K токенов)
Потеря информации при работе с длинными документами

Проблемы и ограничения

Галлюцинации

Модель может выдумывать несуществующие факты с уверенным видом
Создание правдоподобной, но ложной информации
Сложность верификации сгенерированного контента

Вычислительные ресурсы

Требуются мощные GPU/TPU для обучения и инференса
Высокие энергозатраты на обучение крупных моделей
Стоимость разработки и поддержки инфраструктуры

Этические вопросы

Предвзятость и стереотипы в обучающих данных
Проблемы безопасности и генерации вредоносного контента
Нарушение авторских прав и вопросы интеллектуальной собственности

Будущее и тренды

Мультимодальность

Работа с текстом, изображениями, аудио и видео
Понимание и генерация контента в различных форматах
Интеграция разных модальностей для комплексного понимания

Агенты на базе LLM

Автономные системы для выполнения сложных задач
Планирование действий и принятие решений
Взаимодействие с внешними инструментами и API

Подробнее про планирование, память, инструменты, ReAct и мультиагентов: Базовый минимум про ИИ – ИИ-агенты.

Оптимизация моделей

Квантизация и дистилляция для ускорения работы
Разработка более эффективных архитектур
Баланс между размером модели и её возможностями

Локальные решения

Модели, работающие на персональных устройствах
Конфиденциальность данных без отправки в облако
Специализированное аппаратное обеспечение для LLM