Featured image of post Базовый минимум про ИИ – обзор

Базовый минимум про ИИ – обзор

Обзор больших языковых моделей: что умеют LLM, как устроены, промпты, RAG, ключевые понятия и ограничения

Это обзорная статья цикла «Базовый минимум» — по тезисам:

  • большие языковые модели;
  • архитектура;
  • техники использования;
  • тренды.

Видео версия (~9 мин): Смотреть на YouTube

Большие языковые модели (LLM)

Что это? - Это инструмент, далее возможности и применение

Что это? - Это инструмент, далее возможности и применение

Генерация текста

  • Создание статей, историй, маркетинговых материалов
  • Автоматическое составление отчётов и документации
  • Творческое письмо и контент различных жанров

Ответы на вопросы

  • Интеллектуальные чат-боты для поддержки клиентов
  • Системы вопросов-ответов для поиска информации
  • Виртуальные ассистенты для повседневных задач

Анализ и обработка языка

  • Классификация текстов по категориям и тональности
  • Суммаризация длинных документов
  • Перевод между языками с сохранением контекста

Программирование и код

  • Генерация кода по текстовому описанию
  • Отладка и исправление ошибок
  • Комментирование и объяснение сложных участков кода

Инструмент мощный — но важно понимать, как он устроен и где ломается.

Что это технически? - Огромная статистическая машина

Что это технически? - Огромная статистическая машина

Определение и принципы работы

Нейросетевые модели, обученные предсказывать следующий токен на основе контекста.

Используют статистические закономерности в языке для генерации текста.

LLM использует полный контекст для определения наиболее вероятного следующего слова.

Схема: модель опирается на полный контекст при выборе следующего токена

Флоу предсказания токенов LLM

Входной контекст: «Карл у Клары украл…»

Анализ контекста:

  • Карл (субъект)
  • у Клары (у кого)
  • украл (действие)

Предсказание: Модель анализирует все предыдущие токены и их связи, распознаёт паттерн известной скороговорки

→ «кораллы»

Вероятность: 85%

Флоу предсказания следующего токена

Трансформеры и архитектура

Механизм self-attention для обработки последовательностей (ну тут всё понятно — на самом деле нет).

Механизм self-attention

Параллельная обработка данных вместо рекуррентной.

Параллельная обработка вместо рекуррентной схемы

Многослойная структура с миллиардами параметров (тепловая карта весов).

Многослойная структура и масштаб параметров

Обучение на текстовых данных

  • Обучение без учителя на миллиардах текстовых примеров
  • Предобучение на общих данных с последующей специализацией
  • Масштабирование данных и вычислительных ресурсов

Как использовать? - обзор техник работы с LLM

Как использовать? - обзор техник работы с LLM

Промпт-инжиниринг

  • Искусство формулирования запросов для лучших результатов
  • Структурирование инструкций с ролями, примерами и контекстом
  • Итеративное улучшение запросов для точных ответов

Развёрнуто по техникам (zero-shot, few-shot, CoT, роли, step-back и др.): Базовый минимум про ИИ – промпт-инжиниринг.

Fine-tuning (дообучение)

  • Адаптация модели под специфические задачи и домены
  • Использование небольших наборов размеченных данных
  • RLHF (обучение с подкреплением по обратной связи человека)

RAG (Retrieval-Augmented Generation)

  • Расширение знаний модели через поиск в базе данных
  • Комбинирование внешних источников информации с генерацией
  • Уменьшение галлюцинаций через опору на проверенные факты

Подробнее про этапы, чанкование и типы пайплайнов: Базовый минимум про ИИ – RAG-системы.

Chain-of-thought

  • Пошаговое рассуждение для решения сложных задач
  • Промежуточные вычисления и логические переходы
  • Улучшение математических и логических способностей модели

Популярные модели

Популярные модели

GPT (OpenAI)

  • Серия моделей от GPT-3 до GPT-5.4, лидеры индустрии
  • Коммерческие API с широким спектром возможностей
  • ChatGPT как массовый продукт на базе этих моделей

Claude (Anthropic)

  • Фокус на безопасность и длинный контекст
  • Конституционный подход к выравниванию с человеческими ценностями
  • Способность обрабатывать большие объёмы текста (до 1М токенов)

LLaMA

  • Открытая модель от Meta для исследовательского сообщества
  • Основа для множества производных моделей (Alpaca, Vicuna)
  • Компактные версии для локального запуска

Отечественные разработки

  • YandexGPT с поддержкой русского языка
  • GigaChat от Сбера для бизнес-применений
  • Модели Vikhr и другие разработки для специализированных задач

Ключевые понятия

Ключевые понятия

Токен

  • Минимальная единица текста для обработки моделью
  • Может быть словом, частью слова или символом
  • Примеры: «привет» = 1 токен, «непредсказуемость» = 2–3 токена
  • Токенизация разбивает текст на последовательность токенов

Температура

  • Низкая температура (0.1–0.3): предсказуемый, точный текст
  • Средняя температура (0.7–0.9): баланс креативности и связности
  • Высокая температура (1.5–2.0): творческий, но менее связный текст

    Инфографика: температура генерации LLM — от предсказуемого к разнообразным ответам

Типы моделей по назначению

  • Базовые (foundation): предобученные на больших корпусах текста
  • Инструктивные (instruction-tuned): обучены следовать инструкциям пользователя
  • Чат-модели: оптимизированы для диалогов и многошаговых разговоров
  • Специализированные: настроенные под конкретные задачи (код, медицина, юриспруденция)

    Схема: от foundation-моделей к специализированным (код, медицина, право)

Контекстное окно

  • Ограничение на объём текста, который модель обрабатывает за раз
  • Различные техники расширения контекста (8K–100K токенов)
  • Потеря информации при работе с длинными документами

Проблемы и ограничения

Проблемы и ограничения

Галлюцинации

  • Модель может выдумывать несуществующие факты с уверенным видом
  • Создание правдоподобной, но ложной информации
  • Сложность верификации сгенерированного контента

Вычислительные ресурсы

  • Требуются мощные GPU/TPU для обучения и инференса
  • Высокие энергозатраты на обучение крупных моделей
  • Стоимость разработки и поддержки инфраструктуры

Этические вопросы

  • Предвзятость и стереотипы в обучающих данных
  • Проблемы безопасности и генерации вредоносного контента
  • Нарушение авторских прав и вопросы интеллектуальной собственности

Будущее и тренды

Будущее и тренды

Мультимодальность

  • Работа с текстом, изображениями, аудио и видео
  • Понимание и генерация контента в различных форматах
  • Интеграция разных модальностей для комплексного понимания

Агенты на базе LLM

  • Автономные системы для выполнения сложных задач
  • Планирование действий и принятие решений
  • Взаимодействие с внешними инструментами и API

Подробнее про планирование, память, инструменты, ReAct и мультиагентов: Базовый минимум про ИИ – ИИ-агенты.

Оптимизация моделей

  • Квантизация и дистилляция для ускорения работы
  • Разработка более эффективных архитектур
  • Баланс между размером модели и её возможностями

Локальные решения

  • Модели, работающие на персональных устройствах
  • Конфиденциальность данных без отправки в облако
  • Специализированное аппаратное обеспечение для LLM
Создано при помощи Hugo
Тема Stack, дизайн Jimmy