Большая языковая модель
Материал из MachineLearning.
(Новая статья о больших языковых моделях (LLM), написана с Claude Sonnet 4) |
(Исправлены формулы LaTeX) |
||
| Строка 1: | Строка 1: | ||
| - | {{well|Статья написана с использованием LLM '''Claude Sonnet 4''' и проверена участником | + | {{well|Статья написана с использованием LLM '''Claude Sonnet 4''' и проверена участником [[Участник:Emil Petrov|Emil Petrov]] 14:58, 16 июня 2026 (MSD) |
Промпт приводится полностью в [[Обсуждение:Большая языковая модель]] | Промпт приводится полностью в [[Обсуждение:Большая языковая модель]] | ||
}} | }} | ||
| Строка 7: | Строка 7: | ||
== Определение и масштаб == | == Определение и масштаб == | ||
| - | |||
| - | |||
Языковая модель формально задаёт вероятностное распределение над последовательностями токенов. Авторегрессионная модель факторизует вероятность последовательности как произведение условных вероятностей: | Языковая модель формально задаёт вероятностное распределение над последовательностями токенов. Авторегрессионная модель факторизует вероятность последовательности как произведение условных вероятностей: | ||
| - | :<tex>P(x_1, x_2, ldots, x_n) = prod_{t=1}^{n} P(x_t mid x_1, ldots, x_{t-1}).</tex> | + | :<tex>P(x_1, x_2, \ldots, x_n) = \prod_{t=1}^{n} P(x_t \mid x_1, \ldots, x_{t-1}).</tex> |
На каждом шаге <tex>t</tex> модель предсказывает распределение по словарю, из которого семплируется следующий токен. | На каждом шаге <tex>t</tex> модель предсказывает распределение по словарю, из которого семплируется следующий токен. | ||
| + | |||
| + | Понятие «большая» не имеет точной границы и исторически смещалось: модели, считавшиеся огромными в 2018 году (BERT — 340 млн параметров), сегодня воспринимаются как небольшие. | ||
== Предобучение == | == Предобучение == | ||
| - | === | + | === Задачи предобучения === |
LLM обучаются методом самообучения (self-supervised learning): обучающий сигнал извлекается непосредственно из текстов без ручной разметки. Наиболее распространены две задачи: | LLM обучаются методом самообучения (self-supervised learning): обучающий сигнал извлекается непосредственно из текстов без ручной разметки. Наиболее распространены две задачи: | ||
| Строка 25: | Строка 25: | ||
* '''Маскированное языковое моделирование''' (masked language modeling, MLM) — предсказание замаскированных токенов по контексту слева и справа. Используется в BERT и его вариантах. | * '''Маскированное языковое моделирование''' (masked language modeling, MLM) — предсказание замаскированных токенов по контексту слева и справа. Используется в BERT и его вариантах. | ||
| - | Корпус данных собирается из Common Crawl (веб-страницы), книг | + | Корпус данных собирается из Common Crawl (веб-страницы), книг, научных статей, кода (GitHub), Википедии и других источников. Для GPT-4, LLaMA, Claude объём обучающих данных составляет от сотен миллиардов до нескольких триллионов токенов. |
| - | === | + | === Законы масштабирования === |
Исследования Kaplan et al. (2020) и Hoffmann et al. (2022, «Chinchilla») установили, что потери языковой модели убывают как степенная функция от числа параметров <tex>N</tex> и объёма обучающих данных <tex>D</tex>: | Исследования Kaplan et al. (2020) и Hoffmann et al. (2022, «Chinchilla») установили, что потери языковой модели убывают как степенная функция от числа параметров <tex>N</tex> и объёма обучающих данных <tex>D</tex>: | ||
| - | :<tex>L(N, D) approx A cdot N^{-alpha} + B cdot D^{- | + | :<tex>L(N, D) \approx A \cdot N^{-\alpha} + B \cdot D^{-\beta} + L_\infty,</tex> |
| - | где <tex>alpha approx | + | где <tex>\alpha \approx \beta \approx 0{,}5</tex>, а <tex>L_\infty</tex> — нижняя граница ошибки, обусловленная шумом данных. Модели Chinchilla показали, что при фиксированном бюджете вычислений оптимально иметь меньшую модель, обученную на бо́льшем объёме данных. |
== Тонкая настройка (fine-tuning) == | == Тонкая настройка (fine-tuning) == | ||
| Строка 41: | Строка 41: | ||
# Дообучение с учителем (SFT) на демонстрациях правильного поведения. | # Дообучение с учителем (SFT) на демонстрациях правильного поведения. | ||
# Обучение модели вознаграждения (reward model) на попарных предпочтениях людей. | # Обучение модели вознаграждения (reward model) на попарных предпочтениях людей. | ||
| - | # Оптимизацию политики с помощью алгоритма | + | # Оптимизацию политики с помощью алгоритма PPO или аналогов. |
| - | + | Альтернативные методы: LoRA (Low-Rank Adaptation), QLoRA, DPO (Direct Preference Optimization), prefix-tuning — позволяют дообучать модели с меньшим числом параметров. | |
| - | + | ||
| - | Альтернативные методы | + | |
== Возникающие способности == | == Возникающие способности == | ||
| - | При увеличении числа параметров LLM демонстрируют '''возникающие способности''' (emergent abilities) — возможности, неожиданно появляющиеся при достижении определённого масштаба | + | При увеличении числа параметров LLM демонстрируют '''возникающие способности''' (emergent abilities) — возможности, неожиданно появляющиеся при достижении определённого масштаба: |
* Решение многошаговых логических задач через цепочку рассуждений (Chain-of-Thought, CoT). | * Решение многошаговых логических задач через цепочку рассуждений (Chain-of-Thought, CoT). | ||
* Обучение по нескольким примерам в контексте (few-shot in-context learning) без обновления весов. | * Обучение по нескольким примерам в контексте (few-shot in-context learning) без обновления весов. | ||
* Выполнение инструкций, не встречавшихся при обучении (instruction following). | * Выполнение инструкций, не встречавшихся при обучении (instruction following). | ||
| - | |||
| - | |||
| - | |||
== Применения == | == Применения == | ||
| Строка 65: | Строка 60: | ||
* '''Вопросно-ответные системы''' — поиск с семантическим пониманием запроса (retrieval-augmented generation, RAG). | * '''Вопросно-ответные системы''' — поиск с семантическим пониманием запроса (retrieval-augmented generation, RAG). | ||
* '''Программирование''' — автодополнение кода (GitHub Copilot), генерация тестов, объяснение кода. | * '''Программирование''' — автодополнение кода (GitHub Copilot), генерация тестов, объяснение кода. | ||
| - | + | * '''Мультимодальные системы''' — понимание и генерация изображений совместно с текстом. | |
| - | + | ||
| - | * '''Мультимодальные системы''' — понимание и генерация изображений совместно с текстом | + | |
== Ограничения и риски == | == Ограничения и риски == | ||
* '''Галлюцинации''' — модели уверенно генерируют фактически неверные утверждения. | * '''Галлюцинации''' — модели уверенно генерируют фактически неверные утверждения. | ||
| - | + | * '''Предвзятости''' (bias) — LLM воспроизводят и усиливают предвзятости обучающих данных. | |
| - | * '''Предвзятости''' (bias) — LLM воспроизводят и усиливают предвзятости | + | * '''Безопасность''' — возможность злоупотреблений: дезинформация, фишинг, вредоносный контент. |
| - | * '''Безопасность''' — возможность злоупотреблений | + | * '''Непрозрачность''' — механизм принятия решений остаётся слабо интерпретируемым. |
| - | * '''Непрозрачность''' — механизм принятия решений остаётся слабо интерпретируемым | + | |
== Исторические вехи == | == Исторические вехи == | ||
| Строка 94: | Строка 86: | ||
|- | |- | ||
| 2023 || LLaMA 2 || 70 млрд || Meta AI | | 2023 || LLaMA 2 || 70 млрд || Meta AI | ||
| - | |||
| - | |||
|- | |- | ||
| 2024 || Claude 3 Opus || неизвестно || Anthropic | | 2024 || Claude 3 Opus || неизвестно || Anthropic | ||
| Строка 106: | Строка 96: | ||
* [[Промпт-инжиниринг]] | * [[Промпт-инжиниринг]] | ||
* [[Нейросетевое встраивание]] | * [[Нейросетевое встраивание]] | ||
| - | |||
* [[Машинное обучение]] | * [[Машинное обучение]] | ||
| Строка 117: | Строка 106: | ||
* {{статья |автор=Brown T. et al. |заглавие=Language Models are Few-Shot Learners |издание=Advances in Neural Information Processing Systems |год=2020 |том=33 |ссылка=https://arxiv.org/abs/2005.14165}} | * {{статья |автор=Brown T. et al. |заглавие=Language Models are Few-Shot Learners |издание=Advances in Neural Information Processing Systems |год=2020 |том=33 |ссылка=https://arxiv.org/abs/2005.14165}} | ||
* {{статья |автор=Wei J. et al. |заглавие=Emergent Abilities of Large Language Models |издание=Transactions on Machine Learning Research |год=2022 |ссылка=https://arxiv.org/abs/2206.07682}} | * {{статья |автор=Wei J. et al. |заглавие=Emergent Abilities of Large Language Models |издание=Transactions on Machine Learning Research |год=2022 |ссылка=https://arxiv.org/abs/2206.07682}} | ||
| - | |||
[[Категория:Машинное обучение]] | [[Категория:Машинное обучение]] | ||
[[Категория:Нейронные сети]] | [[Категория:Нейронные сети]] | ||
[[Категория:Обработка естественного языка]] | [[Категория:Обработка естественного языка]] | ||
Текущая версия
| | Статья написана с использованием LLM Claude Sonnet 4 и проверена участником Emil Petrov 14:58, 16 июня 2026 (MSD)
Промпт приводится полностью в Обсуждение:Большая языковая модель |
|
Больша́я языкова́я мо́дель (англ. large language model, LLM) — класс нейронных сетей, обученных на огромных корпусах текстов и способных генерировать, анализировать и преобразовывать текст на естественном языке. Современные LLM, как правило, строятся на архитектуре трансформера и содержат от нескольких миллиардов до триллионов параметров. Наиболее известные представители — серии GPT (OpenAI), Gemini (Google DeepMind), Claude (Anthropic) и LLaMA (Meta AI).
Определение и масштаб
Языковая модель формально задаёт вероятностное распределение над последовательностями токенов. Авторегрессионная модель факторизует вероятность последовательности как произведение условных вероятностей:
На каждом шаге модель предсказывает распределение по словарю, из которого семплируется следующий токен.
Понятие «большая» не имеет точной границы и исторически смещалось: модели, считавшиеся огромными в 2018 году (BERT — 340 млн параметров), сегодня воспринимаются как небольшие.
Предобучение
Задачи предобучения
LLM обучаются методом самообучения (self-supervised learning): обучающий сигнал извлекается непосредственно из текстов без ручной разметки. Наиболее распространены две задачи:
- Языковое моделирование (causal language modeling, CLM) — предсказание следующего токена по всем предыдущим. Используется в моделях семейства GPT.
- Маскированное языковое моделирование (masked language modeling, MLM) — предсказание замаскированных токенов по контексту слева и справа. Используется в BERT и его вариантах.
Корпус данных собирается из Common Crawl (веб-страницы), книг, научных статей, кода (GitHub), Википедии и других источников. Для GPT-4, LLaMA, Claude объём обучающих данных составляет от сотен миллиардов до нескольких триллионов токенов.
Законы масштабирования
Исследования Kaplan et al. (2020) и Hoffmann et al. (2022, «Chinchilla») установили, что потери языковой модели убывают как степенная функция от числа параметров и объёма обучающих данных
:
где , а
— нижняя граница ошибки, обусловленная шумом данных. Модели Chinchilla показали, что при фиксированном бюджете вычислений оптимально иметь меньшую модель, обученную на бо́льшем объёме данных.
Тонкая настройка (fine-tuning)
Предобученная LLM часто дообучается под конкретные задачи. Наиболее влиятельным методом стало обучение с подкреплением из обратной связи человека (RLHF), включающее:
- Дообучение с учителем (SFT) на демонстрациях правильного поведения.
- Обучение модели вознаграждения (reward model) на попарных предпочтениях людей.
- Оптимизацию политики с помощью алгоритма PPO или аналогов.
Альтернативные методы: LoRA (Low-Rank Adaptation), QLoRA, DPO (Direct Preference Optimization), prefix-tuning — позволяют дообучать модели с меньшим числом параметров.
Возникающие способности
При увеличении числа параметров LLM демонстрируют возникающие способности (emergent abilities) — возможности, неожиданно появляющиеся при достижении определённого масштаба:
- Решение многошаговых логических задач через цепочку рассуждений (Chain-of-Thought, CoT).
- Обучение по нескольким примерам в контексте (few-shot in-context learning) без обновления весов.
- Выполнение инструкций, не встречавшихся при обучении (instruction following).
Применения
LLM нашли применение в широком спектре задач:
- Генерация текста — написание статей, кода, рекламных материалов, сценариев.
- Вопросно-ответные системы — поиск с семантическим пониманием запроса (retrieval-augmented generation, RAG).
- Программирование — автодополнение кода (GitHub Copilot), генерация тестов, объяснение кода.
- Мультимодальные системы — понимание и генерация изображений совместно с текстом.
Ограничения и риски
- Галлюцинации — модели уверенно генерируют фактически неверные утверждения.
- Предвзятости (bias) — LLM воспроизводят и усиливают предвзятости обучающих данных.
- Безопасность — возможность злоупотреблений: дезинформация, фишинг, вредоносный контент.
- Непрозрачность — механизм принятия решений остаётся слабо интерпретируемым.
Исторические вехи
| Год | Модель | Параметры | Организация |
|---|---|---|---|
| 2018 | BERT-Large | 340 млн | |
| 2019 | GPT-2 | 1,5 млрд | OpenAI |
| 2020 | GPT-3 | 175 млрд | OpenAI |
| 2022 | ChatGPT (GPT-3.5) | ~175 млрд | OpenAI |
| 2023 | GPT-4 | ~1 трлн (оценка) | OpenAI |
| 2023 | LLaMA 2 | 70 млрд | Meta AI |
| 2024 | Claude 3 Opus | неизвестно | Anthropic |
См. также
- Трансформер (модель)
- Механизм внимания
- Обучение с подкреплением из обратной связи человека
- Промпт-инжиниринг
- Нейросетевое встраивание
- Машинное обучение
Примечания
Литература
- Kaplan J., McCandlish S., Henighan T. et al. Scaling Laws for Neural Language Models // arXiv preprint. — 2020.
- Hoffmann J. et al. Training Compute-Optimal Large Language Models // arXiv preprint. — 2022.
- Brown T. et al. Language Models are Few-Shot Learners // Advances in Neural Information Processing Systems. — 2020. — Т. 33.
- Wei J. et al. Emergent Abilities of Large Language Models // Transactions on Machine Learning Research. — 2022.

