Большая языковая модель

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Версия 10:58, 16 июня 2026

Статья написана с использованием LLM Claude Sonnet 4 и проверена участником Emil Petrov 14:58, 16 июня 2026 (MSD)

Промпт приводится полностью в Обсуждение:Большая языковая модель

Содержание

1 Определение и масштаб
2 Предобучение
- 2.1 Задачи предобучения
- 2.2 Законы масштабирования
3 Тонкая настройка (fine-tuning)
4 Возникающие способности
5 Применения
6 Ограничения и риски
7 Исторические вехи
8 См. также
9 Примечания
10 Литература

Больша́я языкова́я мо́дель (англ. large language model, LLM) — класс нейронных сетей, обученных на огромных корпусах текстов и способных генерировать, анализировать и преобразовывать текст на естественном языке. Современные LLM, как правило, строятся на архитектуре трансформера и содержат от нескольких миллиардов до триллионов параметров. Наиболее известные представители — серии GPT (OpenAI), Gemini (Google DeepMind), Claude (Anthropic) и LLaMA (Meta AI).

Определение и масштаб

Языковая модель формально задаёт вероятностное распределение над последовательностями токенов. Авторегрессионная модель факторизует вероятность последовательности как произведение условных вероятностей:

$P(x_1, x_2, \ldots, x_n) = \prod_{t=1}^{n} P(x_t \mid x_1, \ldots, x_{t-1}).$

На каждом шаге $t$ модель предсказывает распределение по словарю, из которого семплируется следующий токен.

Понятие «большая» не имеет точной границы и исторически смещалось: модели, считавшиеся огромными в 2018 году (BERT — 340 млн параметров), сегодня воспринимаются как небольшие.

Предобучение

Задачи предобучения

LLM обучаются методом самообучения (self-supervised learning): обучающий сигнал извлекается непосредственно из текстов без ручной разметки. Наиболее распространены две задачи:

Языковое моделирование (causal language modeling, CLM) — предсказание следующего токена по всем предыдущим. Используется в моделях семейства GPT.
Маскированное языковое моделирование (masked language modeling, MLM) — предсказание замаскированных токенов по контексту слева и справа. Используется в BERT и его вариантах.

Корпус данных собирается из Common Crawl (веб-страницы), книг, научных статей, кода (GitHub), Википедии и других источников. Для GPT-4, LLaMA, Claude объём обучающих данных составляет от сотен миллиардов до нескольких триллионов токенов.

Законы масштабирования

Исследования Kaplan et al. (2020) и Hoffmann et al. (2022, «Chinchilla») установили, что потери языковой модели убывают как степенная функция от числа параметров $N$ и объёма обучающих данных $D$ :

$L(N, D) \approx A \cdot N^{-\alpha} + B \cdot D^{-\beta} + L_\infty,$

где $\alpha \approx \beta \approx 0{,}5$ , а $L_\infty$ — нижняя граница ошибки, обусловленная шумом данных. Модели Chinchilla показали, что при фиксированном бюджете вычислений оптимально иметь меньшую модель, обученную на бо́льшем объёме данных.

Тонкая настройка (fine-tuning)

Предобученная LLM часто дообучается под конкретные задачи. Наиболее влиятельным методом стало обучение с подкреплением из обратной связи человека (RLHF), включающее:

Дообучение с учителем (SFT) на демонстрациях правильного поведения.
Обучение модели вознаграждения (reward model) на попарных предпочтениях людей.
Оптимизацию политики с помощью алгоритма PPO или аналогов.

Альтернативные методы: LoRA (Low-Rank Adaptation), QLoRA, DPO (Direct Preference Optimization), prefix-tuning — позволяют дообучать модели с меньшим числом параметров.

Возникающие способности

При увеличении числа параметров LLM демонстрируют возникающие способности (emergent abilities) — возможности, неожиданно появляющиеся при достижении определённого масштаба:

Решение многошаговых логических задач через цепочку рассуждений (Chain-of-Thought, CoT).
Обучение по нескольким примерам в контексте (few-shot in-context learning) без обновления весов.
Выполнение инструкций, не встречавшихся при обучении (instruction following).

Применения

LLM нашли применение в широком спектре задач:

Генерация текста — написание статей, кода, рекламных материалов, сценариев.
Вопросно-ответные системы — поиск с семантическим пониманием запроса (retrieval-augmented generation, RAG).
Программирование — автодополнение кода (GitHub Copilot), генерация тестов, объяснение кода.
Мультимодальные системы — понимание и генерация изображений совместно с текстом.

Ограничения и риски

Галлюцинации — модели уверенно генерируют фактически неверные утверждения.
Предвзятости (bias) — LLM воспроизводят и усиливают предвзятости обучающих данных.
Безопасность — возможность злоупотреблений: дезинформация, фишинг, вредоносный контент.
Непрозрачность — механизм принятия решений остаётся слабо интерпретируемым.

Исторические вехи

Год	Модель	Параметры	Организация
2018	BERT-Large	340 млн	Google
2019	GPT-2	1,5 млрд	OpenAI
2020	GPT-3	175 млрд	OpenAI
2022	ChatGPT (GPT-3.5)	~175 млрд	OpenAI
2023	GPT-4	~1 трлн (оценка)	OpenAI
2023	LLaMA 2	70 млрд	Meta AI
2024	Claude 3 Opus	неизвестно	Anthropic

См. также

Примечания

Литература

Kaplan J., McCandlish S., Henighan T. et al. Scaling Laws for Neural Language Models // arXiv preprint. — 2020.
Hoffmann J. et al. Training Compute-Optimal Large Language Models // arXiv preprint. — 2022.
Brown T. et al. Language Models are Few-Shot Learners // Advances in Neural Information Processing Systems. — 2020. — Т. 33.
Wei J. et al. Emergent Abilities of Large Language Models // Transactions on Machine Learning Research. — 2022.

Источник — «http://poligon.machinelearning.ru/wiki/index.php?title=%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2%D0%B0%D1%8F_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C»

Категории: Машинное обучение | Нейронные сети | Обработка естественного языка

@@ Строка 1: / Строка 1: @@
-{{well|Статья написана с использованием LLM '''Claude Sonnet 4''' и проверена участником [[Участник:Emil Petrov|Emil Petrov]] [[Участник:Emil Petrov|Emil Petrov]] 14:43, 16 июня 2026 (MSD)
+{{well|Статья написана с использованием LLM '''Claude Sonnet 4''' и проверена участником [[Участник:Emil Petrov|Emil Petrov]] 14:58, 16 июня 2026 (MSD)
 Промпт приводится полностью в [[Обсуждение:Большая языковая модель]]
 }}
@@ Строка 7: / Строка 7: @@
 == Определение и масштаб ==
-Понятие «большая» не имеет точной границы и исторически смещалось: модели, считавшиеся огромными в 2018 году (BERT — 340 млн параметров), сегодня воспринимаются как небольшие. Практически, LLM — это языковая модель, обученная на корпусе объёмом от десятков до триллионов токенов при вычислительном бюджете, делающем обучение недоступным для большинства академических организаций без специализированного оборудования.
 Языковая модель формально задаёт вероятностное распределение над последовательностями токенов. Авторегрессионная модель факторизует вероятность последовательности как произведение условных вероятностей:
-:<tex>P(x_1, x_2, ldots, x_n) = prod_{t=1}^{n} P(x_t mid x_1, ldots, x_{t-1}).</tex>
+:<tex>P(x_1, x_2, \ldots, x_n) = \prod_{t=1}^{n} P(x_t \mid x_1, \ldots, x_{t-1}).</tex>
 На каждом шаге <tex>t</tex> модель предсказывает распределение по словарю, из которого семплируется следующий токен.
+Понятие «большая» не имеет точной границы и исторически смещалось: модели, считавшиеся огромными в 2018 году (BERT — 340 млн параметров), сегодня воспринимаются как небольшие.
 == Предобучение ==
-=== Цель и данные ===
+=== Задачи предобучения ===
 LLM обучаются методом самообучения (self-supervised learning): обучающий сигнал извлекается непосредственно из текстов без ручной разметки. Наиболее распространены две задачи:
@@ Строка 25: / Строка 25: @@
 * '''Маскированное языковое моделирование''' (masked language modeling, MLM) — предсказание замаскированных токенов по контексту слева и справа. Используется в BERT и его вариантах.
-Корпус данных собирается из Common Crawl (веб-страницы), книг (Books3, Gutenberg), научных статей, кода (GitHub), Википедии и других источников. Для моделей GPT-4, LLaMA, Claude объём обучающих данных составляет от нескольких сотен миллиардов до нескольких триллионов токенов.
+Корпус данных собирается из Common Crawl (веб-страницы), книг, научных статей, кода (GitHub), Википедии и других источников. Для GPT-4, LLaMA, Claude объём обучающих данных составляет от сотен миллиардов до нескольких триллионов токенов.
-=== Вычислительные законы масштабирования ===
+=== Законы масштабирования ===
 Исследования Kaplan et al. (2020) и Hoffmann et al. (2022, «Chinchilla») установили, что потери языковой модели убывают как степенная функция от числа параметров <tex>N</tex> и объёма обучающих данных <tex>D</tex>:
-:<tex>L(N, D) approx A cdot N^{-alpha} + B cdot D^{-�eta} + L_infty,</tex>
+:<tex>L(N, D) \approx A \cdot N^{-\alpha} + B \cdot D^{-\beta} + L_\infty,</tex>
-где <tex>alpha approx �eta approx 0{,}5</tex>, а <tex>L_infty</tex> — нижняя граница ошибки, обусловленная шумом данных. Модели Chinchilla (70 млрд параметров, 1{,}4 трлн токенов) показали, что при фиксированном бюджете вычислений оптимально иметь меньшую модель, обученную на бо́льшем объёме данных.
+где <tex>\alpha \approx \beta \approx 0{,}5</tex>, а <tex>L_\infty</tex> — нижняя граница ошибки, обусловленная шумом данных. Модели Chinchilla показали, что при фиксированном бюджете вычислений оптимально иметь меньшую модель, обученную на бо́льшем объёме данных.
 == Тонкая настройка (fine-tuning) ==
@@ Строка 41: / Строка 41: @@
 # Дообучение с учителем (SFT) на демонстрациях правильного поведения.
 # Обучение модели вознаграждения (reward model) на попарных предпочтениях людей.
-# Оптимизацию политики с помощью алгоритма [[Proximal Policy Optimization|PPO]] или аналогов.
+# Оптимизацию политики с помощью алгоритма PPO или аналогов.
-Это позволяет выровнять поведение модели с человеческими ценностями и предпочтениями (alignment).
+Альтернативные методы: LoRA (Low-Rank Adaptation), QLoRA, DPO (Direct Preference Optimization), prefix-tuning — позволяют дообучать модели с меньшим числом параметров.
-Альтернативные методы тонкой настройки: LoRA (Low-Rank Adaptation), QLoRA, DPO (Direct Preference Optimization), prefix-tuning. Они позволяют дообучать модели с меньшим числом обучаемых параметров и меньшими вычислительными затратами.
 == Возникающие способности ==
-При увеличении числа параметров LLM демонстрируют '''возникающие способности''' (emergent abilities) — возможности, неожиданно появляющиеся при достижении определённого масштаба и практически отсутствующие у меньших моделей. К ним относятся:
+При увеличении числа параметров LLM демонстрируют '''возникающие способности''' (emergent abilities) — возможности, неожиданно появляющиеся при достижении определённого масштаба:
 * Решение многошаговых логических задач через цепочку рассуждений (Chain-of-Thought, CoT).
 * Обучение по нескольким примерам в контексте (few-shot in-context learning) без обновления весов.
 * Выполнение инструкций, не встречавшихся при обучении (instruction following).
-* Простейшие арифметические операции, написание кода, перевод без специализированного обучения.
-Природа этих способностей остаётся предметом научной дискуссии: часть исследователей считает их подлинными emergent properties, другие объясняют артефактами метрик оценки.
 == Применения ==
@@ Строка 65: / Строка 60: @@
 * '''Вопросно-ответные системы''' — поиск с семантическим пониманием запроса (retrieval-augmented generation, RAG).
 * '''Программирование''' — автодополнение кода (GitHub Copilot), генерация тестов, объяснение кода.
-* '''Научные исследования''' — обзор литературы, генерация гипотез, анализ данных.
+* '''Мультимодальные системы''' — понимание и генерация изображений совместно с текстом.
-* '''Образование''' — персонализированные объяснения, адаптивные учебные программы.
-* '''Мультимодальные системы''' — понимание и генерация изображений совместно с текстом (GPT-4V, Gemini, Claude).
 == Ограничения и риски ==
 * '''Галлюцинации''' — модели уверенно генерируют фактически неверные утверждения.
-* '''Сдвиг обучающего распределения''' — поведение модели может существенно меняться за пределами данных предобучения.
+* '''Предвзятости''' (bias) — LLM воспроизводят и усиливают предвзятости обучающих данных.
-* '''Предвзятости''' (bias) — LLM воспроизводят и усиливают предвзятости, присутствующие в обучающих данных.
+* '''Безопасность''' — возможность злоупотреблений: дезинформация, фишинг, вредоносный контент.
-* '''Безопасность''' — возможность злоупотреблений (дезинформация, фишинг, синтез вредоносного контента).
+* '''Непрозрачность''' — механизм принятия решений остаётся слабо интерпретируемым.
-* '''Непрозрачность''' — механизм принятия решений остаётся слабо интерпретируемым (см. [[Интерпретируемость моделей машинного обучения|interpretability]]).
 == Исторические вехи ==
@@ Строка 94: / Строка 86: @@
 |-
 | 2023 || LLaMA 2 || 70 млрд || Meta AI
-|-
-| 2024 || Gemini Ultra || неизвестно || Google DeepMind
 |-
 | 2024 || Claude 3 Opus || неизвестно || Anthropic
@@ Строка 106: / Строка 96: @@
 * [[Промпт-инжиниринг]]
 * [[Нейросетевое встраивание]]
-* [[Нейронная сеть]]
 * [[Машинное обучение]]
@@ Строка 117: / Строка 106: @@
 * {{статья |автор=Brown T. et al. |заглавие=Language Models are Few-Shot Learners |издание=Advances in Neural Information Processing Systems |год=2020 |том=33 |ссылка=https://arxiv.org/abs/2005.14165}}
 * {{статья |автор=Wei J. et al. |заглавие=Emergent Abilities of Large Language Models |издание=Transactions on Machine Learning Research |год=2022 |ссылка=https://arxiv.org/abs/2206.07682}}
-* {{статья |автор=Ouyang L. et al. |заглавие=Training language models to follow instructions with human feedback |издание=Advances in Neural Information Processing Systems |год=2022 |том=35 |ссылка=https://arxiv.org/abs/2203.02155}}
 [[Категория:Машинное обучение]]
 [[Категория:Нейронные сети]]
 [[Категория:Обработка естественного языка]]