Обучение с подкреплением из обратной связи человека (RLHF)
Материал из MachineLearning.
| | Эта статья создана с использованием языковой модели. Автор статьи несёт полную ответственность за её содержание. |
|
Обучение с подкреплением из обратной связи человека (RLHF, Reinforcement Learning from Human Feedback) — метод обучения языковых моделей, при котором сигнал обратной связи формируется на основе оценок человека, а не заранее заданной функции потерь. RLHF позволяет согласовать поведение модели с предпочтениями пользователей и является ключевой техникой в разработке современных систем, таких как ChatGPT, Claude и Gemini.
История
Идея использования обратной связи от людей для обучения агентов восходит к работам по обучению с подкреплением 1990-х годов. Применительно к языковым моделям RLHF получил широкое распространение после публикации InstructGPT (Ouyang et al., 2022), где было показано, что относительно небольшая модель, настроенная с помощью RLHF, может значительно превосходить более крупные модели по качеству ответов с точки зрения людей.
Общая схема
Стандартный пайплайн RLHF включает три этапа:
- Обучение с учителем (SFT) — дообучение предобученной языковой модели на размеченном наборе данных «вопрос–ответ», собранном с участием разметчиков.
- Обучение модели вознаграждения (RM) — обучение отдельной модели предсказывать, какой из двух ответов предпочтёт человек.
- Оптимизация политики с помощью RL — обучение языковой модели максимизировать вознаграждение от RM с помощью алгоритмов обучения с подкреплением.
Supervised Fine-Tuning (SFT)
На первом этапе предобученная языковая модель дообучается на небольшом корпусе размеченных диалогов. Функция потерь — стандартная кросс-энтропия:
Результатом является модель , умеющая отвечать в нужном формате.
Модель вознаграждения
Модель предпочтений Брэдли–Терри
Для каждого запроса разметчики сравнивают пары ответов
, где
— предпочтительный ответ,
— менее предпочтительный. Вероятность предпочтения описывается моделью Брэдли–Терри:
где — скалярное вознаграждение, выдаваемое моделью. Функция потерь:
Оптимизация политики
PPO с KL-регуляризацией
После получения обученной модели вознаграждения языковая модель
оптимизируется с помощью алгоритма PPO. Целевой функционал включает KL-штраф, ограничивающий отклонение от SFT-модели:
где — коэффициент регуляризации. KL-штраф предотвращает «reward hacking» — выработку вырожденных стратегий, получающих высокое вознаграждение без реального качества.
Формула PPO CLIP
На практике PPO использует clipped surrogate objective:
где — отношение вероятностей,
— оценка преимущества,
— гиперпараметр (обычно 0.1–0.2).
Direct Preference Optimization (DPO)
DPO (Rafailov et al., 2023) — альтернатива RLHF, исключающая явное обучение модели вознаграждения. DPO перепараметризует задачу и оптимизирует политику напрямую по данным предпочтений:
DPO проще в реализации и стабильнее в обучении, чем PPO-based RLHF.
RLAIF
RLAIF (Reinforcement Learning from AI Feedback) заменяет разметчиков-людей другой языковой моделью (обычно более мощной). Конституциональный ИИ (Constitutional AI, Anthropic) использует набор принципов, по которым вспомогательная модель сравнивает ответы, формируя обучающие данные для RM.
Проблемы
- Reward hacking
- Оптимизированная модель может находить стратегии, получающие высокое вознаграждение без реального улучшения качества (закон Гудхарта).
- Дрейф распределения
- Политика отклоняется от распределения, на котором обучена RM, что ухудшает её предсказания.
- Стоимость разметки
- Сбор предпочтений людей дорог и медленен; качество зависит от согласованности разметчиков.
- Предвзятость разметчиков
- Разметчики могут предпочитать длинные, уверенно звучащие ответы, не связанные с их точностью.
Применения
RLHF применяется при создании:
- ассистентов на основе больших языковых моделей (ChatGPT, Claude, Gemini);
- систем суммаризации текста;
- моделей перевода с улучшенным качеством;
- агентов для диалоговых систем.
Примечания
Литература
- Ouyang, L. et al. Training language models to follow instructions with human feedback // NeurIPS. — 2022.
- Rafailov, R. et al. Direct Preference Optimization: Your Language Model is Secretly a Reward Model // NeurIPS. — 2023.
- Bai, Y. et al. Constitutional AI: Harmlessness from AI Feedback // arXiv. — 2022.
- Sutton, R., Barto, A. Reinforcement Learning: An Introduction. — MIT Press, 2018.

