Обсуждение:Обучение с подкреплением из обратной связи человека (RLHF)
Материал из MachineLearning.
Промпт для генерации статьи
Промпт, использованный для генерации статьи «Обучение с подкреплением из обратной связи человека (RLHF)» с помощью LLM Claude Sonnet 4:
Напиши подробную статью для вики-энциклопедии MachineLearning.ru на тему «Обучение с подкреплением из обратной связи человека (RLHF)». Требования: 1. Структура: введение, история, общая схема (SFT → RM → RL), детальное описание каждого этапа с формулами. 2. Формулы в тегах: функция потерь SFT, модель предпочтений Брэдли–Терри, функция потерь RM, целевой функционал PPO с KL-регуляризацией, формула PPO CLIP, формула DPO. 3. Раздел о RLAIF и Constitutional AI. 4. Раздел о проблемах: reward hacking, дрейф распределения, стоимость разметки, предвзятость разметчиков. 5. Раздел о применениях. 6. Внутренние вики-ссылки на связанные статьи. 7. Категории: Машинное обучение, Обучение с подкреплением, Языковые модели. 8. Литература: InstructGPT (Ouyang et al., 2022), DPO (Rafailov et al., 2023), Constitutional AI (Bai et al., 2022), Sutton & Barto. 9. Шаблон well добавить отдельно.
-- Emil Petrov Emil Petrov 15:37, 16 июня 2026 (MSD)

