Обсуждение:Обучение с подкреплением из обратной связи человека (RLHF)

Материал из MachineLearning.

Версия от 11:37, 16 июня 2026; Emil Petrov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Промпт для генерации статьи

Промпт, использованный для генерации статьи «Обучение с подкреплением из обратной связи человека (RLHF)» с помощью LLM Claude Sonnet 4:

Напиши подробную статью для вики-энциклопедии MachineLearning.ru на тему «Обучение с подкреплением из обратной связи человека (RLHF)».
Требования:
1. Структура: введение, история, общая схема (SFT → RM → RL), детальное описание каждого этапа с формулами.
2. Формулы в тегах : функция потерь SFT, модель предпочтений Брэдли–Терри, функция потерь RM, целевой функционал PPO с KL-регуляризацией, формула PPO CLIP, формула DPO.
3. Раздел о RLAIF и Constitutional AI.
4. Раздел о проблемах: reward hacking, дрейф распределения, стоимость разметки, предвзятость разметчиков.
5. Раздел о применениях.
6. Внутренние вики-ссылки на связанные статьи.
7. Категории: Машинное обучение, Обучение с подкреплением, Языковые модели.
8. Литература: InstructGPT (Ouyang et al., 2022), DPO (Rafailov et al., 2023), Constitutional AI (Bai et al., 2022), Sutton & Barto.
9. Шаблон well добавить отдельно.

-- Emil Petrov Emil Petrov 15:37, 16 июня 2026 (MSD)

Источник — «http://poligon.machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%81%D1%83%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5:%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_%D0%B8%D0%B7_%D0%BE%D0%B1%D1%80%D0%B0%D1%82%D0%BD%D0%BE%D0%B9_%D1%81%D0%B2%D1%8F%D0%B7%D0%B8_%D1%87%D0%B5%D0%BB%D0%BE%D0%B2%D0%B5%D0%BA%D0%B0_%28RLHF%29»

Обсуждение:Обучение с подкреплением из обратной связи человека (RLHF)

Материал из MachineLearning.

Промпт для генерации статьи

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты