Обсуждение:Обучение с подкреплением по рубрикам

Материал из MachineLearning.

Перейти к: навигация, поиск
Напиши для MachineLearning.ru реферативную вики-статью о публикации «Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains».

Требования:
- это должна быть именно страница публикации, а не словарная статья о термине;
- опирайся в первую очередь на материалы Scale AI и Scale Labs;
- объясни проблему: как обучать LLM в доменах, где нет единственного легко проверяемого правильного ответа;
- покажи, чем подход Rubrics as Rewards отличается от RLVR, RLHF и reward models на preference data;
- обязательно опиши rubric items, веса критериев, explicit aggregation и implicit aggregation;
- приведи основную формулу нормированной rubric-based reward и формулу implicit judge-based aggregation в вики-совместимом формате через <tex>...</tex>;
- упомяни, что обучение в статье проводится с использованием GRPO;
- опиши четыре принципа хорошей рубрики: expert guidance, comprehensive coverage, semantic weighting, self-contained evaluation;
- кратко приведи экспериментальные результаты на medicine/science и HealthBench-1k;
- можно коротко сослаться на RESEARCHRUBRICS как на родственную работу Scale AI по rubric-based evaluation;
- в конце добавь разделы «См. также», «Ссылки» и «Литература»;
- стиль должен быть энциклопедическим, аккуратным и ориентированным на читателя, знакомого с ML.

Избегай выдуманных деталей и не приписывай статье того, чего в ней прямо нет.

Оформление http://www.machinelearning.ru/wiki/index.php?title=MachineLearning:Инструктаж
Личные инструменты