Обсуждение:Обучение с подкреплением по рубрикам

Материал из MachineLearning.

✔

Напиши для MachineLearning.ru реферативную вики-статью о публикации «Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains».

Требования:
- это должна быть именно страница публикации, а не словарная статья о термине;
- опирайся в первую очередь на материалы Scale AI и Scale Labs;
- объясни проблему: как обучать LLM в доменах, где нет единственного легко проверяемого правильного ответа;
- покажи, чем подход Rubrics as Rewards отличается от RLVR, RLHF и reward models на preference data;
- обязательно опиши rubric items, веса критериев, explicit aggregation и implicit aggregation;
- приведи основную формулу нормированной rubric-based reward и формулу implicit judge-based aggregation в вики-совместимом формате через <tex>...</tex>;
- упомяни, что обучение в статье проводится с использованием GRPO;
- опиши четыре принципа хорошей рубрики: expert guidance, comprehensive coverage, semantic weighting, self-contained evaluation;
- кратко приведи экспериментальные результаты на medicine/science и HealthBench-1k;
- можно коротко сослаться на RESEARCHRUBRICS как на родственную работу Scale AI по rubric-based evaluation;
- в конце добавь разделы «См. также», «Ссылки» и «Литература»;
- стиль должен быть энциклопедическим, аккуратным и ориентированным на читателя, знакомого с ML.

Избегай выдуманных деталей и не приписывай статье того, чего в ней прямо нет.

Оформление http://www.machinelearning.ru/wiki/index.php?title=MachineLearning:Инструктаж

Источник — «http://poligon.machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%81%D1%83%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5:%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_%D0%BF%D0%BE_%D1%80%D1%83%D0%B1%D1%80%D0%B8%D0%BA%D0%B0%D0%BC»

Обсуждение:Обучение с подкреплением по рубрикам

Материал из MachineLearning.

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты