Chain-of-thoughts

Материал из MachineLearning.

Версия от 12:24, 16 июня 2026; Ilia Prokofev (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Статья написана с использованием LLM OpenAI GPT-5.4 и проверена участником Ilia Prokofev 16:24, 16 июня 2026 (MSD)


Chain-of-thoughts (часто сокращается как CoT) — способ организации вывода большой языковой модели, при котором модель перед окончательным ответом порождает последовательность промежуточных шагов рассуждения. В литературе термин чаще всего используется в выражении chain-of-thought prompting, то есть prompting, побуждающий модель решать задачу поэтапно.

Идея chain-of-thoughts приобрела известность после работы Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022), где было показано, что добавление в prompt примеров пошагового рассуждения существенно улучшает результаты на задачах арифметического, символического и commonsense reasoning. Позднее этот подход стал одной из опорных техник в исследованиях reasoning-моделей.

Содержание

Основная идея

Обычный prompt часто требует от модели сразу выдать итоговый ответ:

x \mapsto y

Подход chain-of-thoughts вводит промежуточную последовательность рассуждений:

x \mapsto r_1, r_2, \dots, r_T \mapsto y

Здесь x — входной запрос, r_1,\dots,r_T — промежуточные шаги рассуждения, а y — окончательный ответ. Важная мысль состоит в том, что сложная задача может быть решена лучше, если модель сначала явно разложит её на подшаги.

Такой подход особенно полезен в задачах, где ответ зависит от нескольких последовательных логических переходов, вычислений или скрытых допущений.

Chain-of-thought prompting

В исходной работе 2022 года chain-of-thoughts рассматривался прежде всего как техника prompting. Модели показывают несколько примеров, в которых решение сопровождается промежуточным объяснением:

  • формулируется задача;
  • приводится пошаговое рассуждение;
  • затем записывается итоговый ответ.

После этого модель получает новый вопрос и продолжает шаблон, порождая собственную цепочку рассуждений. Такой режим называют few-shot chain-of-thought prompting.

Эмпирически было показано, что эффект особенно заметен для достаточно больших моделей. В работе Wei et al. основное улучшение наблюдалось на крупных языковых моделях, тогда как меньшие модели выигрывали заметно слабее.

Zero-shot chain of thought

Позднее было показано, что для многих задач не обязательно вручную подбирать полноценные few-shot demonstrations. В ряде случаев достаточно короткой инструкции вроде:

Let’s think step by step.

Такой подход получил название zero-shot chain of thought. Он проще few-shot-схемы, так как не требует подбора демонстрационных примеров, но качество его работы сильно зависит от модели, домена и конкретной формулировки запроса.

Почему chain-of-thoughts работают

Единого окончательного теоретического объяснения у эффективности CoT нет, однако в литературе обсуждаются несколько причин.

Во-первых, цепочка рассуждений действует как скрытое разбиение сложной задачи на более простые этапы. Во-вторых, она помогает модели поддерживать и обновлять промежуточное состояние вычисления в текстовой форме. В-третьих, CoT задаёт более удачный формат вывода для задач, где правильность ответа зависит от последовательности дедуктивных или арифметических шагов.

С инженерной точки зрения CoT можно рассматривать как способ вынести часть вычисления в текстовое пространство, доступное autoregressive-модели.

Self-consistency

Одним из наиболее известных расширений chain-of-thoughts стал метод self-consistency, предложенный в работе Self-Consistency Improves Chain of Thought Reasoning in Language Models (2022). Вместо одной цепочки рассуждений модель генерирует несколько разных траекторий:

r^{(1)}, r^{(2)}, \dots, r^{(N)}

после чего итоговый ответ выбирается по агрегированию, например большинством:

\hat{y} = \mathrm{vote}(y^{(1)}, y^{(2)}, \dots, y^{(N)})

Идея self-consistency состоит в том, что одна конкретная цепочка рассуждений может оказаться неудачной, тогда как несколько независимых цепочек позволяют лучше приблизить правильный ответ.

Связь с reasoning-моделями

Chain-of-thoughts сыграли важную роль в переходе от обычных instruction-tuned моделей к специализированным reasoning-моделям. Если ранние работы в основном рассматривали CoT как prompt engineering, то позднейшие исследования начали использовать цепочки рассуждений как:

  • обучающие демонстрации;
  • источник synthetic training data;
  • промежуточное представление при post-training;
  • объект для search-based inference, например в схемах типа Tree-of-Thought.

Таким образом, chain-of-thoughts перестали быть только эвристикой prompting и превратились в более общий принцип организации inference-time computation.

Ограничения

Несмотря на успех, у подхода есть важные ограничения.

  • Наличие длинной цепочки рассуждений не гарантирует корректность ответа.
  • Модель может порождать правдоподобное, но ложное рассуждение.
  • Для некоторых задач chain-of-thoughts увеличивают стоимость inference по времени и числу токенов.
  • Не для всех моделей и доменов явное рассуждение одинаково полезно.
  • Иногда модель может прийти к правильному ответу более коротким путём, чем развёрнутая текстовая цепочка.

Поэтому chain-of-thoughts нельзя отождествлять с «настоящим» внутренним reasoning модели. Скорее, это наблюдаемая текстовая траектория, которая часто, но не всегда, помогает получить лучший ответ.

Значение для alignment

В задачах alignment chain-of-thoughts важны по двум причинам. Во-первых, они улучшают решение сложных задач и потому повышают полезность модели. Во-вторых, они дают исследователю дополнительный уровень наблюдаемости: можно анализировать не только финальный ответ, но и промежуточные шаги, по которым модель к нему пришла.

Именно поэтому chain-of-thoughts тесно связаны с современными направлениями:

  • Group Relative Policy Optimization и другими методами RL для reasoning LLM;
  • rubric-based evaluation и alignment;
  • self-consistency;
  • tree search и deliberate inference.

Исторический контекст

Ключевой публикацией считается работа:

  • Wei J., Wang X., Schuurmans D., Bosma M., Ichter B., Xia F., Chi E., Le Q., Zhou D. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022).

Среди ранних продолжений особенно выделяются:

  • Wang X. et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models (2022);
  • Yao S. et al. Tree of Thoughts: Deliberate Problem Solving with Large Language Models (2023);
  • Zhou D. et al. Least-to-Most Prompting Enables Complex Reasoning in Large Language Models (2023).

В совокупности эти работы оформили chain-of-thoughts как самостоятельное направление исследований на стыке prompting, inference-time search и обучения reasoning behavior.

См. также

Литература

  • Wei J., Wang X., Schuurmans D., Bosma M., Ichter B., Xia F., Chi E., Le Q., Zhou D. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903, 2022. https://arxiv.org/abs/2201.11903
  • Wang X., Wei J., Schuurmans D., Le Q., Chi E., Narang S., Chowdhery A., Zhou D. Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171, 2022. https://arxiv.org/abs/2203.11171
  • Yao S., Yu D., Zhao J., Shafran I., Narasimhan K., Cao Y., Narayanan K., Griffiths T. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601, 2023. https://arxiv.org/abs/2305.10601
  • Zhou D., Scharli N., Hou L., Wei J., Scales N., Wang X., Chi E., Zhou D., Le Q. Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. arXiv:2205.10625, 2023. https://arxiv.org/abs/2205.10625
Личные инструменты