이종관
글 목록으로

Chain of Thought (CoT): 단계별 추론의 시작

Let's think step by step - LLM에게 생각하는 과정을 보여주는 것만으로 성능이 2배 향상된다

2026년 2월 1일·5 min read·
agent
chain-of-thought
reasoning
prompting

"Let's think step by step"

개념

Chain of Thought(CoT)는 LLM에게 중간 추론 단계를 보여주어 복잡한 문제 해결 능력을 이끌어내는 프롬프팅 기법이다.

핵심 아이디어

  • 일반 프롬프팅: 문제를 주면 바로 답을 출력한다.
  • CoT 프롬프팅: 문제를 주면 단계1, 단계2, 단계3을 거쳐 답에 도달한다.

예시 비교

일반 프롬프팅

Q: 2+3은? A: 5

Chain-of-Thought 프롬프팅

Q: 2+3은? 먼저 2개를 생각하고 3개를 더하면 총 5개다. A: 5

Emergent Ability

CoT의 가장 흥미로운 특성은 모든 모델에서 작동하지 않는다는 것이다.

모델 크기CoT 적용 효과
작은 모델성능 변화가 거의 없음
큰 모델 (100B+)단계적 추론을 통해 성능이 크게 향상

약 100억 파라미터 이상의 모델에서만 CoT 효과 발현

작은 모델의 CoT는 "유창하지만 논리적이지 않은" 결과를 만들어냅니다.

실험 결과

산술 추론 (GSM8K)

모델표준 프롬프팅CoT 프롬프팅
PaLM 540B~35%~70% (약 2배)

상식 추론 (StrategyQA)

  • 기존 최고: 69.4%
  • PaLM 540B + CoT: 75.6%

스포츠 이해

  • 95.4% (전문 스포츠 팬 수준 초과)

제거 연구 (Ablation Study)

"왜 CoT가 작동하는가?"를 검증하기 위한 실험:

변형결과의미
수식만 보여주기효과 없음자연언어 설명 필요
의미 없는 토큰 추가효과 없음단순 계산 시간 증가 아님
답변 후 사고 과정효과 없음순서가 중요

결론: 실제 추론 과정의 명시화가 핵심

강건성 검증

프롬프트 민감도 테스트

  • 3명의 저자가 독립적으로 작성한 CoT → 모두 효과적
  • GSM8K 훈련 데이터에서 무작위 샘플 사용 → 작동
  • 예시 순서 변경 → 상대적으로 영향 적음

결론: 특정 스타일이 아닌 "추론 과정 명시" 자체가 중요

Out-of-Distribution 테스트

일반화 능력

  • 마지막 문자 연결: 2단어로 학습 → 3-4단어 문제 해결
  • 동전 뒤집기: 2번 뒤집기 학습 → 더 많은 뒤집기 해결

의미: 단순 패턴 매칭이 아닌 추상적 논리 구조 학습

한계

  1. 신경망이 실제로 "생각"하는지는 미해결
  2. 미세조정 확장 시 데이터 비용
  3. 올바른 추론 보장 안 됨 (할루시네이션 가능)
  4. 매우 큰 모델(100B+)에서만 작동

패러다임 전환

이전이후
모델을 어떻게 더 똑똑하게 학습시킬 것인가?이미 똑똑한 모델을 어떻게 더 잘 사용할 것인가?

핵심 메시지: 거대 언어 모델은 이미 강력한 추론 능력을 내재하고 있다. 모델에게 '생각하는 과정'을 예시로 보여주기만 해도, 그 능력을 발휘할 수 있다.

발전

  1. CoT → ReAct: 도구 사용을 추가하여 외부 환경과 상호작용한다.
  2. CoT → ToT: 다중 경로를 탐색하여 최적의 추론 경로를 찾다.
  3. CoT → Reflexion: 자기 성찰을 통해 실패에서 학습한다.

관련 개념

  • Tree of Thought (ToT): 다중 경로 확장
  • ReAct: 행동 결합
  • Reflexion: 자기 성찰 추가