Chain of Thought (CoT): 단계별 추론의 시작

"Let's think step by step"

개념

Chain of Thought(CoT)는 LLM에게 중간 추론 단계를 보여주어 복잡한 문제 해결 능력을 이끌어내는 프롬프팅 기법이다.

핵심 아이디어

일반 프롬프팅: 문제를 주면 바로 답을 출력한다.
CoT 프롬프팅: 문제를 주면 단계1, 단계2, 단계3을 거쳐 답에 도달한다.

예시 비교

일반 프롬프팅

Q: 2+3은? A: 5

Chain-of-Thought 프롬프팅

Q: 2+3은? 먼저 2개를 생각하고 3개를 더하면 총 5개다. A: 5

Emergent Ability

CoT의 가장 흥미로운 특성은 모든 모델에서 작동하지 않는다는 것이다.

모델 크기	CoT 적용 효과
작은 모델	성능 변화가 거의 없음
큰 모델 (100B+)	단계적 추론을 통해 성능이 크게 향상

약 100억 파라미터 이상의 모델에서만 CoT 효과 발현

작은 모델의 CoT는 "유창하지만 논리적이지 않은" 결과를 만들어냅니다.

실험 결과

산술 추론 (GSM8K)

모델	표준 프롬프팅	CoT 프롬프팅
PaLM 540B	~35%	~70% (약 2배)

상식 추론 (StrategyQA)

기존 최고: 69.4%
PaLM 540B + CoT: 75.6%

스포츠 이해

95.4% (전문 스포츠 팬 수준 초과)

제거 연구 (Ablation Study)

"왜 CoT가 작동하는가?"를 검증하기 위한 실험:

변형	결과	의미
수식만 보여주기	효과 없음	자연언어 설명 필요
의미 없는 토큰 추가	효과 없음	단순 계산 시간 증가 아님
답변 후 사고 과정	효과 없음	순서가 중요

결론: 실제 추론 과정의 명시화가 핵심

강건성 검증

프롬프트 민감도 테스트

3명의 저자가 독립적으로 작성한 CoT → 모두 효과적
GSM8K 훈련 데이터에서 무작위 샘플 사용 → 작동
예시 순서 변경 → 상대적으로 영향 적음

결론: 특정 스타일이 아닌 "추론 과정 명시" 자체가 중요

Out-of-Distribution 테스트

일반화 능력

마지막 문자 연결: 2단어로 학습 → 3-4단어 문제 해결
동전 뒤집기: 2번 뒤집기 학습 → 더 많은 뒤집기 해결

의미: 단순 패턴 매칭이 아닌 추상적 논리 구조 학습

한계

신경망이 실제로 "생각"하는지는 미해결
미세조정 확장 시 데이터 비용
올바른 추론 보장 안 됨 (할루시네이션 가능)
매우 큰 모델(100B+)에서만 작동

패러다임 전환

이전	이후
모델을 어떻게 더 똑똑하게 학습시킬 것인가?	이미 똑똑한 모델을 어떻게 더 잘 사용할 것인가?

핵심 메시지: 거대 언어 모델은 이미 강력한 추론 능력을 내재하고 있다. 모델에게 '생각하는 과정'을 예시로 보여주기만 해도, 그 능력을 발휘할 수 있다.

발전

CoT → ReAct: 도구 사용을 추가하여 외부 환경과 상호작용한다.
CoT → ToT: 다중 경로를 탐색하여 최적의 추론 경로를 찾다.
CoT → Reflexion: 자기 성찰을 통해 실패에서 학습한다.

개념