OpenAI o1: 내부 추론 토큰의 혁명
기존 모델과 달리 사고 과정을 노출하지 않고, 내부적으로 깊은 추론 후 결과만 출력하는 '생각하는' AI
내부 추론 토큰을 사용하는 "생각하는" AI
개념
OpenAI o1은 기존 모델과 달리 사고 과정을 사용자에게 노출하지 않고, 내부적으로 깊은 추론 후 결과만 출력하는 모델이다.
동작 방식 비교
- 기존 모델: 질문을 받으면 보이는 사고 과정을 거쳐 답을 출력한다.
- o1: 질문을 받으면 내부 Reasoning Tokens로 추론한 뒤 답만 출력한다. 사고 과정은 사용자에게 비공개이다.
Reasoning Tokens
o1의 핵심은 Reasoning Tokens이다:
- 사용자에게는 보이지 않음
- 내부적으로 수십~수백 개의 추론 토큰 생성
- 이 과정에서 문제를 깊이 분석
내부 동작 예시
사용자 관점 Q: "AIME 2024 문제 풀어줘" A: "답은 42이다." (바로 정답)
내부에서 일어나는 일 Q: "AIME 2024 문제 풀어줘" Reasoning Token 1: "이 문제는 정수론 문제네..." Reasoning Token 2: "먼저 소인수분해를 해보면..." Reasoning Token 3: "오일러 함수를 적용하면..." ... Reasoning Token 147: "따라서 답은 42" A: "답은 42이다."
강화학습 기반 훈련
o1은 강화학습으로 훈련된다:
- 추론 과정 생성: 텍스트로 추론 과정을 생성한다.
- 최종 답 검증: 정답이면 +1, 오답이면 -1 보상을 부여한다.
- 정책 개선: 어떤 추론 패턴이 정답으로 이어지는지 학습한다.
- 반복 훈련: 이 과정을 수백만 번 반복한다.
PPO (Proximal Policy Optimization)
o1의 훈련에는 PPO 알고리즘이 사용된다:
- 보상 신호: 최종 답의 정확도
- 정책 업데이트: 정답으로 이어지는 추론 패턴 강화
- 탐색: 다양한 추론 경로 시도
성능
| 벤치마크 | GPT-4 | o1-preview | o1-full |
|---|---|---|---|
| AIME 2024 | 12% | 74% | 85% |
| GPQA Diamond | - | - | 92% |
| 인간 전문가 | - | - | ~60% |
AIME (미국 수학 올림피아드 초청 시험)
- 고등학생 수학 영재를 위한 시험
- GPT-4: 12% (거의 못 품)
- o1: 85% (대부분 해결)
GPQA Diamond
- 박사급 전문가도 60%밖에 못 푸는 문제
- o1: 92% (인간 전문가 크게 능가)
특이한 성질
"Let's think step by step"이 오히려 성능 하락
기존 CoT 프롬프팅 기법이 o1에서는 역효과를 냅니다:
| 조건 | AIME 성능 |
|---|---|
| o1 (기본) | 85% |
| o1 + "Let's think step by step" | ~80% |
왜 그럴까?
o1은 이미 최적의 추론 방식으로 훈련되었다. 외부 지시가 오히려 최적화된 내부 추론을 방해한다.
- 기존 모델: "Let's think step by step"이 추론을 유도하여 성능이 향상된다.
- o1: "Let's think step by step"이 내부 최적 추론과 충돌하여 오히려 성능이 하락한다.
o1 vs GPT-4
| GPT-4 | o1 | |
|---|---|---|
| 사고 과정 | 외부 노출 | 내부 처리 |
| 프롬프팅 효과 | 크게 영향 | 영향 적음 |
| 추론 깊이 | 프롬프트 의존 | 자체 최적화 |
| 수학/과학 | 보통 | 탁월 |
| 비용 | 보통 | 높음 |
사용 시 주의점
하지 말아야 할 것
"단계별로 생각해주자." "천천히 분석해주자." "각 단계를 설명해주자."
이런 불필요한 지시는 피해야 한다. o1은 이미 내부적으로 최적의 방식으로 추론한다.
해야 할 것
"AIME 2024 문제 5번을 풀어주자." "이 증명의 오류를 찾아주자." "최적의 알고리즘을 설계해주자."
문제만 명확히 제시하고 추론은 o1에게 맡기는 것이 효과적이다.
적합한 사용 사례
| 적합 | 부적합 |
|---|---|
| 수학 올림피아드 | 일반 대화 |
| 과학 연구 문제 | 창작 글쓰기 |
| 복잡한 코딩 | 간단한 QA |
| 논리 퍼즐 | 일상적 작업 |
비용 고려
o1은 내부 추론 토큰을 많이 사용하므로:
-
입력 토큰: 질문 길이
-
출력 토큰: 답변 + 내부 추론 토큰
-
비용이 GPT-4보다 높을 수 있음
-
GPT-4: 질문(100) + 답변(200) = 300 토큰
-
o1: 질문(100) + 내부추론(500) + 답변(200) = 800 토큰
관련 개념
- DeepSeek-R1: 오픈소스 대안
- Test-Time Compute Scaling: 추론 시간 최적화
- Chain of Thought: 기존 추론 유도 기법