OpenAI o1: 내부 추론 토큰의 혁명

내부 추론 토큰을 사용하는 "생각하는" AI

개념

OpenAI o1은 기존 모델과 달리 사고 과정을 사용자에게 노출하지 않고, 내부적으로 깊은 추론 후 결과만 출력하는 모델이다.

동작 방식 비교

기존 모델: 질문을 받으면 보이는 사고 과정을 거쳐 답을 출력한다.
o1: 질문을 받으면 내부 Reasoning Tokens로 추론한 뒤 답만 출력한다. 사고 과정은 사용자에게 비공개이다.

Reasoning Tokens

o1의 핵심은 Reasoning Tokens이다:

사용자에게는 보이지 않음
내부적으로 수십~수백 개의 추론 토큰 생성
이 과정에서 문제를 깊이 분석

내부 동작 예시

사용자 관점 Q: "AIME 2024 문제 풀어줘" A: "답은 42이다." (바로 정답)

내부에서 일어나는 일 Q: "AIME 2024 문제 풀어줘" Reasoning Token 1: "이 문제는 정수론 문제네..." Reasoning Token 2: "먼저 소인수분해를 해보면..." Reasoning Token 3: "오일러 함수를 적용하면..." ... Reasoning Token 147: "따라서 답은 42" A: "답은 42이다."

강화학습 기반 훈련

o1은 강화학습으로 훈련된다:

추론 과정 생성: 텍스트로 추론 과정을 생성한다.
최종 답 검증: 정답이면 +1, 오답이면 -1 보상을 부여한다.
정책 개선: 어떤 추론 패턴이 정답으로 이어지는지 학습한다.
반복 훈련: 이 과정을 수백만 번 반복한다.

PPO (Proximal Policy Optimization)

o1의 훈련에는 PPO 알고리즘이 사용된다:

보상 신호: 최종 답의 정확도
정책 업데이트: 정답으로 이어지는 추론 패턴 강화
탐색: 다양한 추론 경로 시도

성능

벤치마크	GPT-4	o1-preview	o1-full
AIME 2024	12%	74%	85%
GPQA Diamond	-	-	92%
인간 전문가	-	-	~60%

AIME (미국 수학 올림피아드 초청 시험)

고등학생 수학 영재를 위한 시험
GPT-4: 12% (거의 못 품)
o1: 85% (대부분 해결)

GPQA Diamond

박사급 전문가도 60%밖에 못 푸는 문제
o1: 92% (인간 전문가 크게 능가)

특이한 성질

"Let's think step by step"이 오히려 성능 하락

기존 CoT 프롬프팅 기법이 o1에서는 역효과를 냅니다:

조건	AIME 성능
o1 (기본)	85%
o1 + "Let's think step by step"	~80%

왜 그럴까?

o1은 이미 최적의 추론 방식으로 훈련되었다. 외부 지시가 오히려 최적화된 내부 추론을 방해한다.

기존 모델: "Let's think step by step"이 추론을 유도하여 성능이 향상된다.
o1: "Let's think step by step"이 내부 최적 추론과 충돌하여 오히려 성능이 하락한다.

o1 vs GPT-4

	GPT-4	o1
사고 과정	외부 노출	내부 처리
프롬프팅 효과	크게 영향	영향 적음
추론 깊이	프롬프트 의존	자체 최적화
수학/과학	보통	탁월
비용	보통	높음

사용 시 주의점

하지 말아야 할 것

"단계별로 생각해주자." "천천히 분석해주자." "각 단계를 설명해주자."

이런 불필요한 지시는 피해야 한다. o1은 이미 내부적으로 최적의 방식으로 추론한다.

해야 할 것

"AIME 2024 문제 5번을 풀어주자." "이 증명의 오류를 찾아주자." "최적의 알고리즘을 설계해주자."

문제만 명확히 제시하고 추론은 o1에게 맡기는 것이 효과적이다.

적합한 사용 사례

적합	부적합
수학 올림피아드	일반 대화
과학 연구 문제	창작 글쓰기
복잡한 코딩	간단한 QA
논리 퍼즐	일상적 작업

비용 고려

o1은 내부 추론 토큰을 많이 사용하므로:

입력 토큰: 질문 길이
출력 토큰: 답변 + 내부 추론 토큰
비용이 GPT-4보다 높을 수 있음
GPT-4: 질문(100) + 답변(200) = 300 토큰
o1: 질문(100) + 내부추론(500) + 답변(200) = 800 토큰

개념