AI Agent 진화사: 2022-2025 발전 타임라인
Chain of Thought부터 OpenAI o1까지 - AI 에이전트의 주요 발전 타임라인 정리
타임라인 개요
- 2022 초 Chain of Thought
- 2022 중-말 ReAct, Toolformer
- 2023 초-중 Reflexion, Self-Refine, CRITIC
- 2023 중 Tree of Thought, LATS
- 2023 중 Multi-Agent Debate
- 2024 말 OpenAI o1, DeepSeek-R1
- 2025 Test-Time Compute Scaling
1장: 추론의 내부화 (2022년 초)
Chain of Thought (CoT)
"Let's think step by step" - LLM에게 중간 추론 단계를 보여주는 것만으로 복잡한 문제 해결 능력이 크게 향상된다. 100B+ 모델에서만 효과가 발현되는 Emergent Ability로 주목받았다.
2장: 외부 도구 통합 (2022-2023)
ReAct
Reasoning과 Acting을 결합하여 Thought -> Action -> Observation 루프를 반복한다.
외부 도구(검색, 계산기 등)를 활용해 할루시네이션을 줄이고 실시간 정보를 얻는 최초의 프레임워크이다.
3장: 자기 성찰과 학습 (2023년 초)
Reflexion
실패를 언어로 기술하고 메모리에 저장하여 다음 시도에서 같은 실수를 반복하지 않다. HumanEval에서 48% -> 91%로 도약한 핵심 메커니즘이다.
Self-Refine
단일 모델이 생성, 피드백, 개선을 반복하는 자기 개선 루프이다.
CRITIC
외부 도구(검색 엔진, 코드 실행기 등)로 자신의 출력을 검증한 뒤 수정한다.
4장: 탐색과 계획 (2023년 중반)
Tree of Thought (ToT)
선형적 사고에서 벗어나 여러 경로를 트리 형태로 탐색한다. "24 만들기" 게임에서 CoT 4% -> ToT 74%로 18배 향상을 보여주었다.
LATS
Tree Search + ReAct + Reflexion + Monte Carlo를 통합한 프레임워크로, HumanEval 94.4%를 달성하며 개별 기법들의 장점을 결합했다.
5장: 다중 에이전트 협력 (2023년 중반)
Multi-Agent Debate
여러 에이전트가 토론하며 상호 검증하는 방식으로, 다양한 관점이 할루시네이션을 줄이다.
MADKE
공유 지식 풀을 도입하여 토론 과정에서의 정보 비대칭 문제를 해결한다.
6장: 검색 강화 생성
RAG
외부 지식 저장소를 검색하여 LLM의 생성 품질을 높이는 패턴으로, 할루시네이션 감소와 최신 정보 활용의 핵심 기법이다.
7장: 내부 추론 혁명 (2024-2025)
OpenAI o1
내부 Reasoning Tokens으로 깊이 사고한 뒤 결과만 출력한다. AIME 2024에서 GPT-4의 12% -> 85%, GPQA Diamond에서 인간 전문가 60% -> 92%를 기록했다.
DeepSeek-R1
순수 강화학습만으로 추론 능력이 emergence하는 것을 증명하며, GRPO 알고리즘으로 오픈소스 추론 모델의 가능성을 열었다.
8장: Test-Time Compute (2025년)
Test-Time Compute Scaling
훈련이 아닌 추론 시점에 계산 자원을 집중하는 새로운 패러다임이다. Budget Forcing("Wait" 토큰)으로 더 깊은 사고를 유도하여 1,000개 예제만으로 AIME 81%를 달성했다.
종합 분석
LLM Agent Survey
위 기법들을 아우르는 에이전트 아키텍처의 종합 분석이다. 프로파일, 메모리, 계획, 행동 모듈로 구성되는 에이전트 설계의 전체 그림을 그립니다.
핵심 원리
- 명시화: 추론을 명시적으로 표현
- 다양성: 여러 경로/관점 탐색
- 검증: 외부 도구/다른 에이전트 검증
- 학습: 경험으로부터 개선
- 깊이: 더 깊은 사고에 시간 투자
용어 정리
| 용어 | 설명 |
|---|---|
| LLM | Large Language Model |
| Token | 모델이 처리하는 기본 단위 |
| Emergence | 스케일이 커지며 나타나는 새 능력 |
| Hallucination | 근거 없이 만들어낸 정보 |
| Grounding | 추상 개념을 실제 행동으로 변환 |
| RL | Reinforcement Learning (강화학습) |
| Test-Time Compute | 추론 시점의 계산 자원 |