이종관
글 목록으로

AI Agent 진화사: 2022-2025 발전 타임라인

Chain of Thought부터 OpenAI o1까지 - AI 에이전트의 주요 발전 타임라인 정리

2026년 2월 1일·5 min read·
agent
overview
timeline

타임라인 개요

  1. 2022 초 Chain of Thought
  2. 2022 중-말 ReAct, Toolformer
  3. 2023 초-중 Reflexion, Self-Refine, CRITIC
  4. 2023 중 Tree of Thought, LATS
  5. 2023 중 Multi-Agent Debate
  6. 2024 말 OpenAI o1, DeepSeek-R1
  7. 2025 Test-Time Compute Scaling

1장: 추론의 내부화 (2022년 초)

Chain of Thought (CoT)

"Let's think step by step" - LLM에게 중간 추론 단계를 보여주는 것만으로 복잡한 문제 해결 능력이 크게 향상된다. 100B+ 모델에서만 효과가 발현되는 Emergent Ability로 주목받았다.


2장: 외부 도구 통합 (2022-2023)

ReAct

Reasoning과 Acting을 결합하여 Thought -> Action -> Observation 루프를 반복한다. 외부 도구(검색, 계산기 등)를 활용해 할루시네이션을 줄이고 실시간 정보를 얻는 최초의 프레임워크이다.


3장: 자기 성찰과 학습 (2023년 초)

Reflexion

실패를 언어로 기술하고 메모리에 저장하여 다음 시도에서 같은 실수를 반복하지 않다. HumanEval에서 48% -> 91%로 도약한 핵심 메커니즘이다.

Self-Refine

단일 모델이 생성, 피드백, 개선을 반복하는 자기 개선 루프이다.

CRITIC

외부 도구(검색 엔진, 코드 실행기 등)로 자신의 출력을 검증한 뒤 수정한다.


4장: 탐색과 계획 (2023년 중반)

Tree of Thought (ToT)

선형적 사고에서 벗어나 여러 경로를 트리 형태로 탐색한다. "24 만들기" 게임에서 CoT 4% -> ToT 74%로 18배 향상을 보여주었다.

LATS

Tree Search + ReAct + Reflexion + Monte Carlo를 통합한 프레임워크로, HumanEval 94.4%를 달성하며 개별 기법들의 장점을 결합했다.


5장: 다중 에이전트 협력 (2023년 중반)

Multi-Agent Debate

여러 에이전트가 토론하며 상호 검증하는 방식으로, 다양한 관점이 할루시네이션을 줄이다.

MADKE

공유 지식 풀을 도입하여 토론 과정에서의 정보 비대칭 문제를 해결한다.


6장: 검색 강화 생성

RAG

외부 지식 저장소를 검색하여 LLM의 생성 품질을 높이는 패턴으로, 할루시네이션 감소와 최신 정보 활용의 핵심 기법이다.


7장: 내부 추론 혁명 (2024-2025)

OpenAI o1

내부 Reasoning Tokens으로 깊이 사고한 뒤 결과만 출력한다. AIME 2024에서 GPT-4의 12% -> 85%, GPQA Diamond에서 인간 전문가 60% -> 92%를 기록했다.

DeepSeek-R1

순수 강화학습만으로 추론 능력이 emergence하는 것을 증명하며, GRPO 알고리즘으로 오픈소스 추론 모델의 가능성을 열었다.


8장: Test-Time Compute (2025년)

Test-Time Compute Scaling

훈련이 아닌 추론 시점에 계산 자원을 집중하는 새로운 패러다임이다. Budget Forcing("Wait" 토큰)으로 더 깊은 사고를 유도하여 1,000개 예제만으로 AIME 81%를 달성했다.


종합 분석

LLM Agent Survey

위 기법들을 아우르는 에이전트 아키텍처의 종합 분석이다. 프로파일, 메모리, 계획, 행동 모듈로 구성되는 에이전트 설계의 전체 그림을 그립니다.


핵심 원리

  1. 명시화: 추론을 명시적으로 표현
  2. 다양성: 여러 경로/관점 탐색
  3. 검증: 외부 도구/다른 에이전트 검증
  4. 학습: 경험으로부터 개선
  5. 깊이: 더 깊은 사고에 시간 투자

용어 정리

용어설명
LLMLarge Language Model
Token모델이 처리하는 기본 단위
Emergence스케일이 커지며 나타나는 새 능력
Hallucination근거 없이 만들어낸 정보
Grounding추상 개념을 실제 행동으로 변환
RLReinforcement Learning (강화학습)
Test-Time Compute추론 시점의 계산 자원