AI Agent 진화사: 2022-2025 발전 타임라인

타임라인 개요

"Let's think step by step" - LLM에게 중간 추론 단계를 보여주는 것만으로 복잡한 문제 해결 능력이 크게 향상된다. 100B+ 모델에서만 효과가 발현되는 Emergent Ability로 주목받았다.

Reasoning과 Acting을 결합하여 Thought -> Action -> Observation 루프를 반복한다. 외부 도구(검색, 계산기 등)를 활용해 할루시네이션을 줄이고 실시간 정보를 얻는 최초의 프레임워크이다.

실패를 언어로 기술하고 메모리에 저장하여 다음 시도에서 같은 실수를 반복하지 않다. HumanEval에서 48% -> 91%로 도약한 핵심 메커니즘이다.

단일 모델이 생성, 피드백, 개선을 반복하는 자기 개선 루프이다.

외부 도구(검색 엔진, 코드 실행기 등)로 자신의 출력을 검증한 뒤 수정한다.

선형적 사고에서 벗어나 여러 경로를 트리 형태로 탐색한다. "24 만들기" 게임에서 CoT 4% -> ToT 74%로 18배 향상을 보여주었다.

Tree Search + ReAct + Reflexion + Monte Carlo를 통합한 프레임워크로, HumanEval 94.4%를 달성하며 개별 기법들의 장점을 결합했다.

여러 에이전트가 토론하며 상호 검증하는 방식으로, 다양한 관점이 할루시네이션을 줄이다.

공유 지식 풀을 도입하여 토론 과정에서의 정보 비대칭 문제를 해결한다.

외부 지식 저장소를 검색하여 LLM의 생성 품질을 높이는 패턴으로, 할루시네이션 감소와 최신 정보 활용의 핵심 기법이다.

내부 Reasoning Tokens으로 깊이 사고한 뒤 결과만 출력한다. AIME 2024에서 GPT-4의 12% -> 85%, GPQA Diamond에서 인간 전문가 60% -> 92%를 기록했다.

순수 강화학습만으로 추론 능력이 emergence하는 것을 증명하며, GRPO 알고리즘으로 오픈소스 추론 모델의 가능성을 열었다.

훈련이 아닌 추론 시점에 계산 자원을 집중하는 새로운 패러다임이다. Budget Forcing("Wait" 토큰)으로 더 깊은 사고를 유도하여 1,000개 예제만으로 AIME 81%를 달성했다.

위 기법들을 아우르는 에이전트 아키텍처의 종합 분석이다. 프로파일, 메모리, 계획, 행동 모듈로 구성되는 에이전트 설계의 전체 그림을 그립니다.

용어	설명
LLM	Large Language Model
Token	모델이 처리하는 기본 단위
Emergence	스케일이 커지며 나타나는 새 능력
Hallucination	근거 없이 만들어낸 정보
Grounding	추상 개념을 실제 행동으로 변환
RL	Reinforcement Learning (강화학습)
Test-Time Compute	추론 시점의 계산 자원