LLM 트레이딩 전략의 현실과 한계: 벤치마크가 말하는 불편한 진실

LLM은 트레이딩에서 만능인가

2022년부터 2025년 사이 84편 이상의 LLM 주식투자 연구가 발표되었다(Frontiers in AI 서베이). TradingAgents는 3종목 3개월 백테스트에서 Sharpe 8.21을 기록했고, MarketSenseAI 2.0은 S&P100 2년간 +125.9% 수익률을 보고했다. 이런 결과만 보면 LLM이 시장을 정복한 것 같지만, 체계적 장기 벤치마크는 전혀 다른 이야기를 한다.

LLM 투자 전략은 장기적으로 시장을 이기지 못한다. -- FINSABER (2025)

이 글에서는 불편한 벤치마크 결과부터 시작하여, LLM이 실제로 잘하는 영역, 현실적인 하이브리드 전략, 그리고 구체적인 전략 패턴과 비용 분석까지 다룬다.

벤치마크가 말하는 불편한 진실

FINSABER: 20년+ 장기 백테스트 (2025)

FINSABER(arxiv:2505.07078)는 100종목 이상, 20년 이상의 체계적 백테스트를 수행한 최초의 대규모 벤치마크다.

핵심 결론:

발견	설명
LLM 단독은 시장을 이기지 못함	Buy-and-Hold 대비 지속적 열위
상승장에서 과도하게 보수적	수익 기회를 놓침
하락장에서 과도하게 공격적	큰 손실 발생
프레임워크 복잡성 확대는 무의미	더 많은 에이전트가 더 나은 성과를 보장하지 않음

FINSABER의 권장 사항: 에이전트 수를 늘리기보다 추세 감지(trend detection) + 레짐 인식 리스크 관리를 우선할 것

StockBench: 현실 점검 (2025)

StockBench(arxiv:2510.02209)는 2025년 3월-7월, DJIA 20종목으로 다양한 LLM 에이전트를 비교 평가했다.

핵심 발견:

기간	LLM 에이전트 성과	원인
하락장 (2025.01-04)	대부분 대폭 손실	과도하게 공격적인 매수
상승장 (2025.05-08)	대부분 벤치마크 초과	트렌드 추종 효과

가장 중요한 교훈: 정적 금융 지식 능력(financial knowledge benchmark)이 실전 트레이딩 성과로 이어지지 않는다. LLM이 금융 시험에서 만점을 받아도 실제로 돈을 벌지 못할 수 있다.

보고된 성과 vs 현실

시스템	보고 성과	벤치마크 조건	주의사항
TradingAgents	AAPL +26.6%, Sharpe 8.21	Q1 2024, 3종목	3종목/3개월의 극히 좁은 범위
MarketSenseAI 2.0	S&P100 +125.9% (vs +73.5%)	2년, 대형주 100종목	미국 대형주 한정
FinMem	개별 종목/펀드 우위	소수 종목	단일 종목 포커스
PrimoGPT+PrimoRL	포트폴리오 +27.14%, Sharpe 1.70	학습 기간 의존	학습 데이터에 과적합 가능
FINSABER 결론	LLM 단독 시장 미달	20년+, 100종목+	가장 체계적인 벤치마크
StockBench 결론	Buy-and-Hold 미달	DJIA 20종목	하락장에서 특히 취약

LLM이 실제로 잘하는 3가지

벤치마크가 보여주듯 LLM 단독 전략은 한계가 명확하다. 그렇다면 LLM은 트레이딩에서 어디에 가장 효과적인가?

뉴스/이벤트 감성분석 (가장 검증된 영역)

검증된 성과:

GPT 기반 뉴스 감성 분석: 74.4% 방향 예측 정확도 (Springer, 2025)
Long-Short 전략: Sharpe 3.05, 수익률 355% (2021.08-2023.07)
FinLlama (Llama 2 기반): 감성 분류 + 강도 정량화

LLM이 잘하는 이유:

능력	설명
뉘앙스 이해	"호재인 것 같지만 이미 주가에 반영된" 상황 판단
맥락 파악	동일 뉴스라도 업종/시장 상황에 따른 영향 차이 분석
다국어 처리	한국어+영어 뉴스 동시 분석 가능
암시 포착	경영진 발언의 미묘한 어조 변화 감지

재무제표/실적발표 해석

MarketSenseAI 2.0의 접근:

RAG(Retrieval-Augmented Generation)으로 SEC 파일링, 실적 콜 트랜스크립트 처리
S&P100 2년간 +125.9% (지수 +73.5% 대비 52.4%p 초과)
핵심 성과 요인: 근거 분석 정확도 개선

LLM이 수백 페이지의 실적 보고서를 즉시 요약하고, 경영진의 어조 변화나 회피적 답변을 감지하며, 동종업계 비교 분석을 수행하는 능력은 전통적 퀀트 모델이 대체하기 어려운 영역이다.

시장 내러티브/레짐 분석

LLM은 시장의 "이야기"를 이해하는 데 탁월하다.

분석 대상	예시
내러티브 판단	"AI 버블론 vs AI 실적주도 상승론"
섹터 로테이션	금리 인상 사이클에서 성장주 → 가치주 전환
지정학 영향	미중 관세 전쟁이 반도체 섹터에 미치는 영향 평가
이벤트 분류	실적 서프라이즈, M&A, 규제 변경 자동 감지

주요 시스템 상세 비교

아키텍처 분류

2022-2025년 LLM 트레이딩 연구는 4가지 접근 방식으로 분류된다.

접근 방식	대표 시스템	설명
단일 에이전트	FinMem, FinAgent	단일 LLM이 메모리+도구로 매매 의사결정
멀티 에이전트	TradingAgents, MarketSenseAI	역할 분화된 에이전트 팀이 협업/토론
LLM+RL 하이브리드	PrimoGPT+PrimoRL	LLM이 특성 추출, RL이 매매 결정
알파 팩터 마이닝	Alpha-GPT, QuantaAlpha	LLM이 수학 공식 기반 팩터를 자동 생성

TradingAgents: 트레이딩 펌 조직 모사

7가지 역할의 에이전트가 5단계 파이프라인으로 협업한다.

plaintext

Analyst Team    -> Researcher Team -> Trader -> Risk Mgmt Team -> Fund Manager
(4명 병렬 분석)   (Bull/Bear 토론)   (종합)    (3관점 토론)       (최종 승인)

역할	입력	출력
Fundamental Analyst	재무제표, 실적, 내부자거래	기업가치 평가 보고서
Sentiment Analyst	소셜미디어, 투자심리	시장심리 보고서
News Analyst	뉴스, 거시경제 지표	매크로 분석 보고서
Technical Analyst	MACD, RSI, 볼린저밴드	기술적 분석 보고서
Bull/Bear Researcher	분석팀 보고서 전체	강세/약세 논거 (토론)
Trader	모든 보고서	매매 시그널 + 근거
Risk Manager	트레이더 결정 + 시장데이터	리스크 조정 최종 판정

Q1 2024 백테스트 결과:

종목	누적수익률	연환산	Sharpe	MaxDD
AAPL	26.62%	30.50%	8.21	0.91%
GOOGL	24.36%	27.58%	6.39	1.69%
AMZN	23.21%	24.90%	5.60	2.11%

인상적인 수치이나, 3종목/3개월이라는 극히 좁은 범위에 주의가 필요하다.

시스템 강점/약점 요약

시스템	강점	약점
TradingAgents	토론 기반 설명가능성, 견제 메커니즘	좁은 백테스트 범위, 비용 높음
MarketSenseAI 2.0	RAG 기반 근거 분석, 2년 실적	미국 대형주 한정, 인프라 요구
FinMem	계층 메모리 설계, 성격 기반 적응	단일 종목 포커스, 확장성 부족
Alpha-GPT	WorldQuant 대회 Top10/41,000팀	높은 인프라 요구, 팩터 과적합 위험
PrimoGPT+PrimoRL	LLM+RL 결합의 선구적 시도	학습 데이터 의존, 재현성 문제

하이브리드 전략 아키텍처

왜 하이브리드인가

FINSABER와 StockBench의 교훈은 명확하다: LLM 단독은 불충분하다. LLM과 전통 퀀트의 강점을 결합해야 한다.

영역	LLM 강점	전통 퀀트 강점
비정형 데이터	뉴스, 실적, SNS 해석	처리 불가
정형 데이터	해석/설명 가능	정밀한 수학적 분석
실시간 반응	느림 (1-10초)	빠름 (밀리초)
패턴 인식	텍스트 패턴	수치 패턴, 기술 지표
백테스트	어려움 (비결정적)	정확한 시뮬레이션
비용	API 호출당 비용	계산 비용 낮음

LLM은 "왜 사야 하는가"(질적 판단), 퀀트는 "언제/얼마에 사야 하는가"(양적 실행).

하이브리드 아키텍처

시그널 결합 방법

python

@dataclass
class HybridSignal:
    symbol: str
    timestamp: datetime
 
    # LLM 시그널 (-1.0 ~ +1.0)
    news_sentiment: float       # 뉴스 감성
    event_impact: float         # 이벤트 영향도
    narrative_score: float      # 시장 내러티브 부합도
 
    # 기술적 시그널 (-1.0 ~ +1.0)
    momentum_score: float       # MA/RSI/MACD 복합
    volume_signal: float        # 거래량 이상 감지
    support_resistance: float   # 지지/저항 근접도
 
    @property
    def combined_score(self) -> float:
        weights = {
            'news_sentiment': 0.20,
            'event_impact': 0.15,
            'narrative_score': 0.10,
            'momentum_score': 0.25,
            'volume_signal': 0.15,
            'support_resistance': 0.15,
        }
        score = sum(
            getattr(self, k) * v for k, v in weights.items()
        )
        return max(-1.0, min(1.0, score))
 
    @property
    def action(self) -> str:
        if self.combined_score > 0.3:
            return "BUY"
        elif self.combined_score < -0.3:
            return "SELL"
        return "HOLD"

LLM 시그널의 총 가중치는 45%(0.20+0.15+0.10), 기술적 시그널은 55%(0.25+0.15+0.15)다. LLM에 과도한 의존을 방지하면서도 질적 판단을 반영하는 균형점이다.

7가지 구체적 전략 패턴

전략 1: 뉴스 감성 모멘텀

LLM이 뉴스 감성을 분석하고, 감성 변화 방향과 기술적 모멘텀이 일치할 때 진입한다.

항목	설정값
진입 조건	감성 > +0.3 AND 골든크로스(EMA 20/60) AND RSI < 70
청산 조건	감성 < -0.1 OR 데드크로스 OR 손절(-3%)
익절	+6%
적합 시장	코스피 대형주 (뉴스 풍부한 종목)
예상 승률	55-60%
리스크-리워드	1:2

전략 2: 실적 서프라이즈 이벤트 드리븐

실적 발표 후 컨센서스 대비 서프라이즈를 LLM이 즉시 분석하고, 시장 반응 전에 포지션 진입한다.

항목	설정값
진입 조건	EPS 서프라이즈 > +10% AND 가이던스 상향 AND 경영진 긍정 어조
보유 기간	3-10 영업일
적합 시장	코스피/코스닥 (분기 실적 시즌), 미국 대형주
예상 승률	60-65%

전략 3: 섹터 로테이션 내러티브

LLM이 거시경제 내러티브와 정책 변화를 분석하여 유망 섹터를 판별한다.

항목	설정값
진입 조건	LLM 유망 섹터 AND 상대강도(RS) 상위 AND 자금 유입
리밸런싱	월 1회 또는 정책 이벤트 시
적합 시장	코스피 섹터별 대장주, 미국 섹터 ETF
예상 초과수익	연 5-10%

전략 4: 이상 거래량 + 뉴스 이벤트 감지

정량적으로 비정상 거래량/가격 변동을 감지한 후, LLM이 관련 뉴스를 분석하여 원인을 판별한다.

항목	설정값
트리거	거래량 > 20일 평균의 3배 OR 가격 변동 > 3%
LLM 판단	정보 기반(실적, M&A) vs 노이즈(루머, 테마)
진입	정보 기반 이벤트 AND 긍정적 판단 시
적합 시장	코스닥 중소형주 (이벤트 빈도 높음)
예상 승률	50-55% (높은 리스크-리워드 1:3으로 보완)

전략 5: LLM 알파 팩터 마이닝

LLM이 투자 아이디어를 수학 공식 기반 알파 팩터로 변환하고, 백테스트로 검증한다. Alpha-GPT가 WorldQuant 대회에서 41,000팀 중 Top10에 든 방식이다.

항목	설정값
팩터 생성	LLM이 투자 테마 → 수학 공식 자동 생성
검증	IC(Information Coefficient), IR 계산
리밸런싱	월 1회
기대 IC	0.03-0.05 (월간)
적합 시장	코스피 전체 (팩터 투자는 넓은 유니버스에서 효과적)

전략 6: 공시/규제 변화 선제 대응

정부 정책, 규제 변화, 공시를 LLM이 실시간 모니터링하고 수혜/피해 종목을 선별한다.

항목	설정값
모니터링 대상	기재부, 금융위, 산자부, 국토부, Fed, SEC
진입	규제 발표 직후 수혜주 매수
빈도	월 2-3회 (의미있는 정책 변화 시)
적합 시장	한국 (정책 민감도 높음), 미국 (Fed 정책)
예상 초과수익	이벤트당 2-5%

전략 7: 멀티에이전트 합의

TradingAgents 방식으로 여러 전략 에이전트의 시그널을 토론+합의로 결합한다.

항목	설정값
에이전트	모멘텀, 가치, 감성 3종
합의 방식	과반수 합의 시에만 진입, 불일치 시 토론 실행
적합 시장	범용
예상 승률	60-65%
비용	가장 높음 (월 $50-100)

전략 비교 요약

전략	난이도	월비용	예상 승률	LLM 의존도
1. 뉴스 감성 모멘텀	중	$20-30	55-60%	중
2. 실적 서프라이즈	중	$5-10	60-65%	높음
3. 섹터 로테이션	하	$5-10	-	중
4. 이상 거래량+뉴스	상	$15-25	50-55%	높음
5. 알파 팩터 마이닝	상	$10-20	-	높음
6. 규제 변화 선제대응	중	$5-10	55-60%	높음
7. 멀티에이전트 합의	상	$50-100	60-65%	매우 높음

비용/레이턴시 분석

작업별 비용과 레이턴시

LLM API 호출은 1-10초가 소요되므로 초단타(HFT)에는 부적합하다. 개인투자자의 스윙/포지션 트레이딩에 최적화된 운영 구조:

작업	빈도	모델	예상 레이턴시	비용/호출
뉴스 감성분석	15분-1시간	Haiku	0.5-1초	~$0.001
이벤트 감지	5분	Haiku	0.3-0.5초	~$0.0005
일일 종합분석	1일 1회	Sonnet	3-5초	~$0.02
심층 전략분석	주 1회	Opus	5-15초	~$0.10
실적 발표 해석	이벤트 시	Sonnet	3-5초	~$0.03

월간 예상 비용 (종목 20개 기준)

plaintext

뉴스 감성분석:  20종목 x 8회/일 x 22일 x $0.001  = $3.52/월
이벤트 감지:    20종목 x 12회/일 x 22일 x $0.0005 = $2.64/월
일일 종합분석:  20종목 x 22일 x $0.02             = $8.80/월
주간 심층분석:  20종목 x 4주 x $0.10              = $8.00/월
실적 발표:      5건/월 x $0.03                    = $0.15/월
──────────────────────────────────────────────────
총 예상:        약 $23/월 (약 30,000원)

비용 최적화 전략

전략	효과
프롬프트 캐싱	Anthropic API 내장, 시스템 프롬프트+도구 정의 캐싱으로 90% 비용 절감
결과 캐싱 (Redis)	뉴스 감성 15분 TTL, 일일 분석 12시간 TTL
시맨틱 캐싱	동일 종목+유사 뉴스 조합 시 이전 분석 재사용 (임베딩 유사도 > 0.95)
모델 티어링	빈번한 작업은 Haiku, 심층 분석은 Sonnet/Opus

캐시 TTL 설정

python

CACHE_TTL = {
    'news_sentiment': 900,       # 15분
    'event_detection': 300,      # 5분
    'daily_analysis': 43200,     # 12시간
    'weekly_analysis': 604800,   # 7일
    'earnings_analysis': 86400,  # 24시간
}

LLM 모델 전략

작업 유형별 모델 배정

작업 유형	설명	권장 모델
Quick-Thinking	요약, API 호출, 감성 분류, 이벤트 감지	Claude Haiku
Deep-Thinking	심층 분석, 의사결정, 토론, Reflection	Claude Sonnet/Opus

TradingAgents도 유사한 전략을 사용한다: Quick-Thinking에 gpt-4o-mini, Deep-Thinking에 o1-preview를 배정한다.

운영 스케줄 (한국/미국 시장)

시간 (KST)	작업	모델
08:30	야간 뉴스 분석, 글로벌 시장 요약	Sonnet
09:00	개장 시그널 생성	Haiku
09:00-15:30	30분 간격 뉴스/이벤트 모니터링	Haiku
15:30	일일 종합 리뷰, 포트폴리오 점검	Sonnet
22:00	미국 실적 분석, 프리마켓 모니터링	Sonnet
23:30	미국 개장 시그널 생성	Haiku

LLM 트레이딩의 6가지 알려진 한계

한계	설명	완화책
장기 성과 미검증	FINSABER 20년 백테스트에서 시장 미달	하이브리드 전략으로 퀀트 결합
시장 레짐 편향	상승장 보수적, 하락장 공격적	레짐 인식 리스크 관리
환각 리스크	존재하지 않는 뉴스/팩트 생성 가능	JSON 스키마 검증, 근거 ID 필수
레이턴시	초단타 부적합 (수초-수십초)	스윙/포지션 전략에 집중
비용 누적	고빈도 분석 시 비용 > 수익 가능	캐싱, 모델 티어링
재현성 부족	동일 입력에 다른 출력 가능	temperature 0, 구조화 출력

필수 안전장치

python

SAFETY_RULES = {
    # LLM 출력 검증
    'validate_json_schema': True,
    'validate_symbol_exists': True,
    'validate_price_range': True,
 
    # 리스크 관리
    'max_single_position': 0.10,        # 종목당 최대 10%
    'max_daily_loss': 0.03,             # 일일 최대 3% 손실
    'max_llm_confidence_weight': 0.5,   # LLM 시그널 최대 가중치 50%
 
    # 인간 감독
    'require_human_approval_above': 1_000_000,
    'daily_report': True,
    'emergency_stop': True,
}

권장 구현 로드맵

Phase 1: 기반 구축 (즉시)

전략 1 (뉴스 감성 모멘텀) 구현 -- 가장 검증되고 비용 효율적
기존 모멘텀/기술적 분석과 LLM 감성 분석 결합
월 비용 $20-30으로 시작

Phase 2: 이벤트 확장 (1-2개월)

전략 2 (실적 서프라이즈) 추가 -- 분기 실적 시즌 대응
전략 6 (규제 변화) 추가 -- 한국 시장 특성 활용
이벤트 감지 자동화 파이프라인 구축

Phase 3: 멀티에이전트 (2-3개월)

전략 7 (멀티에이전트 합의) 구현 -- TradingAgents 간소화 버전
Bull/Bear 토론 메커니즘 도입
에이전트별 성과 추적 및 가중치 자동 조정(Meso Loop)

Phase 4: 고급 (3-6개월)

전략 5 (알파 팩터 마이닝) 시도
전체 전략 포트폴리오 최적화
레짐 인식 로직 강화 (Macro Loop)

결론: LLM은 보조 도구이지 마법 지팡이가 아니다

벤치마크가 말하는 진실은 명확하다.

LLM 단독 전략은 장기적으로 시장을 이기지 못한다 (FINSABER)
하락장에서 LLM은 특히 취약하다 (StockBench)
LLM의 진짜 강점은 비정형 데이터 해석에 있다 (뉴스, 실적, 내러티브)

따라서 현실적인 접근은 다음과 같다.

LLM은 "왜"를 판단하는 질적 분석기로 활용하고, "언제/얼마에"는 전통 퀀트 엔진에 맡기며, 둘을 하이브리드 아키텍처로 결합한다. 그리고 피드백 루프를 통해 두 엔진의 가중치를 실적 기반으로 지속 조정한다.

가장 검증된 전략(뉴스 감성 모멘텀)부터 시작하여, 월 $23 수준의 비용으로 운영하면서 점진적으로 확장하는 것이 현실적인 로드맵이다.

참고 자료

FINSABER: Can LLM-based Financial Investing Strategies Outperform the Market in Long Run? (arxiv:2505.07078)
StockBench: Can LLM Agents Trade Stocks Profitably? (arxiv:2510.02209)
TradingAgents: Multi-Agents LLM Financial Trading Framework (arxiv:2412.20138)
MarketSenseAI 2.0: Enhancing Stock Analysis through LLM Agents (arxiv:2502.00415)
FinMem: LLM Trading Agent with Layered Memory (arxiv:2311.13743)
Alpha-GPT: Human-AI Interactive Alpha Mining (EMNLP 2025)
Sentiment trading with large language models (Finance Research Letters)
Large Language Models in Equity Markets (Frontiers in AI, 2025)