이종관
글 목록으로

LLM 트레이딩 전략의 현실과 한계: 벤치마크가 말하는 불편한 진실

FINSABER/StockBench 벤치마크 기반 LLM 트레이딩의 현실적 한계와 하이브리드 전략

2026년 2월 21일·25 min read·
ai
llm
trading
benchmark
hybrid-strategy
finsaber

LLM은 트레이딩에서 만능인가

2022년부터 2025년 사이 84편 이상의 LLM 주식투자 연구가 발표되었다(Frontiers in AI 서베이). TradingAgents는 3종목 3개월 백테스트에서 Sharpe 8.21을 기록했고, MarketSenseAI 2.0은 S&P100 2년간 +125.9% 수익률을 보고했다. 이런 결과만 보면 LLM이 시장을 정복한 것 같지만, 체계적 장기 벤치마크는 전혀 다른 이야기를 한다.

LLM 투자 전략은 장기적으로 시장을 이기지 못한다. -- FINSABER (2025)

이 글에서는 불편한 벤치마크 결과부터 시작하여, LLM이 실제로 잘하는 영역, 현실적인 하이브리드 전략, 그리고 구체적인 전략 패턴과 비용 분석까지 다룬다.


벤치마크가 말하는 불편한 진실

FINSABER: 20년+ 장기 백테스트 (2025)

FINSABER(arxiv:2505.07078)는 100종목 이상, 20년 이상의 체계적 백테스트를 수행한 최초의 대규모 벤치마크다.

핵심 결론:

발견설명
LLM 단독은 시장을 이기지 못함Buy-and-Hold 대비 지속적 열위
상승장에서 과도하게 보수적수익 기회를 놓침
하락장에서 과도하게 공격적큰 손실 발생
프레임워크 복잡성 확대는 무의미더 많은 에이전트가 더 나은 성과를 보장하지 않음

FINSABER의 권장 사항: 에이전트 수를 늘리기보다 추세 감지(trend detection) + 레짐 인식 리스크 관리를 우선할 것

StockBench: 현실 점검 (2025)

StockBench(arxiv:2510.02209)는 2025년 3월-7월, DJIA 20종목으로 다양한 LLM 에이전트를 비교 평가했다.

핵심 발견:

기간LLM 에이전트 성과원인
하락장 (2025.01-04)대부분 대폭 손실과도하게 공격적인 매수
상승장 (2025.05-08)대부분 벤치마크 초과트렌드 추종 효과

가장 중요한 교훈: 정적 금융 지식 능력(financial knowledge benchmark)이 실전 트레이딩 성과로 이어지지 않는다. LLM이 금융 시험에서 만점을 받아도 실제로 돈을 벌지 못할 수 있다.

보고된 성과 vs 현실

시스템보고 성과벤치마크 조건주의사항
TradingAgentsAAPL +26.6%, Sharpe 8.21Q1 2024, 3종목3종목/3개월의 극히 좁은 범위
MarketSenseAI 2.0S&P100 +125.9% (vs +73.5%)2년, 대형주 100종목미국 대형주 한정
FinMem개별 종목/펀드 우위소수 종목단일 종목 포커스
PrimoGPT+PrimoRL포트폴리오 +27.14%, Sharpe 1.70학습 기간 의존학습 데이터에 과적합 가능
FINSABER 결론LLM 단독 시장 미달20년+, 100종목+가장 체계적인 벤치마크
StockBench 결론Buy-and-Hold 미달DJIA 20종목하락장에서 특히 취약

LLM이 실제로 잘하는 3가지

벤치마크가 보여주듯 LLM 단독 전략은 한계가 명확하다. 그렇다면 LLM은 트레이딩에서 어디에 가장 효과적인가?

뉴스/이벤트 감성분석 (가장 검증된 영역)

검증된 성과:

  • GPT 기반 뉴스 감성 분석: 74.4% 방향 예측 정확도 (Springer, 2025)
  • Long-Short 전략: Sharpe 3.05, 수익률 355% (2021.08-2023.07)
  • FinLlama (Llama 2 기반): 감성 분류 + 강도 정량화

LLM이 잘하는 이유:

능력설명
뉘앙스 이해"호재인 것 같지만 이미 주가에 반영된" 상황 판단
맥락 파악동일 뉴스라도 업종/시장 상황에 따른 영향 차이 분석
다국어 처리한국어+영어 뉴스 동시 분석 가능
암시 포착경영진 발언의 미묘한 어조 변화 감지

재무제표/실적발표 해석

MarketSenseAI 2.0의 접근:

  • RAG(Retrieval-Augmented Generation)으로 SEC 파일링, 실적 콜 트랜스크립트 처리
  • S&P100 2년간 +125.9% (지수 +73.5% 대비 52.4%p 초과)
  • 핵심 성과 요인: 근거 분석 정확도 개선

LLM이 수백 페이지의 실적 보고서를 즉시 요약하고, 경영진의 어조 변화나 회피적 답변을 감지하며, 동종업계 비교 분석을 수행하는 능력은 전통적 퀀트 모델이 대체하기 어려운 영역이다.

시장 내러티브/레짐 분석

LLM은 시장의 "이야기"를 이해하는 데 탁월하다.

분석 대상예시
내러티브 판단"AI 버블론 vs AI 실적주도 상승론"
섹터 로테이션금리 인상 사이클에서 성장주 → 가치주 전환
지정학 영향미중 관세 전쟁이 반도체 섹터에 미치는 영향 평가
이벤트 분류실적 서프라이즈, M&A, 규제 변경 자동 감지

주요 시스템 상세 비교

아키텍처 분류

2022-2025년 LLM 트레이딩 연구는 4가지 접근 방식으로 분류된다.

접근 방식대표 시스템설명
단일 에이전트FinMem, FinAgent단일 LLM이 메모리+도구로 매매 의사결정
멀티 에이전트TradingAgents, MarketSenseAI역할 분화된 에이전트 팀이 협업/토론
LLM+RL 하이브리드PrimoGPT+PrimoRLLLM이 특성 추출, RL이 매매 결정
알파 팩터 마이닝Alpha-GPT, QuantaAlphaLLM이 수학 공식 기반 팩터를 자동 생성

TradingAgents: 트레이딩 펌 조직 모사

7가지 역할의 에이전트가 5단계 파이프라인으로 협업한다.

plaintext
Analyst Team    -> Researcher Team -> Trader -> Risk Mgmt Team -> Fund Manager
(4명 병렬 분석)   (Bull/Bear 토론)   (종합)    (3관점 토론)       (최종 승인)
역할입력출력
Fundamental Analyst재무제표, 실적, 내부자거래기업가치 평가 보고서
Sentiment Analyst소셜미디어, 투자심리시장심리 보고서
News Analyst뉴스, 거시경제 지표매크로 분석 보고서
Technical AnalystMACD, RSI, 볼린저밴드기술적 분석 보고서
Bull/Bear Researcher분석팀 보고서 전체강세/약세 논거 (토론)
Trader모든 보고서매매 시그널 + 근거
Risk Manager트레이더 결정 + 시장데이터리스크 조정 최종 판정

Q1 2024 백테스트 결과:

종목누적수익률연환산SharpeMaxDD
AAPL26.62%30.50%8.210.91%
GOOGL24.36%27.58%6.391.69%
AMZN23.21%24.90%5.602.11%

인상적인 수치이나, 3종목/3개월이라는 극히 좁은 범위에 주의가 필요하다.

시스템 강점/약점 요약

시스템강점약점
TradingAgents토론 기반 설명가능성, 견제 메커니즘좁은 백테스트 범위, 비용 높음
MarketSenseAI 2.0RAG 기반 근거 분석, 2년 실적미국 대형주 한정, 인프라 요구
FinMem계층 메모리 설계, 성격 기반 적응단일 종목 포커스, 확장성 부족
Alpha-GPTWorldQuant 대회 Top10/41,000팀높은 인프라 요구, 팩터 과적합 위험
PrimoGPT+PrimoRLLLM+RL 결합의 선구적 시도학습 데이터 의존, 재현성 문제

하이브리드 전략 아키텍처

왜 하이브리드인가

FINSABER와 StockBench의 교훈은 명확하다: LLM 단독은 불충분하다. LLM과 전통 퀀트의 강점을 결합해야 한다.

영역LLM 강점전통 퀀트 강점
비정형 데이터뉴스, 실적, SNS 해석처리 불가
정형 데이터해석/설명 가능정밀한 수학적 분석
실시간 반응느림 (1-10초)빠름 (밀리초)
패턴 인식텍스트 패턴수치 패턴, 기술 지표
백테스트어려움 (비결정적)정확한 시뮬레이션
비용API 호출당 비용계산 비용 낮음

LLM은 "왜 사야 하는가"(질적 판단), 퀀트는 "언제/얼마에 사야 하는가"(양적 실행).

하이브리드 아키텍처

시그널 결합 방법

python
@dataclass
class HybridSignal:
    symbol: str
    timestamp: datetime
 
    # LLM 시그널 (-1.0 ~ +1.0)
    news_sentiment: float       # 뉴스 감성
    event_impact: float         # 이벤트 영향도
    narrative_score: float      # 시장 내러티브 부합도
 
    # 기술적 시그널 (-1.0 ~ +1.0)
    momentum_score: float       # MA/RSI/MACD 복합
    volume_signal: float        # 거래량 이상 감지
    support_resistance: float   # 지지/저항 근접도
 
    @property
    def combined_score(self) -> float:
        weights = {
            'news_sentiment': 0.20,
            'event_impact': 0.15,
            'narrative_score': 0.10,
            'momentum_score': 0.25,
            'volume_signal': 0.15,
            'support_resistance': 0.15,
        }
        score = sum(
            getattr(self, k) * v for k, v in weights.items()
        )
        return max(-1.0, min(1.0, score))
 
    @property
    def action(self) -> str:
        if self.combined_score > 0.3:
            return "BUY"
        elif self.combined_score < -0.3:
            return "SELL"
        return "HOLD"

LLM 시그널의 총 가중치는 45%(0.20+0.15+0.10), 기술적 시그널은 55%(0.25+0.15+0.15)다. LLM에 과도한 의존을 방지하면서도 질적 판단을 반영하는 균형점이다.


7가지 구체적 전략 패턴

전략 1: 뉴스 감성 모멘텀

LLM이 뉴스 감성을 분석하고, 감성 변화 방향과 기술적 모멘텀이 일치할 때 진입한다.

항목설정값
진입 조건감성 > +0.3 AND 골든크로스(EMA 20/60) AND RSI < 70
청산 조건감성 < -0.1 OR 데드크로스 OR 손절(-3%)
익절+6%
적합 시장코스피 대형주 (뉴스 풍부한 종목)
예상 승률55-60%
리스크-리워드1:2

전략 2: 실적 서프라이즈 이벤트 드리븐

실적 발표 후 컨센서스 대비 서프라이즈를 LLM이 즉시 분석하고, 시장 반응 전에 포지션 진입한다.

항목설정값
진입 조건EPS 서프라이즈 > +10% AND 가이던스 상향 AND 경영진 긍정 어조
보유 기간3-10 영업일
적합 시장코스피/코스닥 (분기 실적 시즌), 미국 대형주
예상 승률60-65%

전략 3: 섹터 로테이션 내러티브

LLM이 거시경제 내러티브와 정책 변화를 분석하여 유망 섹터를 판별한다.

항목설정값
진입 조건LLM 유망 섹터 AND 상대강도(RS) 상위 AND 자금 유입
리밸런싱월 1회 또는 정책 이벤트 시
적합 시장코스피 섹터별 대장주, 미국 섹터 ETF
예상 초과수익연 5-10%

전략 4: 이상 거래량 + 뉴스 이벤트 감지

정량적으로 비정상 거래량/가격 변동을 감지한 후, LLM이 관련 뉴스를 분석하여 원인을 판별한다.

항목설정값
트리거거래량 > 20일 평균의 3배 OR 가격 변동 > 3%
LLM 판단정보 기반(실적, M&A) vs 노이즈(루머, 테마)
진입정보 기반 이벤트 AND 긍정적 판단 시
적합 시장코스닥 중소형주 (이벤트 빈도 높음)
예상 승률50-55% (높은 리스크-리워드 1:3으로 보완)

전략 5: LLM 알파 팩터 마이닝

LLM이 투자 아이디어를 수학 공식 기반 알파 팩터로 변환하고, 백테스트로 검증한다. Alpha-GPT가 WorldQuant 대회에서 41,000팀 중 Top10에 든 방식이다.

항목설정값
팩터 생성LLM이 투자 테마 → 수학 공식 자동 생성
검증IC(Information Coefficient), IR 계산
리밸런싱월 1회
기대 IC0.03-0.05 (월간)
적합 시장코스피 전체 (팩터 투자는 넓은 유니버스에서 효과적)

전략 6: 공시/규제 변화 선제 대응

정부 정책, 규제 변화, 공시를 LLM이 실시간 모니터링하고 수혜/피해 종목을 선별한다.

항목설정값
모니터링 대상기재부, 금융위, 산자부, 국토부, Fed, SEC
진입규제 발표 직후 수혜주 매수
빈도월 2-3회 (의미있는 정책 변화 시)
적합 시장한국 (정책 민감도 높음), 미국 (Fed 정책)
예상 초과수익이벤트당 2-5%

전략 7: 멀티에이전트 합의

TradingAgents 방식으로 여러 전략 에이전트의 시그널을 토론+합의로 결합한다.

항목설정값
에이전트모멘텀, 가치, 감성 3종
합의 방식과반수 합의 시에만 진입, 불일치 시 토론 실행
적합 시장범용
예상 승률60-65%
비용가장 높음 (월 $50-100)

전략 비교 요약

전략난이도월비용예상 승률LLM 의존도
1. 뉴스 감성 모멘텀$20-3055-60%
2. 실적 서프라이즈$5-1060-65%높음
3. 섹터 로테이션$5-10-
4. 이상 거래량+뉴스$15-2550-55%높음
5. 알파 팩터 마이닝$10-20-높음
6. 규제 변화 선제대응$5-1055-60%높음
7. 멀티에이전트 합의$50-10060-65%매우 높음

비용/레이턴시 분석

작업별 비용과 레이턴시

LLM API 호출은 1-10초가 소요되므로 초단타(HFT)에는 부적합하다. 개인투자자의 스윙/포지션 트레이딩에 최적화된 운영 구조:

작업빈도모델예상 레이턴시비용/호출
뉴스 감성분석15분-1시간Haiku0.5-1초~$0.001
이벤트 감지5분Haiku0.3-0.5초~$0.0005
일일 종합분석1일 1회Sonnet3-5초~$0.02
심층 전략분석주 1회Opus5-15초~$0.10
실적 발표 해석이벤트 시Sonnet3-5초~$0.03

월간 예상 비용 (종목 20개 기준)

plaintext
뉴스 감성분석:  20종목 x 8회/일 x 22일 x $0.001  = $3.52/월
이벤트 감지:    20종목 x 12회/일 x 22일 x $0.0005 = $2.64/월
일일 종합분석:  20종목 x 22일 x $0.02             = $8.80/월
주간 심층분석:  20종목 x 4주 x $0.10              = $8.00/월
실적 발표:      5건/월 x $0.03                    = $0.15/월
──────────────────────────────────────────────────
총 예상:        약 $23/월 (약 30,000원)

비용 최적화 전략

전략효과
프롬프트 캐싱Anthropic API 내장, 시스템 프롬프트+도구 정의 캐싱으로 90% 비용 절감
결과 캐싱 (Redis)뉴스 감성 15분 TTL, 일일 분석 12시간 TTL
시맨틱 캐싱동일 종목+유사 뉴스 조합 시 이전 분석 재사용 (임베딩 유사도 > 0.95)
모델 티어링빈번한 작업은 Haiku, 심층 분석은 Sonnet/Opus

캐시 TTL 설정

python
CACHE_TTL = {
    'news_sentiment': 900,       # 15분
    'event_detection': 300,      # 5분
    'daily_analysis': 43200,     # 12시간
    'weekly_analysis': 604800,   # 7일
    'earnings_analysis': 86400,  # 24시간
}

LLM 모델 전략

작업 유형별 모델 배정

작업 유형설명권장 모델
Quick-Thinking요약, API 호출, 감성 분류, 이벤트 감지Claude Haiku
Deep-Thinking심층 분석, 의사결정, 토론, ReflectionClaude Sonnet/Opus

TradingAgents도 유사한 전략을 사용한다: Quick-Thinking에 gpt-4o-mini, Deep-Thinking에 o1-preview를 배정한다.

운영 스케줄 (한국/미국 시장)

시간 (KST)작업모델
08:30야간 뉴스 분석, 글로벌 시장 요약Sonnet
09:00개장 시그널 생성Haiku
09:00-15:3030분 간격 뉴스/이벤트 모니터링Haiku
15:30일일 종합 리뷰, 포트폴리오 점검Sonnet
22:00미국 실적 분석, 프리마켓 모니터링Sonnet
23:30미국 개장 시그널 생성Haiku

LLM 트레이딩의 6가지 알려진 한계

한계설명완화책
장기 성과 미검증FINSABER 20년 백테스트에서 시장 미달하이브리드 전략으로 퀀트 결합
시장 레짐 편향상승장 보수적, 하락장 공격적레짐 인식 리스크 관리
환각 리스크존재하지 않는 뉴스/팩트 생성 가능JSON 스키마 검증, 근거 ID 필수
레이턴시초단타 부적합 (수초-수십초)스윙/포지션 전략에 집중
비용 누적고빈도 분석 시 비용 > 수익 가능캐싱, 모델 티어링
재현성 부족동일 입력에 다른 출력 가능temperature 0, 구조화 출력

필수 안전장치

python
SAFETY_RULES = {
    # LLM 출력 검증
    'validate_json_schema': True,
    'validate_symbol_exists': True,
    'validate_price_range': True,
 
    # 리스크 관리
    'max_single_position': 0.10,        # 종목당 최대 10%
    'max_daily_loss': 0.03,             # 일일 최대 3% 손실
    'max_llm_confidence_weight': 0.5,   # LLM 시그널 최대 가중치 50%
 
    # 인간 감독
    'require_human_approval_above': 1_000_000,
    'daily_report': True,
    'emergency_stop': True,
}

권장 구현 로드맵

Phase 1: 기반 구축 (즉시)

  1. 전략 1 (뉴스 감성 모멘텀) 구현 -- 가장 검증되고 비용 효율적
  2. 기존 모멘텀/기술적 분석과 LLM 감성 분석 결합
  3. 월 비용 $20-30으로 시작

Phase 2: 이벤트 확장 (1-2개월)

  1. 전략 2 (실적 서프라이즈) 추가 -- 분기 실적 시즌 대응
  2. 전략 6 (규제 변화) 추가 -- 한국 시장 특성 활용
  3. 이벤트 감지 자동화 파이프라인 구축

Phase 3: 멀티에이전트 (2-3개월)

  1. 전략 7 (멀티에이전트 합의) 구현 -- TradingAgents 간소화 버전
  2. Bull/Bear 토론 메커니즘 도입
  3. 에이전트별 성과 추적 및 가중치 자동 조정(Meso Loop)

Phase 4: 고급 (3-6개월)

  1. 전략 5 (알파 팩터 마이닝) 시도
  2. 전체 전략 포트폴리오 최적화
  3. 레짐 인식 로직 강화 (Macro Loop)

결론: LLM은 보조 도구이지 마법 지팡이가 아니다

벤치마크가 말하는 진실은 명확하다.

  1. LLM 단독 전략은 장기적으로 시장을 이기지 못한다 (FINSABER)
  2. 하락장에서 LLM은 특히 취약하다 (StockBench)
  3. LLM의 진짜 강점은 비정형 데이터 해석에 있다 (뉴스, 실적, 내러티브)

따라서 현실적인 접근은 다음과 같다.

LLM은 "왜"를 판단하는 질적 분석기로 활용하고, "언제/얼마에"는 전통 퀀트 엔진에 맡기며, 둘을 하이브리드 아키텍처로 결합한다. 그리고 피드백 루프를 통해 두 엔진의 가중치를 실적 기반으로 지속 조정한다.

가장 검증된 전략(뉴스 감성 모멘텀)부터 시작하여, 월 $23 수준의 비용으로 운영하면서 점진적으로 확장하는 것이 현실적인 로드맵이다.


참고 자료

  • FINSABER: Can LLM-based Financial Investing Strategies Outperform the Market in Long Run? (arxiv:2505.07078)
  • StockBench: Can LLM Agents Trade Stocks Profitably? (arxiv:2510.02209)
  • TradingAgents: Multi-Agents LLM Financial Trading Framework (arxiv:2412.20138)
  • MarketSenseAI 2.0: Enhancing Stock Analysis through LLM Agents (arxiv:2502.00415)
  • FinMem: LLM Trading Agent with Layered Memory (arxiv:2311.13743)
  • Alpha-GPT: Human-AI Interactive Alpha Mining (EMNLP 2025)
  • Sentiment trading with large language models (Finance Research Letters)
  • Large Language Models in Equity Markets (Frontiers in AI, 2025)