- Deep Reinforcement Learning for Financial Trading Enhanced by Cluster Embedding and Zero-Shot Prediction
- Markov and Hidden Markov Models for Regime Detection in Cryptocurrency Markets: Evidence from Bitcoin (2024–2026)
- Regime-Aware LightGBM for Stock Market Forecasting: A Validated Walk-Forward Framework with Statistical Rigor and Explainable AI Analysis
흥미로운 논문 3편을 읽고, 이 아이디어를 지금 돌리고 있는 코인 봇 전략에 붙이면 정말 좋아질지 검증해봤다. 결론부터: 26가지 변형을 다 돌렸는데 단 하나도 통과 못 했다.
1. 어떤 논문이었나
셋 다 공통 주제는 “시장 상태(레짐)를 모델로 알아내서 거래 사이즈를 조절하면 좋다”였다.
- Pagliaro 2026 — 일괄로 줄이지 말고, 그 상태에서 진짜 부진한 전략만 골라 줄이자
- Markov HMM BTC — 거래량 같은 외부 정보로 상태 전환을 더 빨리 잡자 (NHHMM)
- DRL + Cluster Embedding — 강화학습 + 미래 예측을 합쳐서 더 똑똑한 상태 표현
2. 어떻게 검증했나
지금 운영 중인 포트폴리오(10개 전략들) 위에 레짐 throttle 레이어를 붙이는 식으로 시뮬레이션했다.
- 6개 시간프레임: 5분 / 15분 / 1시간 / 4시간 / 12시간 / 1일
- 2가지 HMM 학습법: offline(단일 학습) / rolling(과거만 보고 주기적 재학습)
- 3가지 throttle 방식: 안 함 / 일괄 절반 / 선택적
- 3개 기간: 옛 OOS2(2021–22) / IS(2023) / 진짜 검증 OOS(2024–26)
중요한 룰: 파라미터 선택은 OOS2+IS에서만 하고, OOS는 “한 번도 안 본 미래”로 따로 둔다. 이걸 어기면 그냥 과거 패턴 외운 거다.
3. 결과 — 0/26
방향OOS Calmar (선택적)OOS Calmar (아무것도 안 함)차이A. Pagliaro 선택적4.577.37**-2.80B. NHHMM4.577.37-2.80C. enriched 7-feature4.067.37-3.31**
- Calmar = CAGR / |최대낙폭|. 클수록 좋음.
가장 그럴듯해 보였던 게 1시간 rolling이었는데, 옛날 데이터(2021–23)에서는 Calmar 22.5로 보였다. 그런데 한 번도 안 본 미래(2024–26)에서 다시 측정하니 4.57로 떨어졌다. 과거 노이즈를 학습한 것뿐, 실제 신호가 아니었다.
4. 왜 안 됐을까
곰곰이 들여다보니 이유가 분명했다.
- 봇이 이미 너무 잘 다양화돼 있다. 6개 전략이 서로 다른 메커니즘 — 페어 / 펀딩 / 추세 / RSI 인트라데이 / 돌파. 단일 변동성 레짐 하나로 일괄 손볼 수 있는 약점이 안 보임.
- 줄이는 비용 > 보호하는 효과. “변동성 클 때 절반으로 줄여” — 나쁜 기간 보호되긴 하는데, 좋은 기간도 같이 절반 돼서 누적 수익이 더 깎임. 일괄 0.5배 throttle만 해도 Calmar -1.66 손해였다.
- 2024년 이후 시장이 달라졌다(오버피팅). ETF 통과, 반감기, AI 코인 로테이션 — 2021–23 에서 “이 레짐에서 이 전략이 약하다”고 학습한 패턴이 2024 이후엔 다른 패턴으로 바뀌어 있음.
5. 교훈
두 가지가 다시 한번 확인됐다.
- OOS는 진짜 신성불가침. “옛날 데이터에서 좋아 보였다”는 거의 의미 없다. 한 번도 안 본 미래에서 살아남아야 진짜다.
- 이미 강한 베이스라인에 무언가를 더할 때가 가장 어렵다. 약한 전략에 필터 붙이면 좋아지기 쉬워도, 이미 잘 굴러가는 시스템에 throttle 더하면 거의 항상 비용만 누적된다.
6. So What?
레짐 throttle 방향은 닫는다. 다시 시도한다면 다른 메커니즘 — 예를 들어 다른 자산(코인 외) 신호로 사이징을 조절하거나, 아예 새로운 슬리브를 추가하는 쪽으로 가야 의미 있을 듯.
만든 인프라(4시간 캐피털 베이스 엔진, 6시간프레임 HMM 코드)는 그대로 다음 가설 검증할 때 재활용 가능하니, 시간이 완전히 낭비된 건 아니었다는 게 작은 위안.
댓글