[idea] HMM 레짐 탐지 논문 3편으로 봇 개선해보기

Deep Reinforcement Learning for Financial Trading Enhanced by Cluster Embedding and Zero-Shot Prediction
Markov and Hidden Markov Models for Regime Detection in Cryptocurrency Markets: Evidence from Bitcoin (2024–2026)
Regime-Aware LightGBM for Stock Market Forecasting: A Validated Walk-Forward Framework with Statistical Rigor and Explainable AI Analysis

흥미로운 논문 3편을 읽고, 이 아이디어를 지금 돌리고 있는 코인 봇 전략에 붙이면 정말 좋아질지 검증해봤다. 결론부터: 26가지 변형을 다 돌렸는데 단 하나도 통과 못 했다.

셋 다 공통 주제는 “시장 상태(레짐)를 모델로 알아내서 거래 사이즈를 조절하면 좋다”였다.

지금 운영 중인 포트폴리오(10개 전략들) 위에 레짐 throttle 레이어를 붙이는 식으로 시뮬레이션했다.

중요한 룰: 파라미터 선택은 OOS2+IS에서만 하고, OOS는 “한 번도 안 본 미래”로 따로 둔다. 이걸 어기면 그냥 과거 패턴 외운 거다.

방향	OOS Calmar (선택적)	OOS Calmar (아무것도 안 함)	차이
A. Pagliaro 선택적	4.57	7.37	-2.80
B. NHHMM	4.57	7.37	-2.80
C. enriched 7-feature	4.06	7.37	-3.31

가장 그럴듯해 보였던 게 1시간 rolling이었는데, 옛날 데이터(2021–23)에서는 Calmar 22.5로 보였다. 그런데 한 번도 안 본 미래(2024–26)에서 다시 측정하니 4.57로 떨어졌다. 과거 노이즈를 학습한 것뿐, 실제 신호가 아니었다.

곰곰이 들여다보니 이유가 분명했다.

봇이 이미 너무 잘 다양화돼 있다. 6개 전략이 서로 다른 메커니즘 — 페어 / 펀딩 / 추세 / RSI 인트라데이 / 돌파. 단일 변동성 레짐 하나로 일괄 손볼 수 있는 약점이 안 보임.
줄이는 비용 > 보호하는 효과. “변동성 클 때 절반으로 줄여” — 나쁜 기간 보호되긴 하는데, 좋은 기간도 같이 절반 돼서 누적 수익이 더 깎임. 일괄 0.5배 throttle만 해도 Calmar -1.66 손해였다.
2024년 이후 시장이 달라졌다(오버피팅). ETF 통과, 반감기, AI 코인 로테이션 — 2021–23 에서 “이 레짐에서 이 전략이 약하다”고 학습한 패턴이 2024 이후엔 다른 패턴으로 바뀌어 있음.

두 가지가 다시 한번 확인됐다.

OOS는 진짜 신성불가침. “옛날 데이터에서 좋아 보였다”는 거의 의미 없다. 한 번도 안 본 미래에서 살아남아야 진짜다.
이미 강한 베이스라인에 무언가를 더할 때가 가장 어렵다. 약한 전략에 필터 붙이면 좋아지기 쉬워도, 이미 잘 굴러가는 시스템에 throttle 더하면 거의 항상 비용만 누적된다.

레짐 throttle 방향은 닫는다. 다시 시도한다면 다른 메커니즘 — 예를 들어 다른 자산(코인 외) 신호로 사이징을 조절하거나, 아예 새로운 슬리브를 추가하는 쪽으로 가야 의미 있을 듯.

만든 인프라(4시간 캐피털 베이스 엔진, 6시간프레임 HMM 코드)는 그대로 다음 가설 검증할 때 재활용 가능하니, 시간이 완전히 낭비된 건 아니었다는 게 작은 위안.