數據科學與交易策略：Marty Castan 的深度洞察

本文訪談了 Marty Castan，他不僅是一位才華橫溢的交易員，同時也是一位數據科學家。Marty 在訪談中詳細闡述了他如何將數據科學技術融入金融市場分析，並用於開發穩健的交易策略。他深入介紹了從產生交易想法、假說檢定、策略建構、合成數據的使用、回測，直到策略上線的整個流程。Marty 也分享了他認為對其他交易員最有幫助的一項技術，相信這能幫助他們提升成功機率。

背景與轉型：從工程到金融

數據分析背景：Marty 學習電氣工程 (electrical engineering) 出身，最初接觸時間序列分析 (time series analysis) 是透過 MATLAB 處理離散時間序列。他自認為在數據分析領域主要是自學 (self-taught)，並從實際工作經驗中獲得大量知識。

新創公司經歷：他曾在一家新創公司工作，分析券商極其龐大的數據集，試圖預測客戶未來是否會盈利。

諮詢顧問經驗：在一家精品顧問公司，他參與了基於 AWS 雲端的大型項目，涉及海量數據的攝取與處理 (huge data ingestion and data processing)。這些經歷讓他學會將理論知識轉化為實際應用。

轉向金融市場：最初，他與朋友以主觀交易 (discretionary trading) 方式交易原油期貨 (crude oil Futures)，憑直覺做決策。但他們很快意識到這種方式效率低下且風險極高，在相同數據下卻得出不同交易結論，這促使他們思考如何將科學方法引入交易決策。這段經歷是他們轉向程式交易 (algorithmic trading) 的關鍵轉折點。

數據科學在交易策略開發中的應用

Marty 描述了一個類似科學實驗的策略開發流程，旨在建立穩健且值得信任的交易策略：

1. 流程框架的重要性

開發交易策略的過程應效仿新藥開發，包括開發、測試、驗證其有效性，最終推向市場（上線）。擁有一個嚴謹的流程 (robust framework) 不僅能得出穩健的結論，也能在策略遇到困難時期時，給予交易員足夠的信心來維持交易。因為交易員了解整個建構過程，所以會信任策略。

2. 策略開發的詳細步驟

產生想法 (Idea Generation)

從學術研究 (academia) 網站，如 SSRN (Social Science Research Network) 尋找靈感，閱讀有關不同交易風格（趨勢跟隨, trend following；均值回歸, mean reversion；套利, arbitrage 等）的論文。核心是尋找金融市場行為中的特定特徵 (particular characteristics)，例如市場的趨勢期或均值回歸期。

假說檢定 (Hypothesis Testing)

在設計交易規則前，必須先驗證假說 (validate the hypothesis)。例如，若假說是「市場存在趨勢」，可透過檢測時間序列的自相關性 (autocorrelation) 來驗證。若假說是「市場存在均值回歸」，則需檢測時間序列的平穩性 (stationarity)，可使用 Johansen test 或 Augmented Dickey-Fuller test 等統計測試。這一步驟能確認市場行為是否存在可利用的模式。

策略規則建構 (Strategy Rule Construction)

一旦假說被驗證，便開始根據市場行為設計規則。Marty 傾向於使用簡單的規則 (simple rules)，遵循奧卡姆剃刀原則 (Occam's Razor)。

實用技巧：使用合成數據 (Synthetic Data)
這是 Marty 策略開發的獨特之處。由於金融市場只有一套歷史數據，存在過度使用數據 (overusing data) 導致樣本內擬合 (in-sample fitting) 的風險。

避免過度擬合：Marty 在校準和設計階段 (calibration and design process) 主要使用合成數據。例如，透過生成帶有高斯噪音 (Gaussian noise) 的正弦波 (sine wave)，或將真實歷史數據的不同月份隨機組合來創建新的時間序列。
通用策略：他們的目標是設計通用策略 (general strategies)，不針對特定交易品種，而是在多個交易品種上應用相同策略。

回測與驗證 (Backtesting and Validation)

最終的驗證步驟是在真實數據 (real data) 上進行。回測結果應追求真實性 (realism)，而非表面的「漂亮」結果。過於完美的歷史回測可能代表過度擬合。

基礎設施：無縫銜接的研究與實盤

Marty 強調基礎設施 (infrastructure) 的重要性，認為它是程式交易的基石，就像健康一樣，只有出問題時才會被察覺。他們花費六個月時間，建立了自有的事件驅動回測和實盤交易框架，全部使用 Python 編寫。

自建框架核心優勢

單一程式碼庫 (single codebase)：研究代碼和生產代碼完全相同，只透過「裝飾器」(decorator) 切換模式，100% 確保回測與實盤一致性。
模仿真實環境：內建執行引擎 (execution engine) 模擬撮合引擎 (matching engine)。
模組化設計：採用六邊形架構 (hexagonal architecture)，使核心邏輯與外部連接解耦 (decoupled)。
避免未來數據偏差 (Look-Ahead Bias)：從設計上根除獲取未來數據的可能性。
靈活部署：能夠以 Docker 容器部署，或利用 AWS Lambda 等雲服務進行高度解耦部署。

核心洞察：量化不確定性

Marty 認為，對交易員最有幫助的一項技術是量化不確定性 (quantifying uncertainty)，並利用其指導決策過程。

市場的隨機性：市場本質上是隨機的 (Stochastic Nature of Markets)，過去的實現路徑只是眾多可能性中的一種。一個回測曲線（例如一個策略的夏普比率, Sharpe Ratio）只是該策略在特定歷史路徑下的一種實現，並不能代表策略的真實表現範圍。

補充說明：非參數引導法 (Non-Parametric Bootstrapping)
Marty 使用此方法來量化回測結果的不確定性。

方法：透過對回測的每筆單獨交易或每日收益進行帶有重複的抽樣 (sampling with repetition)，生成數千甚至數萬個模擬回測路徑。
生成採樣分佈：計算這些模擬路徑的夏普比率，可以繪製出一個夏普比率的採樣分佈 (sampling distribution of Sharpe Ratios)。這個分佈能直觀地顯示出在給定歷史數據下，策略夏普比率可能的變化範圍和不確定性。

透過這個分佈，交易員可以更理性地進行投資組合管理，例如在多個策略表現相似時，若統計上無法區分，則分配相同的權重，而非偏袒其中一個。

成功交易員的特質與未來計畫

成功要素與未來方向

成功特質：堅韌不拔 (perseverance)、耐心與好奇心 (patience and curiosity)、長期視角 (long-term perspective)、以及團隊合作 (teamwork)。
未來計畫：正在開發一種新的前向分析測試方法，利用 Kolmogorov-Smirnov (K-S) 檢定來比較資產的收益分佈。當收益分佈出現統計上顯著的差異時，才重新訓練模型。這意味著模型參數的再訓練將基於市場結構的真實變化，而非固定的時間週期。

聯繫方式：

Marty Castan 的團隊可在 Comal Logic.com 網站上找到聯繫表單，或透過 LinkedIn 或 Twitter 聯繫。

回到交易專區

數據科學與交易策略：Marty Castan 的深度洞察

數據科學與交易策略：Marty Castan 的深度洞察

背景與轉型：從工程到金融

數據科學在交易策略開發中的應用

1. 流程框架的重要性

2. 策略開發的詳細步驟

產生想法 (Idea Generation)

假說檢定 (Hypothesis Testing)

策略規則建構 (Strategy Rule Construction)

回測與驗證 (Backtesting and Validation)

基礎設施：無縫銜接的研究與實盤

自建框架核心優勢

核心洞察：量化不確定性

成功交易員的特質與未來計畫

成功要素與未來方向

聯繫方式：

Strategy Quant X 內建指標 : CMMA

聯絡表單