數據科學與交易策略:Marty Castan 的深度洞察

數據科學與交易策略:Marty Castan 的深度洞察

數據科學與交易策略:Marty Castan 的深度洞察

數據科學家兼交易員 Marty Castan

本文訪談了 Marty Castan,他不僅是一位才華橫溢的交易員,同時也是一位數據科學家。Marty 在訪談中詳細闡述了他如何將數據科學技術融入金融市場分析,並用於開發穩健的交易策略。他深入介紹了從產生交易想法、假說檢定、策略建構、合成數據的使用、回測,直到策略上線的整個流程。Marty 也分享了他認為對其他交易員最有幫助的一項技術,相信這能幫助他們提升成功機率。


背景與轉型:從工程到金融

數據分析背景:Marty 學習電氣工程 (electrical engineering) 出身,最初接觸時間序列分析 (time series analysis) 是透過 MATLAB 處理離散時間序列。他自認為在數據分析領域主要是自學 (self-taught),並從實際工作經驗中獲得大量知識。

新創公司經歷:他曾在一家新創公司工作,分析券商極其龐大的數據集,試圖預測客戶未來是否會盈利。

諮詢顧問經驗:在一家精品顧問公司,他參與了基於 AWS 雲端的大型項目,涉及海量數據的攝取與處理 (huge data ingestion and data processing)。這些經歷讓他學會將理論知識轉化為實際應用。

轉向金融市場:最初,他與朋友以主觀交易 (discretionary trading) 方式交易原油期貨 (crude oil Futures),憑直覺做決策。但他們很快意識到這種方式效率低下且風險極高,在相同數據下卻得出不同交易結論,這促使他們思考如何將科學方法引入交易決策。這段經歷是他們轉向程式交易 (algorithmic trading) 的關鍵轉折點。


數據科學在交易策略開發中的應用

Marty 描述了一個類似科學實驗的策略開發流程,旨在建立穩健且值得信任的交易策略:

1. 流程框架的重要性

開發交易策略的過程應效仿新藥開發,包括開發、測試、驗證其有效性,最終推向市場(上線)。擁有一個嚴謹的流程 (robust framework) 不僅能得出穩健的結論,也能在策略遇到困難時期時,給予交易員足夠的信心來維持交易。因為交易員了解整個建構過程,所以會信任策略。

2. 策略開發的詳細步驟

產生想法 (Idea Generation)

從學術研究 (academia) 網站,如 SSRN (Social Science Research Network) 尋找靈感,閱讀有關不同交易風格(趨勢跟隨, trend following;均值回歸, mean reversion;套利, arbitrage 等)的論文。核心是尋找金融市場行為中的特定特徵 (particular characteristics),例如市場的趨勢期或均值回歸期。

假說檢定 (Hypothesis Testing)

在設計交易規則前,必須先驗證假說 (validate the hypothesis)。例如,若假說是「市場存在趨勢」,可透過檢測時間序列的自相關性 (autocorrelation) 來驗證。若假說是「市場存在均值回歸」,則需檢測時間序列的平穩性 (stationarity),可使用 Johansen testAugmented Dickey-Fuller test 等統計測試。這一步驟能確認市場行為是否存在可利用的模式。

策略規則建構 (Strategy Rule Construction)

一旦假說被驗證,便開始根據市場行為設計規則。Marty 傾向於使用簡單的規則 (simple rules),遵循奧卡姆剃刀原則 (Occam's Razor)。

實用技巧:使用合成數據 (Synthetic Data)
這是 Marty 策略開發的獨特之處。由於金融市場只有一套歷史數據,存在過度使用數據 (overusing data) 導致樣本內擬合 (in-sample fitting) 的風險。

  • 避免過度擬合:Marty 在校準和設計階段 (calibration and design process) 主要使用合成數據。例如,透過生成帶有高斯噪音 (Gaussian noise) 的正弦波 (sine wave),或將真實歷史數據的不同月份隨機組合來創建新的時間序列。
  • 通用策略:他們的目標是設計通用策略 (general strategies),不針對特定交易品種,而是在多個交易品種上應用相同策略。

回測與驗證 (Backtesting and Validation)

最終的驗證步驟是在真實數據 (real data) 上進行。回測結果應追求真實性 (realism),而非表面的「漂亮」結果。過於完美的歷史回測可能代表過度擬合。


基礎設施:無縫銜接的研究與實盤

Marty 強調基礎設施 (infrastructure) 的重要性,認為它是程式交易的基石,就像健康一樣,只有出問題時才會被察覺。他們花費六個月時間,建立了自有的事件驅動回測和實盤交易框架,全部使用 Python 編寫。

自建框架核心優勢

  • 單一程式碼庫 (single codebase):研究代碼和生產代碼完全相同,只透過「裝飾器」(decorator) 切換模式,100% 確保回測與實盤一致性。
  • 模仿真實環境:內建執行引擎 (execution engine) 模擬撮合引擎 (matching engine)。
  • 模組化設計:採用六邊形架構 (hexagonal architecture),使核心邏輯與外部連接解耦 (decoupled)。
  • 避免未來數據偏差 (Look-Ahead Bias):從設計上根除獲取未來數據的可能性。
  • 靈活部署:能夠以 Docker 容器部署,或利用 AWS Lambda 等雲服務進行高度解耦部署。

核心洞察:量化不確定性

Marty 認為,對交易員最有幫助的一項技術是量化不確定性 (quantifying uncertainty),並利用其指導決策過程。

市場的隨機性:市場本質上是隨機的 (Stochastic Nature of Markets),過去的實現路徑只是眾多可能性中的一種。一個回測曲線(例如一個策略的夏普比率, Sharpe Ratio)只是該策略在特定歷史路徑下的一種實現,並不能代表策略的真實表現範圍。

補充說明:非參數引導法 (Non-Parametric Bootstrapping)
Marty 使用此方法來量化回測結果的不確定性。

  • 方法:透過對回測的每筆單獨交易或每日收益進行帶有重複的抽樣 (sampling with repetition),生成數千甚至數萬個模擬回測路徑。
  • 生成採樣分佈:計算這些模擬路徑的夏普比率,可以繪製出一個夏普比率的採樣分佈 (sampling distribution of Sharpe Ratios)。這個分佈能直觀地顯示出在給定歷史數據下,策略夏普比率可能的變化範圍和不確定性。

透過這個分佈,交易員可以更理性地進行投資組合管理,例如在多個策略表現相似時,若統計上無法區分,則分配相同的權重,而非偏袒其中一個。


成功交易員的特質與未來計畫

成功要素與未來方向

  • 成功特質:堅韌不拔 (perseverance)、耐心與好奇心 (patience and curiosity)、長期視角 (long-term perspective)、以及團隊合作 (teamwork)。
  • 未來計畫:正在開發一種新的前向分析測試方法,利用 Kolmogorov-Smirnov (K-S) 檢定來比較資產的收益分佈。當收益分佈出現統計上顯著的差異時,才重新訓練模型。這意味著模型參數的再訓練將基於市場結構的真實變化,而非固定的時間週期。

聯繫方式:

Marty Castan 的團隊可在 Comal Logic.com 網站上找到聯繫表單,或透過 LinkedIn 或 Twitter 聯繫。

精選文章

《三國演義》第三十七回