天天新消息丨百億量化私募的數據中臺:提煉存儲痛點待解 算法平臺急需統一
2022-08-23 06:39:03 來源:21世紀經濟報道 陳植 上海報道
為了持續提升量化投研能力,越來越多大型量化私募機構正效仿券商與銀行做法,構建自己的量化數據中臺。
隨著量化投資策略持續興起,百億量化私募基金數量隨之迭創新高。
據私募排排網最新數據顯示,截至7月底,百億量化私募機構數量達到30家,創下歷史新高。
【資料圖】
這背后,是量化私募產品投資策略也發生著明顯變化。
“在去年不少量化私募產品超額收益出現較大幅度回調后,如今pure alpha(純阿爾法)策略正受到越來越多量化私募機構管理人的青睞。因為它可以有效規避股指下跌所帶來的凈值跌破1元壓力,并創造較高的超額回報?!焙闵娮訑祿\營中心產品運營專家黃琪向記者透露。目前pure alpha策略私募產品的超額收益來源,主要來自兩大方面:一是量化私募通過算法模型率先發現某些股票市場錯誤定價,提前布局獲取超額回報;二是通過大量股市波動歷史規律分析,他們更精準地預判未來走勢,從而獲取超越市場平均水準的回報。
在他看來,要實現pure alpha策略的高超額回報預期,量化私募機構需在數據、算法模型、交易執行方面持續加大投入,由此推高了量化投研數據使用要求。
記者多方了解到,為了持續提升量化投研能力,越來越多大型量化私募機構正效仿券商與銀行做法,構建自己的量化數據中臺。
思勰投資交易運營總監孫修遠指出,通過建設量化數據中臺實現業務數據化、數據資產化和投研智能化,從而打造數據驅動的量化資管體系,將是未來量化私募機構借助數據能力提升投資決策精準性的一大重要方向。
他直言,要做好這項工作,絕非易事。一是眾多量化私募機構均面臨量化投研數據體量大、多源異構、數據質量低、自由度低等痛點,導致數據使用效率千差萬別;二是如何通過數據清洗提煉分析,進一步完善自身算法投資模型,同樣是一大挑戰。
在恒生聚源副總經理夏青看來,隨著pure alpha等量化選股類策略資金容量越來越大,它對多因子選股策略的數據需求日益旺盛——包括個股基本面,市場情緒面、資金流動性、行情類、財務類、估值類等各類數據和財務指標,量化私募機構不但要求數據齊全,還要求實時更新推送與快速清洗提煉 (轉化成他們需要的建模因子數據),這驅動金融數據服務商在提供數據服務同時,還需輸出涵蓋規模因子、動量因子、技術因子、波動因子等多元化因子庫,為量化私募機構提供完善的投研數據服務、績效歸因分析和指數服務。
他透露,恒生電子正致力于通過數據質量規則校驗系統建設高質量的歷史行情數據庫,為量化投資機構打造集行情、資訊、因子數據于一體的機構金融數據服務,并提供二次加工和統一便捷的對外服務,進一步滿足他們對量化投研數據的各類需求。
中泰證券科技研發部總經理何波指出,隨著監管趨嚴令量化交易不再純粹聚焦高頻極速,除了低延時、AI等科技已被廣泛應用,系統開源與云原生同樣是值得量化交易投資機構深入探索的一大科技賦能方向,這也是量化交易走向規?;谋赜芍?。但要讓量化交易邁入云原生之路,則需從統一的行業標準制定、完善的開源生態構建、合適的開發語言使用等各方面深入發展。
百億量化私募的數據中臺“坎坷路”記者多方了解到,不同于傳統投資交易,量化交易投資主要是將股市波動歷史規律轉化成數據,并依賴統計和編程完成數據分析和制定相應投資策略,且在執行前需先通過各類模擬測試驗證其投資策略的有效性與業績表現能否達到預期。
因此,眾多量化策略私募機構的一項重要工作,就是整天與各類金融數據打交道,由此催生三大量化投研數據需求,一是數據完備性,即盡可能掌握更多的金融數據,包括宏觀經濟、上市公司財務數據、股票行情數據、上市公司輿情數據等;二是數據務必準確,這是確保投資策略凈值回撤狀況可控的最大基礎;三是足夠快地獲取各類數據,從而確保量化交易投資策略能快速響應市場變化。
一位正在研發pure alpha策略私募產品的百億量化私募機構投研總監向記者透露,目前他們最看中的是行情數據,但這類數據處理起來相當繁瑣,因為數據量特別大且需要繁重的數據校對,以確保數據具有較高的準確性。
“此外,令我們比較頭疼的,還有盤后統計數據分析工作。它對優化量化投資算法模型起到關鍵作用,但我們時常遇到數據不夠全面,導致復盤建模效果有時不盡如人意?!彼赋?。
為了解決這些痛點,他所在的百億量化私募機構正嘗試搭建量化數據中臺,包括底部數據層、因子發現層、策略開發層、策略跟蹤層與產品層都能做到數據打通共享,從而全面還原各項量化投資模型的構建全過程與投資業績好壞,作為他們不斷優化pure alpha投資策略的重要依據。
他指出,在量化數據中臺構建過程,另一個令他們頗傷腦筋的問題,是如何搭建完善的算法平臺,目前他們除了自主內部挖掘各類金融數據構建量化交易投資模型,還會引入外部算法模型提供商的某些獨特投資策略。但在實際操作過程,他們發現多數算法模型提供商專注投資算法模型研發,忽視量化私募機構數據接口與風控模型的對接,導致不少外部算法投資模型“只能看不能用”;此外,當他們接入多家外部算法模型服務商后,還會發現自己缺乏統一平臺進行管理,導致他們遲遲沒能構建統一的運營評價體系判斷孰優孰劣,令自身量化交易投資策略面臨額外的投資風險。
“我們正在嘗試構建統一的算法平臺,實現算法管理、算法設計、算法測試流程、算法上線流程、交易風控流程的統一,徹底解決上述痛點。”他指出。
記者多方了解到,不少大型量化私募機構在構建量化數據中臺過程中,還會遇到數據存儲難題——目前,絕大多數結構化數據可以通過數據庫方式存儲,但眾多非結構化數據(包括高頻海量的時序數據、研報、輿情等)卻難以使用數據庫方式存儲。盡管越來越多量化私募機構嘗試基于大數據預處理的數據湖技術——先使用NLP、機器學習等技術對非結構化數據進行清洗提煉分析,再通過預處理模塊將它們納入數據庫存儲,但收效未能達到預期。
科技賦能解決方案成效幾何面對量化私募機構的旺盛量化投研數據需求與使用痛點,券商與第三方金融數據服務商紛紛提供新型科技賦能解決方案。
一位券商信息技術部負責人向記者透露,他們調研發現,在數據存儲層面,數據格式很大程度決定了數據存儲方式。因此他們正嘗試對時序數據采取特殊優化的存儲方式,比如列式存儲或基于流處理、批處理的特殊存儲方式,對海量結構化數據則采取高速文件集群或對象存儲群技術進行存儲,解決量化私募機構對量化投研數據存儲的諸多痛點。
在數據使用層面,數據內容則決定了數據使用方式與邏輯歸類。因此他們在收集龐大量化投研數據同時,還會建立一個數據訪問層,提供API、DB與各類形式文件接口,向量化私募機構提供全量的數據訪問服務,協助他們將眾多外部數據收集先實現業務數據化,再依托他們自身量化數據中臺進行數據清理提煉,進而實現數據資產化,最終達到智能化使用量化投研數據的效果。
“其間我們還協助他們優化統一的算法平臺,尤其是算法服務商和券商的數據使用方式與數據接口實現統一,助力量化私募機構降低系統復雜度同時,令合規風控更有保障?!彼赋觥?/p>
黃琪告訴記者,目前眾多量化私募機構在提升量化投研能力與量化投資數據使用過程中,還遇到三大痛點:一是數據多源頭、體量大,結構格式分類大不相同,因此他們迫切希望能夠更方便地開展多源頭數據清洗處理分析;二是眾多數據質量低且更新快,甚至很難發現(要么即便發現也很難糾正),令他們同樣需要一整套數據質量校驗體系,能夠通過多維度比對判斷哪些數據存在“偏頗”,迅速找到數據修復補齊路徑以盡快提升數據質量;三是越來越多量化私募機構抱怨沒有辦法對數據開展二次加工,尤其是將有些具有投資決策參考價值的“中間指標”或“常用指標”前置到數據處理環節,從而給后端投研建模工作節省更多時間;甚至部分大型量化私募機構還希望能對數據做到便捷二次加工與離線計算,以及實時行情數據的低延時計算推送,方便投研團隊與交易風控團隊對行情變化做出更快的反應。
在他看來,要解決這些數據使用痛點,金融數據服務商需在構建量化投研數據服務領域做好四件事:一是建立歷史行情的數據底座并提高數據質量,二是開放歷史行情的數據二次加工平臺并提供數據加工能力,三是進一步對外開放服務,包括支持低碼化封裝的API接口,四是不斷優化權限管理,支持量化私募機構按需申請數據使用權限與可視化工作等。
黃琪直言,當前國內量化投研與量化投資對數據的服務要求之所以不斷提高,是因為越來越多量化私募機構正在比拼與追逐更高的pure alpha。這無形間推動金融數據服務商必須提供更完善、省心、高性價比與標準化的量化投研數據服務,令量化投資領域的數據使用門檻不會跟隨業績目標“水漲船高”。
相關閱讀