【1.0時(shí)代? ?終端+Excel】
1.0時(shí)代,我們獲取數據的方式是在終端點(diǎn)開(kāi)瀏覽器,把數據通過(guò) Excel 下載到本地中使用。Excel 中各種透視表與插件組合滿(mǎn)足了絕大多數小批量數據使用的場(chǎng)景。Excel+終端瀏覽器,基本解決了小批量數據使用的問(wèn)題。
【2.0時(shí)代? ?SQL+單一數據來(lái)源】
隨著(zhù)研究的深入、數據維度的拓展、數據規范的清晰,結構化數據開(kāi)始成為標配。相比于過(guò)去的數據瀏覽器提取方式,SQL 通過(guò)一個(gè)或幾個(gè)語(yǔ)句就能實(shí)現全部數據的提取,讓用戶(hù)倍感輕松。信息化帶來(lái)的效率提升,仿佛經(jīng)歷了“工業(yè)革命”般的體驗。
【2.0時(shí)代后期? ?更高的算力需求】
逐漸地,SQL 也開(kāi)始暴露一些無(wú)法滿(mǎn)足研究需求的問(wèn)題。假如研究的重心放在組合管理、因子挖掘、風(fēng)險控制領(lǐng)域,SQL 似乎既不能滿(mǎn)足計算要求、也無(wú)法滿(mǎn)足數據處理的時(shí)效性要求,這意味著(zhù),用戶(hù)需要花費大量的精力提高一點(diǎn)點(diǎn)效率。
于是,DolphinDB 與聚源也開(kāi)始給
近日,書(shū)香門(mén)地集團檢測中心參加2023年林產(chǎn)品檢驗檢測能力驗證活動(dòng)中人造板甲醛釋放量、吸水厚度膨脹率和密度3個(gè)檢測項目,均取得滿(mǎn)意結果,這已是書(shū)香門(mén)地集團檢測中心連續4年取得該榮譽(yù)。
該活動(dòng)由國家林業(yè)和草原局林產(chǎn)品質(zhì)量和標準化研究中心組織、國家人造板與木竹制品質(zhì)量檢驗中心等承辦,是一份給承擔林產(chǎn)品質(zhì)量監測任務(wù)的各級檢驗檢測機構和自愿參與的實(shí)驗室的年度盲樣考卷,是評價(jià)檢驗檢測實(shí)驗室檢測能力的有效手段。
書(shū)香門(mén)地集團檢測中心連續4年取得國家林業(yè)和草原局林產(chǎn)品質(zhì)量和標準化研究中心結果滿(mǎn)意的考核,充分說(shuō)明書(shū)香門(mén)地集團檢測能力持續保證結果的準確性。年考并不是終點(diǎn),而是一個(gè)新的開(kāi)始。在中國林科院木工所的培訓和指導下,書(shū)香門(mén)地集團充分利用通知結果改進(jìn)檢測中心檢測水平,確保檢驗檢測能力持續滿(mǎn)足要求并不斷提升。
未來(lái),書(shū)香門(mén)地集團檢測中心將不斷提高質(zhì)量控制與運行管理水平,持續加強檢驗檢測能力建設,擴展更多檢測項目,為原物料和產(chǎn)品在采購、研發(fā)和生產(chǎn)等各個(gè)環(huán)節提供數據支撐,為書(shū)香門(mén)地高質(zhì)量發(fā)展保駕護航,為消費者甄選優(yōu)質(zhì)健康家居產(chǎn)品。
合作探索一種全新的業(yè)務(wù)模式。
【3.0時(shí)代? ?探索高質(zhì)量+高性能】
高質(zhì)量數據與高性能數據庫的融合是市場(chǎng)對3.0時(shí)代新業(yè)務(wù)場(chǎng)景的期待,但目前來(lái)看仍存在一些難題待解。以MySQL為例,在海量的時(shí)序數據場(chǎng)景下存在一些問(wèn)題:
·存儲成本大:對于時(shí)序數據壓縮不佳,需占用大量機器資源。
·維護成本高:單機系統,需要在上層人工的分庫分表,維護成本高。
·寫(xiě)入吞吐低:單機寫(xiě)入吞吐低,很難滿(mǎn)足時(shí)序數據千萬(wàn)級的寫(xiě)入壓力(針對tick級數據場(chǎng)景)。
·查詢(xún)性能差:海量數據的聚合分析性能差。
在3.0時(shí)代的探索過(guò)程中,DolphinDB 與聚源數據達成合作,我們?yōu)闃嫿ㄒ徽臼叫星閿祿旆?wù)模式共同努力。
全新的業(yè)務(wù)場(chǎng)景下,用戶(hù)可以通過(guò) DolphinDB 訪(fǎng)問(wèn)和調用聚源數據庫的各類(lèi)數據,快速實(shí)現高頻數據對接、存儲、查詢(xún)、指標計算、因子研究等,助力實(shí)現更便捷、更高效的投研。海量數據意味著(zhù)數據質(zhì)量高、歷史可追溯時(shí)間長(cháng)、維度多,因此全量數據供應商顯得尤為重要,而數據質(zhì)量是一切的基礎。
從數據質(zhì)量的角度:
聚源數據庫以金融證券為核心,服務(wù)內容涵蓋投研數據、財富數據、固收數據、風(fēng)險數據、ESG 數據等,廣泛應用于金融資訊展示、金融投研、大數據分析、風(fēng)控、量化回測、金融監管等多個(gè)領(lǐng)域,經(jīng)過(guò)二十余年的發(fā)展,公司與國內券商、基金、保險、信托、銀行、期貨、資產(chǎn)管理公司等機構建立了廣泛的業(yè)務(wù)合作,確立了在中國金融數據服務(wù)領(lǐng)域的領(lǐng)先地位,是中國最優(yōu)秀的金融資訊服務(wù)供應商之一。
從數據庫性能的角度:
SQL 或者單一 Python 的處理方法,無(wú)論便攜性還是成本都不算友好。比如計算一個(gè)投資組合的協(xié)方差矩陣,無(wú)法在 SQL 中完成,需要借助額外的 Python 反推回數據庫。高性能時(shí)序數據庫 DolphinDB 有出色的內置函數、多范式的腳本語(yǔ)言、靈活的自定義計算,無(wú)論是在數據存儲端,還是在復雜分析端,都是比 SQL 和 Python 更優(yōu)的選擇。以下圖為例:
高質(zhì)量數據、高性能數據庫二者怎么融合?從最傳統的量化場(chǎng)景出發(fā),以聚源提供的因子庫為例。
DolphinDB 支持直接加工底層數據結果并且及時(shí)反饋結果到使用者手中,量化場(chǎng)景下的基礎因子、特色因子、回測框架都可以直接依托其后的數據基準進(jìn)行融合。這些步驟的融合幫助用戶(hù)解決數據儲存量極大、讀取緩慢的通病。也就意味著(zhù),當擁有了捆綁好的高質(zhì)量基礎數據與高性能平臺的時(shí)候,用戶(hù)便有了所有想要的內容。同時(shí),因為 DolphinDB 自定義的優(yōu)勢加上聚源數據除常規的披露數據外,還有包括但不限于其它主流另類(lèi)數據(司法,工商,輿情,預期、宏觀(guān)行業(yè)等)等,極大方便機構客戶(hù)做特色因子挖掘和回測的工作流程,將原本離散化的工作任務(wù)集成式布置在 DolphinDB 上,真正發(fā)揮出1+1融合但是產(chǎn)出遠大于2的效果。
數據質(zhì)量與數據庫性能的優(yōu)勢相互結合,機構可以直接享受到聚源高質(zhì)量數據加 DolphinDB 高性能數據庫的一站式服務(wù)。
除此之外,分布式高性能的數據存儲,必然對高頻率的數據量處理有著(zhù)顯著(zhù)優(yōu)勢,對于聚源在金融全場(chǎng)景下涵蓋的各更新頻率不一的數據,科學(xué)合理的插值方法,是提高數據頻率的有效手段;因子算法部署在更為高頻的數據空間(如 Alpha191 算法由日K,調整為 1分鐘K),也是挖掘非線(xiàn)性因子的,進(jìn)入市場(chǎng)顆?;潭雀铑I(lǐng)域的主要路徑。數據升頻與 DolphinDB 的高性能協(xié)作,勢必會(huì )開(kāi)辟量化數據場(chǎng)景的新賽道。
這也意味著(zhù),3.0時(shí)代將迎來(lái)數據庫與編程語(yǔ)言的融合。
在傳統的數據庫時(shí)代,我們更看重數據的寫(xiě)入,所以我們強調數據庫的一致性、原子性、持久性等,而用于分析的 SQL 語(yǔ)句功能則相對簡(jiǎn)單,復雜的分析和計算通常由更高級的編程語(yǔ)言(如 C++, Python 等)來(lái)完成。在海量數據時(shí)代,我們更看重數據的讀取,也就是通過(guò)對海量數據的分析,發(fā)掘數據背后的價(jià)值,數據分析的時(shí)效性則對企業(yè)的競爭能力至關(guān)重要。未來(lái) SQL 語(yǔ)句和更高級的編程語(yǔ)言也將走向融合,高質(zhì)量的數據+高性能的數據庫將解決數據來(lái)源廣、時(shí)效性差、成本開(kāi)銷(xiāo)大等一系列長(cháng)期困擾市場(chǎng)的難題。
基于此,DolphinDB 與聚源,在路上。
相關(guān)稿件