隨著(zhù)現代數據技術(shù)體系的發(fā)展,數據驅動(dòng)已經(jīng)成為企業(yè)管理不可或缺的一部分,數據遍布在企業(yè)內部的每一個(gè)角落。每個(gè)企業(yè)積累的海量的大數據,但真正發(fā)揮效能的數據微乎其微,形成了大量的“沉睡”數據。而企業(yè)內部的數據用戶(hù),從數據分析師到市場(chǎng)營(yíng)銷(xiāo)人員再到銷(xiāo)售人員,每個(gè)員工現在都在使用數驅動(dòng)業(yè)務(wù),形成新的數據用戶(hù)社區(Data Community)。
一方面,海量的數據在沉睡,另一方面,大量用戶(hù)需求涌現,如今不足的數據計算資源和 BI 團隊人力資源對這些不斷增長(cháng)的期望不堪重負。
新時(shí)代來(lái)臨,結合Dev-Ops, New DataStack, DataFebric等諸多理念,全球企業(yè)開(kāi)始采用最新的DataOps框架解決新時(shí)代的“數據蜘蛛網(wǎng)”問(wèn)題。
白鯨開(kāi)源 WhaleStudio 套件中的 WhaleScheduler 作為一款企業(yè)統一的云原生可視化大數據工作流調度平臺,旨在幫助企業(yè)解決內部多數據源、多數據系統復雜的數據集成,持續開(kāi)發(fā)、持續部署、數據捕獲、數據打通等一系列問(wèn)題。
WhaleScheduler 具備可靠性、可擴展性、易用性、靈活性、可視化和安全性等特性,擁有完善的調度能力、數據處理能力、集群管理能力、數據可視化能力、監控和報警能力,以及安全管理能力,能夠在復雜的生產(chǎn)環(huán)境中針對行業(yè)客戶(hù)增加企業(yè)級產(chǎn)品功能并加強系統安全與穩定性,支持數據庫、云、大數據、AI組件等數十種系統的任務(wù)調度,助力企業(yè)數據消費者、數據探索者、數據分析家、數據科學(xué)家,以及數據客戶(hù)/供應商提高調度效率,降低生產(chǎn)成本。
接入WhaleGPT AI對話(huà)助手,賦能企業(yè)私有化模型訓練 為了降低數據調度系統的使用難度,使數據分析師等業(yè)務(wù)部門(mén)的人員無(wú)需代碼背景也可以無(wú)門(mén)檻的進(jìn)行數據開(kāi)發(fā)和操作調度作業(yè),WhaleScheduler 2.4.5 接入了 WhaleStudio 新增重要模塊——WhaleGPT 的 AI 助手,可以輔助業(yè)務(wù)人員直接完成數據業(yè)務(wù)腳本開(kāi)發(fā),讓他們更關(guān)注業(yè)務(wù)本身,而不是代碼。
WhaleStudio 是白鯨開(kāi)源科技根據全球領(lǐng)先的 DataOps 理念打造的新一代數據集成調度工具,最新版本的 WhaleStudio 中除了 WhaleScheduler 與 WhaleTunnel 兩大核心組件之外,又新增了 WhaleGPT 大模型服務(wù)模塊,加強了 WhaleStudio 的模型訓練能力,提供給用戶(hù)完整的 DataOps 解決方案。
WhaleGPT AI 對話(huà)助手目前支持:
查詢(xún)功能操作幫助,通過(guò)詢(xún)問(wèn)功能名稱(chēng)可以返回該功能的上手指南,部分功能提供跳轉鏈接至指定操作界面;
通過(guò)對話(huà)查詢(xún)工作流,直接在對話(huà)中詢(xún)問(wèn) WhaleGPT,返回對應的工作流并提供跳轉鏈接;
通過(guò)對話(huà)提出需求讓 GPT 生成 SQL 代碼,在對話(huà)中將自己的需求描述出來(lái),如寫(xiě)查詢(xún)某某數據的 SQL,返回該需求的 SQL 代碼。
例如,WhaleGPT 可以在眾多復雜的使用手冊和規則中,找到你所需要的功能和說(shuō)明。
WhaleGPT 還可以輔助編程、Txt2SQL,提高數據程序員的開(kāi)發(fā)效率。
WhaleGPT 自帶的大模型能力讓企業(yè)可以快速訓練私有化模型,普通程序員用半天時(shí)間就具備訓練私有化大模型的能力,讓大模型幫助客戶(hù)更了解自己的業(yè)務(wù),加強數據安全,跨越大模型與現有系統數據的鴻溝。
擴展數據類(lèi)型支持能力 隨著(zhù)越來(lái)越多的數據庫出現,數據分散、數據不一致、數據安全性等問(wèn)題越來(lái)越突出,數據兼容性的問(wèn)題(數據格式、數據結構、數據類(lèi)型不兼容等)也變得更加復雜。
WhaleScheduler 有更多的數據源支持可以提供更全面、準確的數據,從而提高數據分析和決策的質(zhì)量。同時(shí),對于某些特定業(yè)務(wù)需要不同類(lèi)型的數據源來(lái)支持的需求,WhaleScheduler 也能輕松應對。
在新版本中,我們新增了對多種國產(chǎn)數據源的支持,以滿(mǎn)足客戶(hù)對信創(chuàng )環(huán)境的更高需求:
IoTDB、飛輪數據庫、TDengine、Mirrorship、Openlookeng、瀚高數據庫、人大金倉數據庫(V8)、ClickHouse、PolarDB。
提高云原生支持水平 同時(shí),WhaleScheduler 全面支持云原生,為了幫助企業(yè)更好地適應大數據和云原生大時(shí)代下的數據處理與治理,我們對更多云廠(chǎng)商的相關(guān)數據庫進(jìn)行了支持:
PolarDB 分布式版 (V2.2)、PolarDB PostgresOL版 (V11)、GaussDB、openGauss、PostgreSQL、TDSQL。
增強數據安全性 01 信創(chuàng )環(huán)境適配升級 信創(chuàng )(信息技術(shù)應用創(chuàng )新)是數據安全、網(wǎng)絡(luò )安全的基礎,也是“新基建”的重要內容,推動(dòng)國家的核心技術(shù)必須實(shí)現自主可控。信創(chuàng )是目前國內的一項戰略,也是當今形勢下國內經(jīng)濟發(fā)展的新動(dòng)能。
為解決本質(zhì)安全的問(wèn)題,助力企業(yè)自主可控地完成經(jīng)濟數字化轉型、提升產(chǎn)業(yè)鏈發(fā)展,WhaleScheduler 2.4.5 版本對多個(gè)國產(chǎn)系統環(huán)境進(jìn)行了適配,保障企業(yè)數據安全,包括:
openEuler、、鯤鵬、統信、OpenCloudOS、TencentOS Server2、TencentOS Server3。
02 提高安全性 WhaleScheduler 自誕生以來(lái)就將安全問(wèn)題作為產(chǎn)品管理的關(guān)鍵指標,為了提高產(chǎn)品安全性,WhaleScheduler 2.4.5 優(yōu)化多項安全措施:
支持使用 SSL 證書(shū)訪(fǎng)問(wèn)數據源、支持自動(dòng)刷新 HDFS 服務(wù)認證、支持 zk 的 Kerberos 認證、Hive 數據源支持 keytab 配置、配置文件密碼加密(jaspyt 加密)。
功能全新升級優(yōu)化 為了優(yōu)化產(chǎn)品的使用習慣,WhaleScheduler 2.4.5 對首頁(yè)、DAG、錯誤提示框等進(jìn)行了優(yōu)化,方便客戶(hù)更加無(wú)邊界地試用產(chǎn)品。
01 功能優(yōu)化 在功能上,WhaleScheduler 2.4.5 進(jìn)行的部分重要優(yōu)化包括:
工作流邏輯任務(wù)新增 Dynamic 動(dòng)態(tài)任務(wù)組件:在工作流邏輯組件中新增動(dòng)態(tài)任務(wù)組件,使用動(dòng)態(tài)任務(wù)組件后工作流可以在運行中根據每次輸入參數變量的變化動(dòng)態(tài)的生成調度實(shí)例。這對于需要針對不同的數據通過(guò)同樣的腳本進(jìn)行處理的用戶(hù)來(lái)說(shuō),不再需要重復設置多個(gè)工作流,也不需要事先估算需要運行的實(shí)例數量,如機器學(xué)習模型多參數調參訓練的場(chǎng)景。針對同類(lèi)多樣的數據調度,動(dòng)態(tài)任務(wù)組件可以大批量的同時(shí)執行,大大提高了數據處理的效率。
基線(xiàn)告警:某些任務(wù)的數據需要在指定時(shí)間點(diǎn)之前完成,由于前置任務(wù)拖延,導致最后的任務(wù)不能在規定的時(shí)間點(diǎn)完成,需要提前預警并人工介入處理,因此需要提前預判任務(wù)是否有延誤風(fēng)險以提供處理的時(shí)間空間。關(guān)鍵調度任務(wù)可以通過(guò)設置基線(xiàn)進(jìn)行監控,當存在未能承諾時(shí)間內完成的風(fēng)險時(shí)及時(shí)給負責人進(jìn)行告警提醒,以保障業(yè)務(wù)的正常運轉。
支持自定義任務(wù)組件:當前工作流內不支持的任務(wù)類(lèi)型,用戶(hù)可以通過(guò)提供該組件jar包并在配置文件中設置需要配置的任務(wù)參數項,即可在工作流內新增該任務(wù)類(lèi)型組件進(jìn)行調度作業(yè)使用了。
影響分析支持展示工作流實(shí)例、任務(wù)實(shí)例的血緣,并支持運行操作:工作流實(shí)例、任務(wù)實(shí)例維度的調度血緣展示,同時(shí)可以在影響分析中直接對工作流和任務(wù)執行運行相關(guān)的操作。任務(wù)依賴(lài)是調度作業(yè)處理中的核心場(chǎng)景。尤其是企業(yè)規模較大業(yè)務(wù)涉及面更廣時(shí),其數據處理流程日益復雜。在調度作業(yè)中往往面臨著(zhù)龐大的調度依賴(lài),一旦當其中某一個(gè)節點(diǎn)出現數據錯誤,排查問(wèn)題變得十分困難,需要一個(gè)一個(gè)的檢查依賴(lài)項并向上溯源。實(shí)例級的影響分析正是為了解決這一問(wèn)題誕生的,使調度作業(yè)的運維工作變得更為簡(jiǎn)單和高效。在工作流/任務(wù)的運行實(shí)例的影響分析中,可以清晰地看到上有依賴(lài)的實(shí)例,并支持繼續向上或拓展溯源。一旦找到了問(wèn)題源頭,經(jīng)過(guò)處理后,可以在影響分析中直接執行相關(guān)的人工干預操作。
IDE 支持通過(guò)資源中心引入 SQL 腳本:除了腳本文件和 jar 之外,用戶(hù)還可以可以直接在任務(wù)腳本里導入本地/git 上的 SQL 腳本。在任務(wù)中無(wú)需重復編寫(xiě)任務(wù)腳本,可以將已經(jīng)開(kāi)發(fā)好的任務(wù)腳本上傳至資源中心,或者通過(guò)資源中心引用 git 倉庫中的腳本代碼,或在資源中心中直接開(kāi)發(fā)或共享的腳本文件,直接導入任務(wù)腳本中。
跨項目批量運維工作流:項目運維人員通常需要同時(shí)運維多個(gè)項目作業(yè),反復地切換項目查看工作流和任務(wù)運行實(shí)例進(jìn)行維護,影響使用體驗。新增了跨項目的功能后,用戶(hù)可以在統一視角,查看和處理自己權限范圍內的所有調度業(yè)務(wù)了,簡(jiǎn)化了用戶(hù)操作的同時(shí)提高了運維效率。
02 權限功能改造 根據此前客戶(hù)反饋權限功能的限制導致的不便,WhaleScheduler 2.4.5 進(jìn)行了權限功能的改造,以便客戶(hù)進(jìn)行權限管理。
新版本中,客戶(hù)可以按照項目來(lái)隔離角色權限,分為項目管理員、項目運維、項目開(kāi)發(fā)、項目訪(fǎng)客角色,結合資源管理給與不同人員不同權限。
03 增強導入、導出功能 此外,新版本還增強了導入、導出功能。如果不采用自動(dòng)化的 CI/CD 流程,WhaleScheduler 支持跨環(huán)境打包部署,主要用于工作的流的遷移工作,從環(huán)境 A 中導出(導入)到環(huán)境 B 中,通過(guò)該功能進(jìn)行快速打包或數據備份。
WhaleScheduler 此次版本升級將提高對用戶(hù)的支持能力,更好地賦能企業(yè)云化的數據處理和調度、數據快速獲取及企業(yè)整體云化數據資產(chǎn)的管理問(wèn)題,協(xié)助完成企業(yè)數字化升級的整體目標。