前言:
最近熱議的湖倉一體究竟是怎樣的技術(shù)? 什么又是實時分析處理?實時湖倉一體技術(shù)的逐步成熟,能給我們帶來怎樣的想象空間呢?
正文:
面對越來越復(fù)雜多變的市場,為了能在激烈競爭中保持優(yōu)勢,企業(yè)需要更及時的數(shù)據(jù)洞察和快速的反應(yīng)能力,構(gòu)建實時基礎(chǔ)設(shè)施成為數(shù)字化時代的企業(yè)必修課,現(xiàn)代技術(shù)棧正加速轉(zhuǎn)向支持實時化。
比如,Uber的實時基礎(chǔ)設(shè)施每天產(chǎn)生多個PB級的數(shù)據(jù)和數(shù)萬億條信息,這些數(shù)據(jù)持續(xù)不斷從Uber司機、乘客和其他用戶那里收集而來。Uber的移動應(yīng)用、內(nèi)部儀表盤、機器學習模型和臨時數(shù)據(jù)探索工具都有實時用例。而Netflix的實時基礎(chǔ)設(shè)施每天基本處理數(shù)十萬億次的事件。
伴隨著企業(yè)實時需求增多,新的數(shù)據(jù)技術(shù)概念也如雨后春筍般長了出來。比如近兩年火熱的實時數(shù)倉,豐富了實時數(shù)據(jù)處理的應(yīng)用場景,未來數(shù)據(jù)棧將會向著怎樣的趨勢發(fā)展?
今天,我們來對話偶數(shù)科技解決方案部總監(jiān)張立群,共同探討新技術(shù)、新趨勢、新應(yīng)用。
實時分析三大場景
技術(shù)的變革往往是因為業(yè)務(wù)的需求推動,反過來,變革后的技術(shù)也將促進業(yè)務(wù)創(chuàng)新增長。
目前,實時業(yè)務(wù)場景越來越多,比如運營層面的實時營銷,當日分時業(yè)務(wù)分析,千人千面的實時推薦頁面,金融領(lǐng)域的實時風控,生產(chǎn)層面的實時系統(tǒng)監(jiān)控等。而隨著5G等新技術(shù)發(fā)展,未來海量的實時數(shù)據(jù)處理需求只會更多。
張立群介紹,其實從技術(shù)角度來看,參照去年年底Gartner給出的定義,按照事件發(fā)生的時間先后順序,實時數(shù)據(jù)處理的需求可以分為實時流處理、實時按需分析、離線分析三類。
實時分析處理三大場景
其中,實時流處理,可以理解為連續(xù)實時處理,24小時不停采集數(shù)據(jù)和處理實時流數(shù)據(jù)。按需實時則是根據(jù)用戶不定時提出需求,能夠做到及時響應(yīng)?!昂唵胃爬▉碚f,實時數(shù)倉必須具備實時計算的能力。這里在數(shù)倉中進行的實時計算指的是面向?qū)崟r流數(shù)據(jù)和歷史數(shù)據(jù)相結(jié)合的按需實時處理,而非僅進行連續(xù)的實時處理。”張立群強調(diào),實際上,當用戶在業(yè)務(wù)中提出按需的實時數(shù)據(jù)處理需求時,不僅需要實時數(shù)據(jù)處理,也需要實時數(shù)據(jù)與歷史數(shù)據(jù)結(jié)合的實時處理,即需要按需的實時+離線分析,客戶要的不僅是T+0,而是T+X,這里的X包括從實時到幾秒,幾分鐘,幾個小時,幾天等。
張立群介紹,目前,單純的流計算引擎如Flink、Spark Streaming受限于處理的數(shù)據(jù)規(guī)模,只能做到連續(xù)的實時流處理,不具備按需實時處理的能力,按需實時只能在數(shù)倉中進行,這就要求實時數(shù)倉除了保存Flink、Spark Streaming實時處理的結(jié)果數(shù)據(jù),還需要自身具備高性能的按需實時處理能力。
實際上偶數(shù)科技的實時數(shù)倉并非單獨的數(shù)倉產(chǎn)品,而是一體化的云數(shù)據(jù)平臺——Skylab,該平臺擁有四大產(chǎn)品組件,包括云原生數(shù)據(jù)庫OushuDB、機器學習平臺LittleBoy、數(shù)據(jù)管理平臺Lava和數(shù)據(jù)分析與應(yīng)用平臺Kepler。通過ANCHOR六大特性比較,偶數(shù)Skylab具備了 All Data Types( 支持多類型數(shù)據(jù))、 Native on Cloud( 云原生)、 Consistency( 數(shù)據(jù)一致性)、 High Concurrency( 超高并發(fā))、 One Copy of Data( 一份數(shù)據(jù))、 Real-Time( 實時 T+0)。
對外服務(wù)時,可以根據(jù)用戶需求以新一代全實時數(shù)據(jù)處理架構(gòu)Omega組合應(yīng)用,比如將OushuDB與Lava結(jié)合起來就可以構(gòu)成一個基礎(chǔ)的實時湖倉方案,具有實時數(shù)倉能力。其中數(shù)據(jù)管理平臺Lava會集成Flink、Spark Streaming引擎。
據(jù)悉,Omega架構(gòu)融合了Lambda架構(gòu)和Kappa架構(gòu)處理流數(shù)據(jù)的優(yōu)勢,增加了實時按需智能和離線按需智能數(shù)據(jù)處理的能力,以及高效處理業(yè)務(wù)應(yīng)用系統(tǒng)獲取的可變更數(shù)據(jù)實時快照的能力。這使得偶數(shù)科技的實時數(shù)倉方案可以實現(xiàn)按需實時計算與按需離線批處理相結(jié)合。
張立群介紹,由于企業(yè)的IT系統(tǒng)都是分階段建設(shè),比如某企業(yè)先有了數(shù)倉,然后建設(shè)了大數(shù)據(jù)平臺,為了實時處理可能又在Hadoop基礎(chǔ)上建設(shè)了Flink計算引擎。目前大部分企業(yè)的技術(shù)棧還沒有形成體系化,依然處于割裂的狀態(tài)。不同的系統(tǒng)有各自的計算與存儲,傳統(tǒng)架構(gòu)下MPP橫向擴展能力弱,且計算與存儲不分離,Hadoop橫向擴展能力強,但是計算不支持橫向擴展,這些不足會成為海量數(shù)據(jù)爆發(fā)下實時分析處理的掣肘。OushuDB采用存算分離架構(gòu),并支持虛擬計算集群技術(shù),具有多租戶能力,由此打造的實時數(shù)倉方案可以實現(xiàn)彈性擴展,提高資源利用效率。
未來數(shù)據(jù)技術(shù)融合的原則
面對復(fù)雜多變的新業(yè)務(wù)場景,隨著數(shù)據(jù)技術(shù)不斷成熟,新的實時技術(shù)棧會出現(xiàn),數(shù)據(jù)技術(shù)也會經(jīng)歷分離與融合。目前,融合的趨勢比較明顯。如湖倉一體、實時數(shù)倉,將實時處理能力融入數(shù)據(jù)倉庫中。
那么湖倉一體與實時數(shù)倉有什么異同?
張立群介紹,原來的數(shù)據(jù)倉庫計算引擎的優(yōu)勢與數(shù)據(jù)湖的分布式存儲優(yōu)勢結(jié)合形成了新一代湖倉一體的數(shù)據(jù)平臺技術(shù),基于這種技術(shù)研發(fā)的產(chǎn)品同時具備了湖的分布式可擴展存儲能力和數(shù)據(jù)倉庫的高性能分析處理能力,而在湖倉一體的基礎(chǔ)上,添加流計算處理能力便形成了實時湖倉一體,實時湖倉一體本質(zhì)上還是湖倉一體,同時具備了實時計算能力,能更好的滿足業(yè)務(wù)應(yīng)用對海量數(shù)據(jù)高性能實時數(shù)據(jù)分析的需求。
天下大勢分久必合合久必分,張立群認為,數(shù)據(jù)平臺技術(shù)棧的建設(shè)應(yīng)該遵循三條基本原則:
一是,架構(gòu)層面要保持靈活開放,支持多種技術(shù)兼容性并存。目前,企業(yè)已經(jīng)部署了多個系統(tǒng),有自己的一套架構(gòu)體系,技術(shù)融合落地時需要最大化利用企業(yè)原有IT資產(chǎn),保護客戶投資。
二是,有效利用資源,降本增效。原來傳統(tǒng)的技術(shù)棧,所有資源參與計算,造成IT資源浪費。比如,云原生資源池化,可以實現(xiàn)資源隔離與動態(tài)管理,便于最大化利用資源。
三是,滿足更高的用戶體驗。從用戶角度來看,在技術(shù)條件具備的前提下,比如高性能、高并發(fā)、實時性更強,便具備了更強的信息加工能力,能夠在很短的時間內(nèi)滿足用戶各種各樣的數(shù)據(jù)服務(wù)需求,提升用戶體驗。
隨著實時分析場景日益增多,實時數(shù)倉等具備實時處理能力的產(chǎn)品與解決方案將會得到更廣泛的應(yīng)用。
用戶信賴,新銳準獨角獸脫穎而出
盡管OushuDB只是一個誕生5年的云數(shù)據(jù)庫,但OushuDB卻是由國內(nèi)頂尖工程師自主開發(fā),其研發(fā)團隊曾主導(dǎo)國際頂級的數(shù)據(jù)庫開源項目,符合國家信創(chuàng)標準。偶數(shù)科技作為一家新興的數(shù)據(jù)庫公司,自2017年誕生以來,作為微軟加速器和騰訊加速器成員企業(yè),已經(jīng)獲得世界頂級投資機構(gòu)紅杉中國、騰訊、紅點中國與金山云的四輪投資,并入選福布斯中國企業(yè)科技 50 強以及美國著名商業(yè)雜志《快公司》中國最佳創(chuàng)新公司 50 強。
除了OushuDB,偶數(shù)科技的實時湖倉一體解決方案還包含自動化機器學習平臺 LittleBoy 、數(shù)據(jù)分析與應(yīng)用平臺Kepler以及數(shù)據(jù)管理平臺 Lava等多個產(chǎn)品, 深厚的研發(fā)實力和優(yōu)秀的產(chǎn)品性能吸引了廣泛的知名用戶群,目前已在金融、電信、制造、公安、能源和互聯(lián)網(wǎng)等行業(yè)得到廣泛的部署和應(yīng)用。
(本內(nèi)容屬于網(wǎng)絡(luò)轉(zhuǎn)載,文中涉及圖片等內(nèi)容如有侵權(quán),請聯(lián)系編輯刪除。市場有風險,選擇需謹慎!此文僅供參考,不作買賣及投資依據(jù)。)
原創(chuàng)文章,作者:陳晨,如若轉(zhuǎn)載,請注明出處:http://m.2079x.cn/article/560128.html