湖倉一體方案有很多,為何偶數(shù)的實(shí)時(shí)湖倉脫穎而出?

近十余年,移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展給互聯(lián)網(wǎng)用戶提供了更便捷的服務(wù)途徑,不管是在地鐵、飯店還是室外,用戶都可以隨時(shí)通過手機(jī)、pad等移動(dòng)設(shè)備連接到高速的移動(dòng)網(wǎng)絡(luò),實(shí)現(xiàn)購物、社交、商務(wù)會(huì)議等各種網(wǎng)絡(luò)服務(wù)。與此

十余年,移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展給互聯(lián)網(wǎng)用戶提供了更便捷的服務(wù)途徑,不管是在地鐵、飯店還是室外,用戶都可以隨時(shí)通過手機(jī)、pad等移動(dòng)設(shè)備連接到高速的移動(dòng)網(wǎng)絡(luò),實(shí)現(xiàn)購物、社交、商務(wù)會(huì)議等各種網(wǎng)絡(luò)服務(wù)。與此同時(shí),用戶源源不斷的產(chǎn)生和獲取大量的數(shù)據(jù),使得數(shù)據(jù)流量呈現(xiàn)爆炸式的增長,不論是互聯(lián)網(wǎng)巨頭、零售、政府、金融等行業(yè),在海量數(shù)據(jù)的存儲(chǔ)、查詢和分析場景,都需要一個(gè)能承載多種數(shù)據(jù),支持超高并發(fā)、易擴(kuò)容、易維護(hù)的實(shí)時(shí)湖倉。

那么,最熱議的湖倉一體究竟是怎樣的技術(shù)?什么又是實(shí)時(shí)分析處理?實(shí)時(shí)湖倉一體技術(shù)的逐步成熟,能給我們帶來怎樣的想象空間呢?

大勢所趨,云原生實(shí)時(shí)湖倉一體

傳統(tǒng)關(guān)系型數(shù)據(jù)庫的技術(shù)架構(gòu),尤其是 OLTP 數(shù)據(jù)庫在海量數(shù)據(jù)的存儲(chǔ)、查閱以及分析方面出現(xiàn)了明顯的性能瓶頸。隨著分布式技術(shù)的產(chǎn)生和發(fā)展,出現(xiàn)了以 Teradata 為代表的基于專有硬件的MPP數(shù)據(jù)庫,以及 Greenplum 和 Vertica 等基于普通服務(wù)器的 MPP 數(shù)據(jù)庫。

在21世紀(jì)的前十年,大量企業(yè)開始采用MPP驅(qū)動(dòng)的新型數(shù)據(jù)庫系統(tǒng),MPP解決了單個(gè)SQL數(shù)據(jù)庫不能存放海量數(shù)據(jù)的問題,分析型MPP數(shù)據(jù)庫的激增和成本下降也為數(shù)據(jù)驅(qū)動(dòng)型組織提供了巨大的機(jī)會(huì)來運(yùn)營和分析比以往更大的數(shù)據(jù)集,但與此同時(shí),數(shù)據(jù)的快速增長也為固有體系帶來額外的復(fù)雜性,MPP數(shù)據(jù)庫在集群規(guī)模上是有限制的,它所支持的應(yīng)用主要還是適合小集群、低并發(fā)的場景。

2010年前后,大數(shù)據(jù)熱推動(dòng) Hadoop 技術(shù)快速普及,逐步形成了以Hadoop作為數(shù)據(jù)湖,MPP作為數(shù)據(jù)倉庫的協(xié)作模式。這個(gè)階段的 Hadoop+MPP 協(xié)作模式,也是“湖倉分體”模式。它讓湖和倉有很好的技術(shù)特性互補(bǔ),但是它也會(huì)產(chǎn)生嚴(yán)重的數(shù)據(jù)孤島問題:同一份數(shù)據(jù)在多個(gè)集群冗余存儲(chǔ),分體模式下的湖和倉各自形成數(shù)據(jù)孤島;數(shù)據(jù)達(dá)到PB 級(jí)別時(shí), Hadoop 和 MPP 集群規(guī)模受限,Hadoop和MPP本身也需要拆成多個(gè)集群;在面對(duì)高并發(fā)數(shù)據(jù)查詢時(shí),易造成業(yè)務(wù)應(yīng)用崩潰。另外,湖+倉帶來的復(fù)雜的實(shí)施和運(yùn)維問題更讓從業(yè)者頭疼不已。

為了保證存儲(chǔ)和計(jì)算可以獨(dú)立的彈性擴(kuò)展和伸縮,數(shù)據(jù)臺(tái)的設(shè)計(jì)出現(xiàn)了一個(gè)嶄新的架構(gòu),即存算分離架構(gòu)。顯然,傳統(tǒng) MPP 和 Hadoop 都不適應(yīng)這樣的要求。MPP 數(shù)據(jù)庫存算耦合,而 Hadoop 不得不通過計(jì)算和存儲(chǔ)部署在同一物理集群拉計(jì)算與數(shù)據(jù)的距離提高性能,僅在同一集群下構(gòu)成邏輯存算分離。要真正的解決業(yè)務(wù)的痛點(diǎn),選擇企業(yè)適合的湖倉產(chǎn)品,我們可以參考ANCHOR 標(biāo)準(zhǔn)來選型。ANCHOR 中文譯為錨點(diǎn)、頂梁柱,或?qū)⒊蔀楹}一體浪潮下的定海神針。ANCHOR 具有六大特性,其 6 個(gè)字母分別代表:All Data Types(支持多類型數(shù)據(jù))、Native  on Cloud(云原生)、Consistency(數(shù)據(jù)一致性)、High Concurrency (超高并發(fā))、One Copy of Data(一份數(shù)據(jù))、Real-Time(實(shí)時(shí) T+0)。通過使用 ANCHOR 六大特性,很容易判斷出某一系統(tǒng)設(shè)計(jì)是否真正滿足湖倉一體。

湖倉一體方案有很多,為何偶數(shù)的實(shí)時(shí)湖倉脫穎而出?

OushuDB與美國 Snowflake,Databricks這一代產(chǎn)品突破了傳統(tǒng) MPP 和 Hadoop 的局限性,率先實(shí)現(xiàn)了存算完全分離,計(jì)算和存儲(chǔ)可部署在不同物理集群,并通過虛擬計(jì)算集群技術(shù)實(shí)現(xiàn)了高并發(fā),同時(shí)保障事務(wù)支持,成為湖倉一體實(shí)現(xiàn)的關(guān)鍵技術(shù)。

全新框架,Omega全實(shí)時(shí)框架實(shí)現(xiàn)T+0

目前,實(shí)時(shí)處理有兩種典型的架構(gòu):Lambda 和 Kappa 架構(gòu)。出于歷史原因,這兩種架構(gòu)的產(chǎn)生和發(fā)展都具有一定局限性。

其中, Lambda 架構(gòu)由于實(shí)時(shí)數(shù)據(jù)和T+1數(shù)據(jù)走不同計(jì)算和存儲(chǔ),難保障數(shù)據(jù)的一致性,Kappa 依賴 Kafka 等消息隊(duì)列來保存所有歷史,難以實(shí)現(xiàn)更新、糾錯(cuò),故障升級(jí)周期長,并且不具備即席查詢數(shù)據(jù),架構(gòu)實(shí)際落地困難。同時(shí)兩個(gè)架構(gòu)又都很難處理可變更數(shù)據(jù)(如關(guān)系數(shù)據(jù)庫中不停變化的實(shí)時(shí)數(shù)據(jù)),即便引入流處理引擎實(shí)現(xiàn)了部分固定模式的實(shí)時(shí)流處理分析,仍無達(dá)到 T+0 全實(shí)時(shí)水(此處全實(shí)時(shí)包含實(shí)時(shí)流處理和實(shí)時(shí)按需查詢)。因此,我們需要一種新的架構(gòu)滿足企業(yè)實(shí)時(shí)分析的全部需求,這就是基于偶數(shù)科技自主研發(fā)的云原生數(shù)據(jù)庫OushuDB的Omega 全實(shí)時(shí)架構(gòu)。

Omega 架構(gòu)由流數(shù)據(jù)處理系統(tǒng)和實(shí)時(shí)數(shù)倉構(gòu)成。相比 Lambda 和 Kappa,Omega 架構(gòu)新引入了實(shí)時(shí)數(shù)倉和快照視圖 (Snapshot View) 的概念,快照視圖是歸集了可變更數(shù)據(jù)源和不可變更數(shù)據(jù)源后形成的 T+0 實(shí)時(shí)快照,可以理解為所有數(shù)據(jù)源在實(shí)時(shí)數(shù)倉中的鏡像和歷史,隨著源庫的變化實(shí)時(shí)變化。因此,實(shí)時(shí)查詢可以通過存儲(chǔ)于實(shí)時(shí)數(shù)倉的快照視圖得以實(shí)現(xiàn)。另外,任意時(shí)間點(diǎn)的歷史數(shù)據(jù)都可以通過 T+0 快照得到,這樣離線查詢可以在實(shí)時(shí)數(shù)倉中完成,離線查詢結(jié)果可以包含最新的實(shí)時(shí)數(shù)據(jù),完全不再需要通過 MPP+Hadoop 組合來處理離線跑批及分析查詢。

湖倉一體方案有很多,為何偶數(shù)的實(shí)時(shí)湖倉脫穎而出?

Omega 架構(gòu)邏輯圖

偶數(shù)流處理系統(tǒng)WASP既可以實(shí)現(xiàn)實(shí)時(shí)連續(xù)的流處理,也可以實(shí)現(xiàn) Kappa 架構(gòu)中的批流一體,但與 Kappa 架構(gòu)不同的是,OushuDB 實(shí)時(shí)數(shù)倉存儲(chǔ)來自 Kafka 的全部歷史數(shù)據(jù),而在 Kappa 架構(gòu)中源端采集后通常存儲(chǔ)在 Kafka 中。

因此,當(dāng)需要流處理版本變更的時(shí)候,流處理引擎不再需要訪問 Kafka,而是訪問實(shí)時(shí)數(shù)倉 OushuDB 獲得所有歷史數(shù)據(jù),規(guī)避了 Kafka 難以實(shí)現(xiàn)數(shù)據(jù)更新和糾錯(cuò)的問題,大幅提高效率。此外,整個(gè)服務(wù)層也可以在實(shí)時(shí)數(shù)倉中實(shí)現(xiàn),而無需額外引入 MySQL、HBase 等組件,極大簡化了數(shù)據(jù)架構(gòu)。

在 Omega 全實(shí)時(shí)架構(gòu)的加持下,偶數(shù)率先實(shí)現(xiàn)了具備實(shí)時(shí)能力的湖倉一體,即實(shí)時(shí)湖倉。實(shí)時(shí)湖倉統(tǒng)一了湖倉市(數(shù)據(jù)湖、數(shù)倉、集市),避免數(shù)據(jù)孤島的同時(shí),極大提升了企業(yè)實(shí)時(shí)數(shù)據(jù)分析能力,讓企業(yè)在快速更迭的商業(yè)環(huán)境中立于不敗之地。

湖倉一體方案有很多,為何偶數(shù)的實(shí)時(shí)湖倉脫穎而出?

Lambda、Kappa 與 Omega 架構(gòu)比較

數(shù)據(jù)說話,高性能OushuDB為企業(yè)保駕護(hù)航

一個(gè)新的Omega架構(gòu)來實(shí)現(xiàn)實(shí)時(shí)湖倉,確實(shí)會(huì)令整個(gè)行業(yè)眼前一亮,但其性能究竟如何,與市面常見數(shù)據(jù)庫產(chǎn)品的性能相比,是否能交出滿意的答卷呢?

為了更直觀的比較OushuDB的查詢能力,我們用標(biāo)準(zhǔn)TPC-H來對(duì)OushuDB和其他知名的MPP數(shù)據(jù)庫產(chǎn)品Greenplum、ClickHouse進(jìn)行測試。TPC-H是美國交易處理效能委員會(huì)組織制定的用來模擬決策支持類應(yīng)用的一個(gè)測試集,目前在學(xué)術(shù)界和工業(yè)界普遍采用它來評(píng)價(jià)數(shù)據(jù)查詢處理能力。我們主要的評(píng)價(jià)指標(biāo)是TPC-H包的22 個(gè)查詢(Q1~Q22)各個(gè)查詢的響應(yīng)時(shí)間,即從提交查詢到結(jié)果返回所需時(shí)間,我們分別對(duì)不同臺(tái)進(jìn)行單節(jié)點(diǎn)使用Scale為100的數(shù)據(jù)集進(jìn)行測試。測試結(jié)果顯示,OushuDB和Greenplum支持全面支持 TPC-H 的 22 條查詢語句,ClickHouse 只支持其中的部分語句;在性能方面,OushuDB表現(xiàn)優(yōu)秀,體性能在ClickHouse和Greenplum的5倍左右,很多查詢時(shí)間快一個(gè)數(shù)量級(jí)以上。

湖倉一體方案有很多,為何偶數(shù)的實(shí)時(shí)湖倉脫穎而出?

用戶信賴,新銳準(zhǔn)獨(dú)角獸脫穎而出

盡管OushuDB只是一個(gè)誕生5年的云數(shù)據(jù)庫,但OushuDB卻是由國內(nèi)頂尖工程師自主開發(fā),其研發(fā)團(tuán)隊(duì)曾主導(dǎo)國際頂級(jí)的數(shù)據(jù)庫開源項(xiàng)目,符合國家信創(chuàng)標(biāo)準(zhǔn)。偶數(shù)科技作為一家新興的數(shù)據(jù)庫公司,自2017年誕生以來,作為軟加速器和騰訊加速器成員企業(yè),已經(jīng)獲得世界頂級(jí)投資機(jī)構(gòu)紅杉中國、騰訊、紅點(diǎn)中國與金山云的四輪投資,并入選福布斯中國企業(yè)科技 50 強(qiáng)以及美國著名商業(yè)雜志《快公司》中國最佳創(chuàng)新公司 50 強(qiáng)。除了OushuDB,偶數(shù)科技的實(shí)時(shí)湖倉一體解決方案還包含自動(dòng)化機(jī)器學(xué)習(xí)臺(tái) LittleBoy 、數(shù)據(jù)分析與應(yīng)用臺(tái)Kepler以及數(shù)據(jù)管理臺(tái) Lava等多個(gè)產(chǎn)品, 深厚的研發(fā)實(shí)力和優(yōu)秀的產(chǎn)品性能吸引了廣泛的知名用戶群,目前已在金融、電信、制造、公安、能源和互聯(lián)網(wǎng)等行業(yè)得到廣泛的部署和應(yīng)用。

湖倉一體方案有很多,為何偶數(shù)的實(shí)時(shí)湖倉脫穎而出?

(本內(nèi)容屬于網(wǎng)絡(luò)轉(zhuǎn)載,文中涉及圖片等內(nèi)容如有侵權(quán),請(qǐng)聯(lián)系編輯刪除。市場有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣及投資依據(jù)。)

原創(chuàng)文章,作者:陳晨,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.2079x.cn/article/558984.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦