從 Facebook 到阿里再到小質科技,王紹翾攜 ProtonBase 在全球數據庫市場”打怪升級”

當一位操盤過 Facebook 在線 Infra,阿里搜索數據和機器學習平臺,阿里云實時計算平臺,以及達摩院機器智能工程的技術領軍人,帶著 1 億美金融資與團隊殺入市場,數據庫行業(yè)的游戲規(guī)則注定要被顛覆。

2025 AICon 大會·上海站,小質科技 CEO 王紹翾在接受某知名媒體的采訪中首度介紹:團隊歷時 4 年打造的 ProtonBase 堪稱“六邊形戰(zhàn)士”。它既是一個支持行列混合存儲的分布式數據庫和實時數倉,實現了真正的實時 HTAP;同時也支持半結構化數據檢索、文本檢索和 OLAP 分析,讓數據可視化能力得到了質的提升。更為關鍵的是,它通過實時增量物化視圖技術取代了 Flink,重新定義了流批一體的計算范式;支持向量檢索,構建了 AI Agent 所需的完整數據底座;更打通了湖上數據的高效導入導出和外表查詢實現了湖倉一體。

這款產品不僅可以讓金融量化交易決策和風控系統(tǒng)實現“亞秒級決策”,又能在車聯(lián)網數百萬級高并發(fā)信號寫入的場景下,實現實時數據檢測的秒級分析。其技術突破的底層邏輯,源于對“未來應用只需一個 Data API 和一個 AI API”的精準預判,而 ProtonBase 已率先拿下“多模數據庫+AI 數據查詢入口”的生態(tài)船票。

這場從硅谷到阿里再到打造 ProtonBase 的技術革命,究竟隱藏著哪些顛覆行業(yè)的密碼?本文將深度解構其技術架構、場景落地與未來趨勢,揭開小質科技的進化邏輯。

Q1:首先感謝王老師來參加 AICon 大會上海站,請您做一下自我介紹。

王紹翾:大家好,我是王紹翾,在美國博士畢業(yè)后,加?了 Facebook 做在線 Infra,參與的項目包括 Memcache,RocksDB,以及 Facebook 自研的在線圖數據庫 TAO 等項目。

2015 年,我回國加入阿里,主要有兩段工作經歷,第一段在搜索事業(yè)部,負責搜索的數據和機器學習平臺;第二段在達摩院,負責整個機器智能工程,包括視覺/語音/NLP 等 AI 技術的模型訓練、推理、以及向量檢索技術。

2021 年,我離開阿里創(chuàng)建了小質科技,和團隊一起打造了核心產品 ProtonBase。因為之前的技術積累和團隊的口碑,我們得到諸多頭部基?的認可,順利融資近 1 億美金。目前,公司已經成立 4 年,服務了數十家客戶,產品歷經反復打磨和驗證,正處于商業(yè)化的全球擴張期。

Q2:?質科技的核心產品 ProtonBase,是多云原生、兼容 PostgreSQL 的分布式 Data Warebase。想請您分享?下,公司打造這款產品的初衷是什么?是基于怎樣的?業(yè)背景和痛點洞察,才決定研發(fā)這樣?款產品來解決行業(yè)問題的?

王紹翾:我們創(chuàng)業(yè)之初就預見到未來的所有應用服務都將主要建立在兩個 API 之上,一個是 Data API,一個是 AI API。

從 Facebook 到阿里再到小質科技,王紹翾攜 ProtonBase 在全球數據庫市場"打怪升級"

過去,Data API 的實現極為復雜,用戶若想搭建一個應用的底層,往往需要使用非常多數據系統(tǒng)。例如,數據庫橫向擴展可能采用 MongoDB 或 HBase,文本檢索使用 Elasticsearch,還可能需要向量檢索,分析型數據庫等。如此一來,用戶最終必然會面對 A、B、C、D、E 等諸多數據產品,硬件開銷以及運維和開發(fā)成本急劇上升。

ProtonBase 產品研發(fā)之初是想讓業(yè)務的架構回歸簡單(Simple),解決架構不得不從 A 到 B,從 B 到 C,從 C 到 D 不斷膨脹的問題。隨著產品面世之后,在與市場不斷磨合的過程中,我們發(fā)現 ProtonBase 最強的 PMF(產品與市場的匹配度)在于滿足那些對實時決策(Instant  Decision)有需求的業(yè)務,例如金融量化交易和風控、車聯(lián)網、以及數據可觀測性等場景,這些場景的數據既需要具備極高的端到端的實時性,同時也要支持在這些實時數據之上的高并發(fā)復雜查詢—— 而這正是 ProtonBase 的優(yōu)勢所在。

Q3:在 ProtonBase 的研發(fā)過程中遇到的最?技術挑戰(zhàn)是什么?團隊是如何突破這些難題,確保產品順利推進的?

王紹翾:挑戰(zhàn)非常多,因為要把 ProtonBase 打造成一個強大、統(tǒng)一的 Data API 平臺,必須具備五大核心能力:OLTP、文檔數據庫、文本檢索、向量檢索,以及 OLAP。

許多客戶會問我們:“你們是如何將這些本質上差異巨大的能力整合到一個系統(tǒng)中的?”其實,我們整個團隊經歷了數據庫,大數據,再到數據庫的時代,積累了大量的工程經驗。我們今天的產品其實就是集成了數據庫和大數據的最重要的三個能力,第一是存儲,第二是索引,第三是在高速存儲上做到數據庫級別的存算分離。

從 Facebook 到阿里再到小質科技,王紹翾攜 ProtonBase 在全球數據庫市場"打怪升級"

·存儲層:ProtonBase 支持數據的行存、列存以及行列混存;

·索引層:ProtonBase 實現了數據庫最重要的全局二級索引(Global Secondary Index),以及搜索所需要的倒排索引、向量索引、分析所需要的列存索引等等;

·存算分離:實現數據庫級別的存算分離的挑戰(zhàn)非常大。大數據的存算分離是基于公有云上高可用的對象存儲,而數據庫系統(tǒng)不能選用對象存儲,因為它需要更高的吞吐和更低的延遲。要做好一個實時或者近實時的數據庫級別的存算分離,難度和挑戰(zhàn)很大,但我們實現了。

Q4:企業(yè)在選擇一款數據庫產品時要考慮的因素很多,ProtonBase 最優(yōu)勢的場景是什么,在哪些技術場景下,企業(yè)適合考慮使? ProtonBase?

王紹翾:ProtonBase 在數據 Data API 上,幾乎實現了中間層的所有功能,但我們并不希望客戶將 ProtonBase 僅用于單一模式,更希望把它視為多模數據庫,發(fā)揮出 1+1>2 的化學效果。目前我們至少在三個方向上看到了這種因為多模的能力帶來的 1+1>2 的場景。

一是真正的 HTAP 場景。如果一個數據系統(tǒng)僅將 Transaction Data 存放在 OLTP 數據庫,再將數據同步到 OLAP 數據庫去做報表業(yè)務,那并非真正的 HTAP。真正的 HTAP 首先要實現寫入即可見(OLTP 和 OLAP 的查詢),其次要支持較為復雜的偏分析類查詢,且查詢吞吐較高,我們將這種場景稱為真正的 HTAP,例如金融量化交易。

從 Facebook 到阿里再到小質科技,王紹翾攜 ProtonBase 在全球數據庫市場"打怪升級"

二是可觀測性和實時數倉場景。我們發(fā)現一個有意思的事情,數倉并不等同于 OLAP,越來越多的場景在數倉上提出了對數據庫能力的需求。例如,用戶在做 OLAP 分析后發(fā)現了一些規(guī)律,就想去查看明細數據,按某些主鍵 PK 進行全部數據召回,甚至有時不僅需要對 PK 進行過濾召回,還需對非 PK 的主鍵進行過濾召回。此時,就需要 OLTP 數據庫的全局二級索引的能力——而這是所有 OLAP 引擎所不具備的。

第三是 AI Agent 場景。因為 AI Agent 背后需要對接 MCP(Model Context Protocol ),假設一家公司有多個服務和數據系統(tǒng),當把數據存在 3~5 個數據系統(tǒng)之上,就會有 3~5 個 MCP,大模型想去對接 MCP 做一些決策的時候就非常復雜。用一個數據庫,一個 MCP 服務,可以大幅降低 LLM 的負擔和推理復雜度。所以 Agent  天然期望用一個多模數據庫來?持業(yè)務。

所以,真正的 HTAP、可觀測性+實時數倉、以及 AI Agent 這三個大場景,非常適合使用 ProtonBase 這種多模數據庫。在這些場景下,企業(yè)可以借助 ProtonBase 多模融合、實時響應、高并發(fā)查詢的能力,獲得遠超傳統(tǒng)架構所帶來的業(yè)務回報。

Q5:從 2021 年成立至今,小質科技的客戶已經涵蓋金融、電商、?聯(lián)網與物聯(lián)網、制造、游戲、廣告、快消、教育等行業(yè)。能否簡單介紹下這些行業(yè)是怎么使用 ProtonBase 的,并從中挑選一兩個最具代表性的客戶案例,詳細分享一下合作過程、解決的問題以及最終取得的成效?

王紹翾:經過 4 年發(fā)展,公司已服務幾十個客戶,我們始終聚焦于最能發(fā)揮 ProtonBase 產品特性的場景去打磨與落地。我們有兩個核心 PMF:

第一類 PMF:秒級 Freshness + 高吞吐 Instant Decision(也就是我上面提到的真正的 HTAP)。具體應用包括:

·金融場景:金融行情的量化分析和交易、金融的反作弊;

·廣告/推薦系統(tǒng):廣告/推薦決策算法復雜且吞吐高,全鏈路越實時越有效;

·車聯(lián)網與 IOT:車機數據每秒更新,需即時進行規(guī)則匹配和安全分析。

第二類 PMF:Simplicity,有些應用期望數據庫天然具備 Hybrid 的能力。例如 AI Agent 場景中,系統(tǒng)希望直接對接一個統(tǒng)一的數據接口 MCP,所以 All-in-One 的多模數據庫是非常適合于 AI Agent 的,另外在可觀測性的場景下也越來越需要數據庫要具有 Hybrid 的能力。

從 Facebook 到阿里再到小質科技,王紹翾攜 ProtonBase 在全球數據庫市場"打怪升級"

下面我們挑選兩個最具代表性的落地案例,分別來自金融和車聯(lián)網行業(yè),幫助大家具體理解 ProtonBase 的實際價值:

【案例一】金融客戶:支撐秒級實時決策的 AI 交易系統(tǒng)

這家客戶來自金融證券行業(yè),需求非常典型:整個交易行情數據需要非常實時的寫入數據庫系統(tǒng),寫入即可見,然后有大量的交易者或者分析師甚至 AI,對這些實時的數據做復雜的分析,然后做交易決策,所有過程都需要在幾秒內甚至亞秒級完成(AI Trading)。同時,這個客戶內部有很多數據需要做可觀測透出,他們最早使用的是 TSDB 這一類時序數據庫,但是 TSDB 不支持 update ,客戶轉而使用 Elasticsearch / ClickHouse 這些 OLAP 系統(tǒng),但是這些系統(tǒng)不能很好地支持復雜查詢,在冷熱分離和彈性方面也有諸多詬病。最終這家金融客戶選用了 ProtonBase。

【案例二】車聯(lián)網客戶:支撐數百萬輛車并發(fā)的實時異常檢測系統(tǒng)

該客戶是頭部車企,該車企每輛車每秒上傳更新很多車機信號,需要系統(tǒng)快速應用各種規(guī)則分析數據,檢測是否存在軟件更新故障或其他突發(fā)問題。檢測出問題后,需要立即按照某些特定列值召回某輛車或某批車的某些數值,這就天然形成了一個對 OLTP 和 OLAP 要求極高的場景。最終這家公司也是選用了 ProtonBase。

Q6:ProtonBase 作為?款基于 Data Warebase 理念的產品,既是?個數據庫,也是?個數倉,還?持數據實時加?計算和數據湖上的查詢加速計算。那么它和 HTAP、流批?體、以及湖倉?體架構的關聯(lián)和區(qū)別是什么?

王紹翾:很多人都會問到類似的問題。簡單來說,ProtonBase 用創(chuàng)新性的架構和實現,解決了數據庫和大數據領域詬病已久的諸多問題,能力覆蓋了 HTAP、流批一體、湖倉一體等若干多模場景。客戶對數據產品的需求往往只需要使用 ProtonBase 這一款產品就夠了。

Data Warebase 與 HTAP 的區(qū)別

首先 HTAP 不是一個數據庫的概念,因為 SQL 天然就是一種既能支持 OLTP,也能支持 OLAP 的語言,但當數據量變大、系統(tǒng)負載變復雜時,很多系統(tǒng)不得不在兩者間做取舍。這也是傳統(tǒng)數據庫和數倉系統(tǒng)割裂的根源。所以 HTAP 要求的是一個系統(tǒng)能同時在 OLTP 和 OLAP 這兩個場景下都擁有很好的寫入和查詢的性能。ProtonBase 作為一個 Data Warebase,既是 Database 也是 Data Warehouse,所以天然就能滿足 HTAP 這個場景。

但是光有 HTAP 是不夠的,未來是一個多模數據庫的時代,首先要有很好的 OLTP 和 OLAP 的能力和性能,其次要支持實時增量物化視圖做數據的 Instant Transform、文本搜索、向量搜索、文檔數據存儲和查詢,甚至還要支持對湖上數據的查詢,因此我們提出了 Data Warebase 的概念,它是 Database+Data Warehouse 的合集,是未來多模數據庫的一個新范式。

Data Warebase 與流批一體的區(qū)別

從 Facebook 到阿里再到小質科技,王紹翾攜 ProtonBase 在全球數據庫市場"打怪升級"

流批一體這個概念其實最早就是我們提出的。2015 年我加入淘寶的時候負責商品搜索的數據加工,當時很多商品的屬性和指標是非實時的,我們引入 Flink 解決了數據實時性的問題,還用 Flink 的 Batch 能力解決了批計算問題,在那個場景下將實時增量計算和批計算做到了計算引擎和 SQL 的統(tǒng)一,初步實現了流批一體化。

但這并不是最優(yōu)的架構,因為 Flink 的運維和成本比較高,我們認為物化視圖是解決流批一體的最佳方案,用戶可以根據對每個物化視圖的 freshness 需要來決定它們的刷新頻率。這樣就完美地實現了實時、近實時、以及 T+1 離線計算的 SQL 與引擎的統(tǒng)一,且運維和開發(fā)的易用性極好。

可惜的是,當前大部分的數據庫或數據倉庫提供的物化視圖都不支持增量刷新,導致實時刷新物化視圖的成本很高。ProtonBase 投入大量精力實現了物化視圖的增量刷新,成功打造了一款性價比極致的流批一體計算引擎。

Data Warebase 與湖倉一體的區(qū)別

按照我的理解,湖倉一體只需要滿足兩個條件:第一是要打通數據倉庫和數據湖兩套體系,讓數據和計算在湖與倉之間自由流動;第二是數據倉庫能夠對接標準的湖存儲,做外表的查詢、計算和寫入。ProtonBase 支持 Iceberg,Delta Lake,以及 Hive (ORC/Parquet)等主流湖存儲的互聯(lián)互通和外表查詢,這意味著 Data Warebase 同時也是支持湖倉一體的數據引擎。

Q7:隨著 AI 技術的?速發(fā)展,數據與 AI 的融合越來越緊密,這將為企業(yè)數據管理和應用帶來全新的變革。在 AI 時代,您還洞察到企業(yè)對數據庫和大數據的需求有哪些變動?

王紹翾:我分享兩個觀察,一是在數據庫領域,PostgreSQL 會變成非常主流的數據庫。首先全球幾乎所有的新興數據庫都是基于 PostgreSQL  API 的。包括被 Databricks 收購的 Neon、被 Snowflake 收購的 Crunchy Data、剛融資的 Supabase、以及最近爆火的 DuckDB、還有 CockroachDB、Yugabyte 等新型分布式數據庫公司,無一例外的都選擇了 PostgreSQL 作為查詢 API。所有的 AI 公司也幾乎無一例外都選用了 PostgreSQL,如 OpenAI、Cursor、Notion、Perplexity、Anthropic 等。

從 Facebook 到阿里再到小質科技,王紹翾攜 ProtonBase 在全球數據庫市場"打怪升級"

大家選擇 PostgreSQL 的原因很簡單, PostgreSQL 非常標準且擁有強大的 Extension,一套 API 幾乎定義了 Data API 所需要的所有能力:OLTP、OLAP、 JSON、GIS、全文檢索、向量檢索。這正是 AI 時代應用和 Agent 所需要的終極 All-In-One 數據庫解決方案。ProtonBase 從創(chuàng)立之初就預見到這個趨勢,并基于 PostgreSQL API 構建,提前布局 AI 時代的標準接口。OpenAI o1 發(fā)布之后 AI 的 reasoning 變得非常強大,加上 Anthropic 提出 MCP 的規(guī)范后,使得 language to SQL 成為可能。在 ProtonBase 上使用 PG 標準的 MCP 再配合強大的 AI 模型就可以直接實現很豐富的 language to SQL 的應用場景。

二是在大數據領域,未來數據湖的標準是 Iceberg。我們看到世界上兩個最大的數據巨頭 ,一個是 Snowflake,主推的是 Iceberg ,另一個是 Databricks,以前主推 Delta Lake ,后來收購了 Apache Iceberg 背后的公司 Tabular。所以我們可以預見到未來企業(yè)的數據湖基本都會圍繞著 Iceberg 構建,ProtonBase 也很好地對接了 Iceberg 數據湖,完善了湖倉一體的能力。

Q8:創(chuàng)業(yè) 4 年,您對其他 AI 和數據的同行或者創(chuàng)業(yè)者有哪些建議分享?

王紹翾:一路走來還是學到很多,邊做邊學。有幾個感觸最深的點:

第一點就是需要想清楚作為創(chuàng)業(yè)公司自己的產品 PMF 是什么?客戶是誰?如何賣給客戶?在這個過程中你的產品能力一定要在這個領域最好是第一,最差也要在前三。ToB 是 Value Selling(價值銷售)和 Solution Selling(解決方案銷售),對一家創(chuàng)業(yè)公司而言,想清楚自己產品的 PMF 和打造好產品的競爭力至關重要。

其次,前期要專注于服務大客戶。因為大客戶的挑戰(zhàn)和場景非常多且復雜,他們往往代表了其所在行業(yè)最大的挑戰(zhàn),如果能解決好大客戶的問題,也會極大提升你在此行業(yè)中的影響力和公信力。

最后就是 ToB 業(yè)務繞不開的話題:全球化和出海。這是一個必選項,中國有大量卓越的軟件工程師能夠做出世界一流的產品,我們需要把這些產品和能力輸出,在全球做生意,把利潤帶回來, “Made in China,Sold Global” 是我們這代人的使命。

本文轉載自:,不代表科技訊之立場。原文鏈接:http://show.wolaioa.com.cn/preview/LlFy7buLe4wm1XMskoo00o8MAw.html

陳晨陳晨管理團隊

相關推薦

發(fā)表回復

登錄后才能評論