因為優(yōu)秀的表達能力、靈活的分析能力,圖技術正在成為當下數(shù)據(jù)分析領域最熱的技術之一。
知名研究機構Gartner最新報告預計,到2025年,圖技術將用于80%的數(shù)據(jù)分析創(chuàng)新,進一步促進企業(yè)的運營決策。但在去年底,這個數(shù)值僅有10%。
也有相關數(shù)據(jù)顯示,截至2025年,包括圖數(shù)據(jù)庫管理系統(tǒng)(DBMS)在內(nèi)的圖技術市場將增長到32億美元,復合年增長率為28.1%。目前,大型傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)供應商和初創(chuàng)公司都在瞄準這個極具爆發(fā)潛力的賽道。
(資料圖片)
與此同時,諸多嗅覺敏銳的投資機構對這一領域也在加速布局。在國外市場,去年,國際知名的圖數(shù)據(jù)庫公司Neo4j宣布,完成由Eurazeo領投、GV(原Google Ventures)參投的3.25億美元F輪股權融資,創(chuàng)下圖數(shù)據(jù)庫與圖計算賽道的最大單筆股權融資。美國圖數(shù)據(jù)庫廠商TigerGraph也在2021年完成了自己C輪1.05億美金的融資。
在國內(nèi)市場,投資機構也正在緊密地布局包括圖數(shù)據(jù)庫在內(nèi)的整個數(shù)據(jù)庫領域,2021年,獲得新一輪融資的數(shù)據(jù)庫企業(yè)超過了20家,一些頭部基金投資的數(shù)量超過了3家。
今年初,國內(nèi)圖計算頭部企業(yè)海致科技完成由中國互聯(lián)網(wǎng)投資基金領投,上海人工智能產(chǎn)業(yè)投資基金、高瓴創(chuàng)投、君聯(lián)資本、微村智科、一村資本、億宸資本、禾其資本跟投的超過5億元的D輪融資。
在此之前,海致科技完成多輪融資,投資方包括BAI資本、高瓴創(chuàng)投、君聯(lián)資本等知名投資機構。
在投資行業(yè)人士看來,持續(xù)加碼圖數(shù)據(jù)庫賽道投資,除了賽道本身的高爆發(fā)潛力,另一個重要原因是行業(yè)競爭格局未定,而該賽道本身的龐大市場空間,能夠支撐出現(xiàn)多家獨角獸企業(yè)。
技術:超越關系型數(shù)據(jù)庫
近年,圖數(shù)據(jù)庫和圖計算技術高速發(fā)展,其在復雜場景的計算速度,較傳統(tǒng)關系型數(shù)據(jù)庫有著指數(shù)級提升。
相比關系型數(shù)據(jù)庫,圖數(shù)據(jù)庫更能實現(xiàn)對真實世界的完整描摹——以圖的方式進行建模,能更好地表達萬事萬物之間的關系。
“某種程度而言,圖數(shù)據(jù)庫是知識圖譜的一大核心技術環(huán)節(jié),尤其是高性能圖數(shù)據(jù)庫,可以支持更大范圍的實時應用場景,包括萬億級大圖查詢,對金融領域高頻交易、工業(yè)互聯(lián)網(wǎng)產(chǎn)效提升、能源領域電碳實時測算等應用場景都能提供強有力的支撐?!焙V驴萍技瘓F總裁楊娟在接受本報記者采訪時表示。
在大數(shù)據(jù)時代,越來越多企業(yè)發(fā)現(xiàn),原先的關系型數(shù)據(jù)庫雖然簡潔易理解,但它未必能全面真實地展現(xiàn)“現(xiàn)實世界”的描述。
以金融領域反洗錢為例,隨著互聯(lián)網(wǎng)技術發(fā)展與支付電子化,洗錢活動正變得更加專業(yè)復雜隱蔽。在關系型數(shù)據(jù)庫有時對涉嫌洗錢行為的展示不夠直觀,難以甄別潛在的其他洗錢資金流向關系。
因此,越來越多全球銀行正構建基于圖數(shù)據(jù)庫與知識圖譜的反洗錢監(jiān)測應用平臺,通過覆蓋千萬級別節(jié)點和億級關系,建立反洗錢客戶關系網(wǎng)絡,融合可疑交易特征和全量交易登錄流水,以網(wǎng)絡圖譜方式動態(tài)展現(xiàn)資金流轉(zhuǎn)全貌,完整準確展現(xiàn)團伙共用設備關系、賬戶資金分層結構和流向軌跡。如此,銀行風控團隊也能通過圖的異常形態(tài)識別與人工智能圖算法構建有效預警模型,從廣大客群里“抓到”涉嫌洗錢團伙。
不僅是金融領域,全球工業(yè)制造,交通、能源、政府部門等各個領域都對圖數(shù)據(jù)庫技術的使用需求日益旺盛,而越來越多圖數(shù)據(jù)庫研發(fā)商通過將圖算法和機器學習融合在一起,投射到各類業(yè)務場景,這項技術在金融、工業(yè)制造、能源、交通、醫(yī)療等領域得到迅猛發(fā)展。
然而,由于不同行業(yè)的數(shù)據(jù)來源與數(shù)據(jù)結構差別很大,如何通過圖數(shù)據(jù)庫、圖計算等技術實現(xiàn)知識圖譜升級迭代并構建多模態(tài)知識圖譜,正成為新的挑戰(zhàn)。
楊娟告訴記者,金融與政府行業(yè)的數(shù)據(jù)相對而言更具結構化特點,但能源、工業(yè)制造等行業(yè)有大量非結構化數(shù)據(jù),比如文本、音頻、視頻、設備數(shù)據(jù)。這都需要圖數(shù)據(jù)庫研發(fā)商不斷加大研發(fā)投入升級多模態(tài)知識圖譜技術,致力于提升多模態(tài)知識數(shù)據(jù)的匯聚、檢索、問答、模型訓練、知識抽取、圖譜構建與價值挖掘能力。
“我們的解決方案是采取底層技術與行業(yè)應用相隔離的策略,即產(chǎn)品是分層的,底下會有一個通用平臺層,即各個行業(yè)都通用的技術組件,在這個平臺層上,有不同行業(yè)團隊去構建針對每個行業(yè)的場景和模型,與各個行業(yè)相匹配?!睏罹暾f。
市場:
國內(nèi)企業(yè)的超車機會
在關系型數(shù)據(jù)庫領域,國外企業(yè)如Oracle、DB2因先發(fā)優(yōu)勢而具有較大優(yōu)勢,令國產(chǎn)關系型數(shù)據(jù)庫行業(yè)的追趕周期相對較長。相比而言,圖計算技術比較新,且國內(nèi)外技術差距不大,令國內(nèi)圖數(shù)據(jù)庫領域的追趕能力更強。
楊娟告訴記者,“盡管現(xiàn)在海外圖數(shù)據(jù)庫產(chǎn)品在國內(nèi)占據(jù)較高市場份額,但國內(nèi)相關產(chǎn)品正迅速興起,且在某些技術環(huán)節(jié)具備較強競爭力?!?/p>
她分析指出:首先,多數(shù)海外圖數(shù)據(jù)庫產(chǎn)品仍是單機為主的技術架構,在分布式領域技術架構未必完善,無法在分布式環(huán)境下實現(xiàn)擴容,但國內(nèi)眾多圖數(shù)據(jù)庫研發(fā)平臺基于云計算的分布式環(huán)境搭建新的技術架構,在分布式的高性能圖計算方面具有一定領先性。
其次,基于國內(nèi)企業(yè)需求的深入洞察與圖計算技術迭代升級,國內(nèi)圖數(shù)據(jù)庫企業(yè)在基礎架構層設計、產(chǎn)品語言等方面也有一定前沿性。越來越多的國內(nèi)金融機構與企業(yè)選擇技術自主可控的圖數(shù)據(jù)庫企業(yè)合作,而后者通過與不同行業(yè)企業(yè)開展合作,產(chǎn)品性能得到更多打磨錘煉,業(yè)務空間得到進一步提升。
楊娟告訴記者,就近期參加的各種POC(Proof of concept,概念驗證,針對客戶具體應用的驗證性測試)與評測分析,相比海外同行,海致的圖數(shù)據(jù)庫在不少性能方面表現(xiàn)更好。
在楊娟看來,超越歐美圖數(shù)據(jù)庫,形成新的競爭壁壘,國內(nèi)企業(yè)必須具體三大條件:一是,技術方面的深入洞察和前沿視野;二是,搭建卓越的技術研發(fā)團隊;三是,與不同行業(yè)龍頭企業(yè)開展合作,構建相關圖數(shù)據(jù)庫與圖計算技術應用的“行業(yè)標準”。
據(jù)了解,海致今年參與了國際權威技術協(xié)會“關聯(lián)數(shù)據(jù)基準委員會(LDBC)”立項的全球首個金融圖數(shù)據(jù)庫測試基準的編寫,標準組成員還包括螞蟻集團、Intel等國內(nèi)外6家知名頭部科技公司。
楊娟補充表示,國內(nèi)大型互聯(lián)網(wǎng)公司在圖計算領域技術也有優(yōu)勢,但其技術、團隊則與其主營業(yè)務緊密綁定,產(chǎn)品場景高度定制化。更多偏向2C端服務,因此與聚焦B端產(chǎn)品和服務的公司,并不存在諸多競爭。
“隨著元宇宙產(chǎn)業(yè)的快速興起,圖能夠更清晰地實現(xiàn)虛實映射,也是幫助數(shù)字人進行認知和思考的技術,我們也在探索圖技術在元宇宙之中的應用以及發(fā)展空間?!睏罹暾f。