向量數據庫領域近年來風起云涌,成為技術界的一大熱點。其核心在于高效檢索高維向量數據,這對于大型模型的訓練和推理至關重要。特別是自2023年以來,隨著大模型的迅猛發展,向量檢索——尤其是檢索增強生成(RAG)技術中的關鍵一環——更是吸引了數據庫技術領域的廣泛關注。
然而,隨著RAG技術的廣泛應用,其局限性也逐漸暴露出來。RAG技術主要依賴于向量化知識本身,難以捕捉獨立信息之間的鏈接,無法結合關系和語境進行深度理解。因此,在處理需要深層次語義關系和上下文細微差別的復雜查詢時,RAG技術顯得力不從心。
面對這一挑戰,杭州悅數科技有限公司(以下簡稱悅數)的CTO葉小萌帶領團隊,于2023年與LlamaIndex聯合提出了Graph RAG的設想,并迅速分享了這一概念的初步驗證結果。Graph RAG通過結合知識圖譜,能夠更精確、全面地檢索相關信息,使模型能夠關聯上下文給出答復。盡管這一概念在國內起初并未引起太大波瀾,但悅數團隊持續推動其落地,并在去年11月推出了悅數RAG產品,實現了基于圖的檢索增強生成,有效解決了企業的知識孤島問題。
微軟也在去年7月2日開源了Graph RAG研究項目,使得這一概念真正走進了大眾視野。然而,從概念提出的時間來看,悅數實際上早于微軟。悅數團隊在開發Graph RAG的過程中,起初只有一個人負責相關工作。那么,開發Graph RAG的難度究竟有多大?致力于在信創領域打造圖數據庫的悅數,又需要付出哪些額外努力呢?葉小萌向我們分享了這些年的心路歷程。
葉小萌表示,悅數在差異化策略上主要依賴于技術。大模型的興起讓RAG技術火了起來,而RAG技術的核心在于將私域數據保存下來,并通過向量化快速找到關聯內容。然而,悅數團隊在看到向量數據庫浪潮的同時,也發現了其缺陷:向量數據庫難以呈現知識間的關聯。因此,擅長處理關聯關系的圖數據庫在此大有可為。
在悅數團隊首次提出Graph RAG概念時,人們對這兩者的結合還難以想象。但悅數并未退縮,迅速組建團隊開始打造RAG產品。一年后,悅數RAG產品成功推出,并已進入產品市場契合度(PMF)階段,預計今年能夠進行大規模推廣。
對于這家團隊規模僅七八十人的創業公司來說,在原有產品線上開辟出一條新的產品線并不容易。除了內核的圖庫外,負責上層RAG的團隊起初只有古思為一個人。古思為認為,當時市面上的RAG結合方式都缺乏令人興奮的點。在學習RAG范式時,他敏銳地捕捉到RAG在利用無狀態大模型進行上下文理解和推理時無法繞過知識圖譜,因為真實世界中的知識組織結構都是網狀的。因此,他看到了Graph RAG的潛力,并決定投入研發。
古思為回顧說,Graph RAG就像一個小帳篷,里面可以容納很多東西,但這也帶來了抉擇的挑戰。例如,在選擇圖的形式時,團隊需要考慮是使用現有的知識圖譜進行事實檢測和推理,還是從不同類型的知識中二次處理增強變成圖狀數據,還是僅用圖狀結構生成總結。在沒有足夠參考的情況下,每個決定都需要反復斟酌。最終,悅數取舍簡化后呈現的初步驗證獲得了不錯的反響,而當時定下的實現方式至今仍然是Graph RAG的默認常用方法。
在后續概念的落地過程中,悅數遇到了比想象中更復雜的挑戰。2024年上半年,悅數開始提供抽象工具給用戶,但技術門檻讓許多客戶難以自行搭建pipeline。為了降低用戶使用產品的難度,團隊與四五十個客戶進行了深入溝通,并迭代出了一定程度開箱即用的方案。
如今,悅數RAG已經可以無縫銜接DeepSeek,團隊也在基于蒸餾技術、圖上推理等功能進行RAG迭代。同時,悅數在圖數據庫領域也走在了前沿。2024年4月,國際標準化組織(ISO)發布了國際標準圖查詢語言GQL,而悅數一直跟蹤投入研發,并在GQL標準發布后的同年11月推出了全球第一款原生支持GQL的分布式圖數據庫產品——悅數圖數據庫v5.0。
悅數不僅在RAG領域積極探索,還在信創領域發力。葉小萌認為,信創的核心在于自主可控,而悅數圖數據庫的每一行代碼都是團隊親手寫下,因此已經具備了IP和代碼的自主權,為信創提供了良好的土壤。盡管目前圖數據庫還不在信創名錄之列,但悅數正在積極適配各種信創操作系統或硬件,以期在未來能夠進入信創名錄并得到認證。
適配國產硬件生態并非易事,尤其是國產CPU架構多樣,對團隊編譯適配提出了更高的時間和人力要求。然而,葉小萌也看到,雖然國產與國外硬件在x86架構上的差距仍較大,但在arm CPU級別上已與國際化水平非常接近。悅數圖數據庫在去年6月通過了中國信通院舉辦的“可信數據庫”圖數據庫性能測試,成為國內首個全項完成該測試的圖數據庫產品,這也體現了悅數在信創領域匹配國標的決心。

悅數目前以客戶為中心,其中一半以上都有信創需求。葉小萌觀察到,現在還愿意出高價的企業大多是國央企或至少有國資背景的企業。因此,政企領域的客戶競爭尤為激烈,尤其是金融業。金融業IT需求發展起步較早,每年預算高,競爭尤為激烈。
在價格戰中,悅數盡量避免受到波及。投標時,悅數會避開價格分數占比過高的場景,也盡量避免卷入搶低價客戶的漩渦。葉小萌相信,產品價格應該體現產品本身給客戶帶來的價值。卷技術對行業有利,但卷價格無法體現軟件產品的價值。
親歷圖數據庫市場成長的浪潮,葉小萌感受到市場教育的成效顯著。現在團隊接觸客戶時,不再需要介紹圖數據庫的定義和功能,而是直接從行業經驗和使用場景開始介紹。作為從業者,他形容數據庫市場的競爭如同長跑,現在已經進程過半。雖然不排除有人最后沖刺反超,但已經能夠分出第一梯隊和第二梯隊。如今,數據庫市場開始大浪淘沙,產品差距只會越來越明顯。
葉小萌領略過硅谷科技大公司的工程師文化,深受感染,并希望悅數能夠成為技術上最強的公司。悅數的氛圍十分接近他心之所向的工程師文化——大家專注做技術、以技術為導向,員工自驅力很強。然而,對葉小萌來說,創業最難的是突破邊界。浸潤技術領域多年的他,在商業化后開始接觸客戶,面對的對象從電子屏幕轉變為人。他感慨自己仍在突破自我的路上。







