在數據庫技術的浩瀚星空中,向量數據庫近年來猶如一顆璀璨新星,迅速吸引了業界的廣泛關注。其核心優勢在于高效檢索高維向量數據,這對于大型模型的訓練和推理而言,無疑是一項至關重要的技術突破。特別是在2023年,隨著大模型的蓬勃發展,向量檢索技術,特別是作為檢索增強生成(RAG)技術的重要組成部分,更是被推到了數據庫技術的風口浪尖。
然而,正如所有新興技術一樣,RAG技術也面臨著其固有的局限性。它雖然能夠將知識本身進行向量化處理,但在理解和呈現獨立信息之間的鏈接方面卻顯得力不從心。換句話說,RAG技術難以結合關系和語境,處理那些需要更深層次語義關系和上下文細微差別的復雜查詢。這一缺陷,無疑限制了RAG技術的進一步發展和應用。
面對這一困境,杭州悅數科技有限公司(以下簡稱悅數)的CTO葉小萌帶領團隊,在2023年與LlamaIndex攜手,提出了Graph RAG的設想,并迅速分享了這一概念的初步驗證結果。Graph RAG結合了圖數據庫的優勢,通過知識圖譜能夠更精確、全面地檢索相關信息,使模型能夠關聯上下文給出答復。這一創新性的想法,雖然起初在國內并未引起太多關注,但悅數團隊并未因此氣餒,而是持續推動其落地。
葉小萌表示,悅數一直致力于技術創新,以技術為核心競爭力。在大模型興起的背景下,悅數敏銳地捕捉到了RAG技術的潛力,但同時也看到了其局限性。因此,悅數團隊決定結合圖數據庫的優勢,打造一款全新的RAG產品。這一決定,不僅體現了悅數對技術趨勢的敏銳洞察,更展現了其敢于創新、勇于挑戰的精神。
經過一年的努力,悅數RAG產品終于面世。這款產品實現了基于圖的檢索增強生成,能夠幫助企業有效應對知識孤島問題。與此同時,微軟也在去年7月2日開源了Graph RAG研究項目,使得這一概念真正受到了大眾的廣泛關注。然而,值得注意的是,悅數提出Graph RAG概念的時間要早于微軟。這一事實,無疑進一步證明了悅數在技術創新方面的領先地位。
在悅數RAG產品的研發過程中,團隊遇到了諸多挑戰。由于這是一個全新的領域,沒有現成的經驗和方案可供借鑒,因此團隊只能摸著石頭過河。葉小萌回憶道,在研發初期,團隊規模有限,上層RAG團隊甚至只有一個人——古思為。然而,正是憑借著對技術的熱愛和執著追求,古思為帶領團隊克服了一個又一個困難,最終成功推出了悅數RAG產品。

除了技術創新之外,悅數還積極參與國際標準制定工作。在國際標準化組織(ISO)發布的國際標準圖查詢語言GQL的制定過程中,悅數一直跟蹤投入研發。在GQL標準發布后的同年11月,悅數推出了全球首款原生支持GQL的分布式圖數據庫產品——悅數圖數據庫v5.0。這一舉措,不僅進一步鞏固了悅數在圖數據庫領域的領先地位,也為其未來的發展奠定了堅實的基礎。
在信創領域,悅數同樣表現出色。葉小萌認為,信創的核心在于自主可控。悅數圖數據庫的每一行代碼都是團隊親手寫下,擁有自主知識產權和代碼自主權。因此,悅數具備成為信創品牌的良好土壤。雖然目前圖數據庫尚未被收錄在信創名錄之中,但悅數已經在積極適配各種信創操作系統和硬件,為進入信創名錄做好充分準備。

悅數的客戶群體中,有一半以上都有信創需求。葉小萌觀察到,目前愿意出高價購買產品的企業,大多是國央企或具有國資背景的企業。因此,在政企領域的客戶競爭中,悅數面臨著激烈的競爭。然而,悅數始終堅持避免卷入價格戰,而是專注于提升產品質量和技術水平。葉小萌相信,只有真正有價值的產品才能得到客戶的認可和信賴。
回顧悅數的發展歷程,葉小萌感慨萬分。他從2010年進入Facebook開始接觸圖數據庫領域,到如今帶領悅數團隊在圖數據庫領域不斷創新和突破,經歷了無數的挑戰和困難。然而,正是憑借著對技術的熱愛和執著追求,悅數團隊才能夠在激烈的市場競爭中脫穎而出,成為圖數據庫領域的佼佼者。







