在近日舉行的 2023 全球開源技術峰會上,百度分享了多個精彩議題,充分展示了其在 AI、云原生、圖數據庫、物聯網等前沿技術領域布局和進展。
在主論壇的演講中,百度集團副總裁侯震宇表示,大語言模型推動了人工智能在全產業的高速發展?!拔覀兿嘈?AI 能賦能產業、改變產業?!痹缭?2010 年,百度就開始全面布局人工智能,是全球為數不多、進行全棧布局的人工智能公司,因此也積累了較為雄厚的技術基礎。
侯震宇透露:“從一開始,我們就希望能夠建立一個以云計算為基礎支撐整個數字產業的升級,以人工智能為引擎在關鍵場景為企業賦能的平臺?!庇谑牵俣戎悄茉票患挠韬裢?,不斷朝著“云智一體”的目標邁進。如今,百度智能云正在為企業和開發者提供全球領先的人工智能、大數據和云計算服務,加速產業智能化轉型升級。
而在百度智能云背后,正是百度在人工智能、云計算、大數據、物聯網等領域沉淀的先進技術在提供支撐。恰逢 2023 全球開源技術峰會,飛槳、Apollo、超級鏈、HugeGraph、Baetyl、Teaclave 等開源項目以演講、展覽等形式亮相,令人得以一覽百度開源技術豐富度和多樣性。
飛槳:產業級深度學習開源開放平臺
據侯震宇介紹,AI 技術??煞譃椤靶酒瑢?、框架層、模型層、應用層”四層。百度在技術棧的各層都有領先業界的關鍵自研技術,從昆侖芯片、飛槳深度學習平臺、文心大模型到應用,實現了層與層反饋,端到端優化,大幅提升效率。
其中,在框架層,百度開源了首個自主研發的產業級深度學習平臺飛槳,包括核心框架、產業級模型庫、開發套件、工具組件,以及學習和實訓社區,能夠標準化、自動化地支撐模型生產和應用。也正是飛槳深度學習平臺,為新一代大語言模型文心一言提供著堅實的技術支撐,實現了靈活開發、高效訓練和推理部署,讓文心大模型從 2019 年發布以來,從最初的自然語言理解大模型,發展成了跨語言、跨模態、跨任務、跨行業的大模型平臺。
飛槳得到了廣大開發者和企業的青睞,中國信通院發布的《深度學習平臺報告(2022)》顯示,飛槳在國內的應用規模排名第一。
百度飛槳框架產品負責人、開放原子開源基金會 TOC 委員張軍帶來了關于“產業級深度學習開源開放平臺飛槳及其開源社區”的主題演講。張軍介紹,作為一個源于產業實踐的深度學習平臺,飛槳有著開發便捷的深度學習框架;算法總數超過600個的產業級模型庫;豐富的端到端開發套件和工具組件。具有產業級、低門檻的特點,全面支持 AI 科研和真實產業應用。
在百度內部,基于飛槳的計算集群每月支持 20 萬個訓練任務;基于飛槳的在線推理每天服務近六十億次請求;飛槳支持搜索、推薦、自動駕駛、地圖、小度等眾多公司業務。在百度之外,飛槳助力產業的智能化升級,覆蓋 20+ 行業,服務 20 萬企業,創建 67 萬模型。
而這一個應用廣泛的產業級深度學習平臺正是由來自不同組織、地區的眾多開發者共同構建的。據介紹,飛槳的開發者主要由三部分構成:BAIDU contributors,專職的研發部門(深度學習技術平臺部),及非專職的其他部門的工程師;Corporate contributors,NVIDIA、INTEL、昆侖芯、寒武紀,等多家硬件公司的專職工程師;Individual contributors,來自高校的學生及來自企業的工程師在業余時間的貢獻。
張軍還分享了飛槳開源社區建設的一些思考,如遵循國際化思考、本地化行動的原則;與全球的上下游開源項目積極的生態合作,堅持開發者社區比開發本身更重要;而在具體行動上則因地制宜,采用特色的組織模式和運營活動,加速中國產業智能化升級。
Apache HugeGraph:千億級大規模圖數據庫 + 圖計算系統
Apache HugeGraph 是國內首個開源的圖數據庫,由百度自主研發,提供了一站式的千億級大規模圖數據的存儲、在線查詢、離線分析平臺。2016 年,百度啟動 HugeGraph 項目,并在 2018 年對外開源,2022 年 5 月 13 日正式捐贈 Apache 軟件基金會開啟孵化。2023 年初,HugeGraph 發布了正式的 Apache 第一個孵化后的 1.0 版本。
CVTE 研究院圖數據庫負責人張世鳴是 HugeGraph 社區的 PMC,此次他圍繞“Apache HugeGraph 分布式存儲與計算開源演進之路”發表主題演講。
據張世鳴介紹,HugeGraph 是 Apache 軟件基金會唯一一個圖數據庫及圖計算系統,具有穩定、易用、可擴展等特點,具備出色的 OLTP、OLAP 能力,可以輕松地將數百億甚至千億個頂點和邊存儲到 HugeGraph 中并從中進行查詢。它實現了 Apache TinkerPop 3 框架,支持 Gremlin及 Cpyher 兩種圖查詢語言,并能輕松的與 MySQL、RocksDB 等多種大數據組件進行快速對接。
HugeGraph 1.0 版本的架構整體上可以分成3層,存儲層、計算層和應用層。
存儲層負責圖數據存儲,包括頂點、邊和屬性等、系統數據存儲和 Schema 存儲。存儲層是通過插件化的方式實現的,這也是 HugeGraph 的亮點之一,用戶可以根據自己的需求去選擇后端存儲,目前已經支持 RocksDB、Hbase 和 MySQL 等。
計算層為了適配底層不同的存儲結構,增加了后端適配層,用于屏蔽底層數據庫的差異,適配層往上的 Graph Engine 是 HugeGraph 的核心,負責圖查詢語句的解析,序列化等等,最上層支持了基于 Restful 和 Gremlin 的 OLTP 查詢,同時在 OLAP 方面也支持了環路檢測、最短路徑、PersonalRank 等16種圖算法,并且實現了異步的執行方式,對于執行時間比較久的算法或者 Gremlin 語句可以通過異步的方式去提交和執行。
在應用層,HugeGraph 提供了豐富的工具給用戶使用,包括可視化、Loader、備份、客戶端等等。方便用戶來構建和使用圖數據。
在 1.0 架構下,HugeGraph目前支持的分布式架構主要有兩種,一種是基于 RocksDB 的 Replication 模式,另一種是基于第三方的分布式存儲,比如 Hbase、Cassandra 等等。
但這兩種架構的弊端都比較明顯。RocksDB 的 Replicate 模式雖然也是基于 raft 對數據集進行復制,能保證數據的一致性,但是每個節點都保留了全量的數據,并沒有增加可存儲的數據量,只是有了高可用的支持,而且 server 的執行邏輯基本也是串行的。HbaseBackendStore 的模式,過于依賴 Hbase 的存儲,Hbase 的調優原本就是一件比較復雜的工程,很容易成為瓶頸,特別是內存的調優,Hbase 的集群管理挑戰也非常大,依賴的組件非常多,HDFS,zk 等等,而且在需要進行條件過濾/或者聚合的場景下,需要拉取數據在 Server 端進行,下推到存儲端的成本非常高。所以更好的方案是我們在 Rocksdb Replicate Mode 的基礎上支持 shard mode,單 raft group 改造成 multi raftgroup,這樣的話為了能有更好地擴展性。
張世鳴透露,基于上述這些問題,HugeGraph 今年計劃朝著全新的 2.0 版本繼續演進,推動內部版本與開源版的融合。2.0 版本重大變化覆蓋 4 大方面:架構方面,包括分布式架構,支持圖數據分區+數據副本,計算存儲分離框架,便于計算及存儲靈活伸縮;集群管理方面,采用高可用設計,支持容災及故障恢復,基于分區支持副本的數據重分,更多監控指標;查詢方面,包括算子下沉、gremlin 并行化、細粒度的內存管理;使用(接口優化+功能增強)方面,包括接口增加統計信息(遍歷的頂點、邊和耗時)、支持動態創建圖、unique 索引可以查詢等。
未來,HugeGraph 2.0 將基于分布式版本持續做更多的優化,保證集群穩定性;持續優化圖查詢,實現內存管控的完整體系;實現更多的圖分析算法支持,尤其是提供圖產品化的解決方案,大幅降低使用門檻……
Baetyl:為設備側邊緣計算提供云原生的編排調度能力
Baetyl 是中國首個發布的開源邊緣計算框架。本次峰會,百度智能云物聯網主任架構師黃誠通過開源項目 Baetyl 就百度在智能邊緣領域的布局與思考展開分享。
據介紹,百度于 2019 年將 Baetyl 捐贈給了 LF Edge 基金會,是該基金會成立以來最早加入的項目。Baetyl 支持 x86、ARM、MIPS、CPU 等網絡芯片,以及各類 GPU 和神經網絡芯片,能夠為設備側邊緣計算提供云原生的編排調度能力,將云計算的應用無縫擴展到邊緣,使云和邊緣的數據實現自由交換。
當前,Baetyl 適配多種架構及各大主流操作系統,可在如寒武紀盒子、華為 Atlas、樹莓派、比特大陸、EdgeBoard 等各種硬件設備上運行,安裝 Baetyl 后就可以快速變為智能的邊緣計算設備。
Baetyl 的核心能力主要表現為四個方面:
云邊協同:邊緣計算節點需要納入云計算中心的管理,定期上報自己的狀態并同步云端信息
調度管理:云端管理套件提供節點和應用關聯的管理,節點上的邊緣計算程序負責調度到合理的地方運行
邊緣自治:在邊緣節點和云端斷網的情況下,邊緣節點能正常運行,并在網絡恢復后能快速恢復
設備管理:提供邊緣軟網關能力,支持設備通過各類協議接入,提供設備信息上行及云端數據同步的功能
整體架構方面,Baetyl 包含設備接入、數據處理、數據上報、流式計算、函數計算、AI 推斷等功能,天然支持云原生,能夠將云計算能力延伸至用戶現場,提供可以臨時離線、低延時的計算服務。
這得益于其采用云端管理、邊緣運行的方案。Baetyl 分為云端管理套件(Baetyl cloud)和邊緣計算框架兩部分。Baetyl cloud 運行在云端,目標是收集所有在 Kubernetes 上的配置,支持在云端配置邊緣計算集群,管理所有資源,如:節點、應用、配置等。
在標準情況下,Baetyl cloud 會收集并打包來自 Kubernetes 控制面的信息,再由安全網絡提供到本地的設備上,而 Baetyl 和云端管理套件之間會使用端到端的強制性的雙向認證,進一步保證了安全問題。
邊緣計算框架運行在邊緣節點的 Kubernetes 集群中。在默認情況下,Baetyl 提供的是輕量版的 K3S 集群,如果有需要,也可以擴展成本地的 Kubernetes 集群。上面運行的 Baetyl 本地程序不斷地接收來自 Baetyl cloud 的配置,并不斷地將這些配置應用到本地的 Kubernetes,由此完成邊和云之間的同步。
隨著 “云+AI”在更多行業、更大范圍內持續推進,Baetyl 也在更多行業和場景實現了落地。Baetyl 已經和百度智能云天工物聯網平臺、百度 Al 等團隊打通,面向各行業客戶提供端到端的解決方案,目前在電力巡檢、AI 質檢等領域得到了驗證。
Apollo:全球最活躍的自動駕駛開放平臺
在 2023 全球開源技術峰會峰會現場,“Apollo開放平臺”開設了展位,為與會者展示和講解Apollo自動駕駛技術的最新進展。百度 2013 年開始布局自動駕駛,2017 年推出全球首個自動駕駛開放平臺 Apollo。目前百度 Apollo 已經在自動駕駛、智能汽車、智能交通三大領域擁有業內領先的解決方案。
“Apollo 開放平臺”是一個開放的、完整的、安全的平臺,旨在幫助汽車行業及自動駕駛領域的合作伙伴結合車輛和硬件系統,快速搭建一套屬于自己的自動駕駛系統,目前已經升級迭代到第 12 個版本:Apollo 開放平臺 8.0。
Apollo 開放平臺 8.0 分別從“新架構”“新能力”兩個重要層面進行了全面升級,從開發者的實際需求出發進行改良,幫助開發者更好、更快地熟悉和使用百度 Apollo 開放平臺—— 在平臺架構層面上,從面向技術分層的架構,升級為結合技術與生態分層的架構,為開發者提供易用的軟件核心和云服務工具及易擴展的硬件設備與軟件場景應用;在平臺能力構建上,通過軟件包管理機制、感知全流程升級及全新 PnC 工具鏈,全面提升開發者使用效率。與此同時,全新上線的自動駕駛一站式學習實踐社區——Apollo Studio,也成為開發者們一站式學習實踐和共同交流成長的絕佳窗口。
作為全球最大自動駕駛開放平臺,Apollo 開放平臺的開源代碼量已超過 75 萬行,并且匯聚了來自全球 165 個國家的 10 萬多名開發者,擁有全球超 220 家生態合作伙伴,幾乎囊括全球主流汽車制造商、一級零部件供應商、芯片公司、傳感器公司、交通集成商、出行企業等,覆蓋從硬件到軟件的完整產業鏈。Apollo 開放平臺 8.0 的推出,再次讓 Apollo 開放平臺在工程易用性上向前邁進一大步,降低操作難度、操作成本的門檻,讓更多開發者可以簡單方便地上手 Apollo 開放平臺、投身自動駕駛技術領域。
目前 Apollo 已獲得中國測試牌照總計 1000 多張,自動駕駛專利族超 4600 項,其中高級別自動駕駛專利族數全球第一,測試里程總計超過 5000 萬公里。Apollo 開放平臺始終秉“承開放能力、共享資源、加速創新、持續共贏”的核心理念,不斷帶來創新和升級。未來,Apollo 也期待與更多開發者及合作伙伴一起,不斷拓展能力邊界、探索自動駕駛技術和產業的更多可能性,造福人類發展。
小結
在數字經濟時代,越來越多的企業開始參與開源項目,甚至主導開源項目。尤其是在人工智能、區塊鏈、物聯網、云計算、大數據等新興技術領域,開源更是成為了技術創新、產業協作、生態開放的重要方式。
一直以來,百度積極擁抱開源,致力于開源技術生態的建設,通過開源項目的推廣和貢獻,吸引全球開發者參與,共同推動技術的發展。截至 2022 年底,百度已經開源了超過 1000 個項目,社區貢獻者超過 20000 人,技術涵蓋了機器學習、自動駕駛、區塊鏈、數據存儲、邊緣計算、大前端、安全等多個領域。尤其是飛槳( PaddlePaddle)、Apollo、超級鏈(XuprChain)等開源項目已經成為業內領先的技術平臺,吸引了越來越多的開發者參與其中。這些開源項目的成功實踐不僅促進了百度自身技術的提升,也為全球開源社區做出了積極的貢獻。
管中窺豹,可見一斑。從開源的角度看百度的技術布局,可以令人感受到,百度一直在前沿技術領域持續創新。尤其是在 AI 大模型席卷全球的今天,百度愈加主動出擊。
百度的使命是“用科技讓復雜的世界更簡單”。最后,引用侯震宇在峰會上的講話:“我們相信,隨著這一輪激動人心的技術浪潮,生成式 AI 技術浪潮,百度其實已經準備好了,我們愿意拿自己積累的技術,和整個平臺、整個產業里的合作伙伴一起把整個中國的人工智能產業推上更高的高峰,也讓我們的 AI 的能力真的能夠助力我們行業伙伴,讓客戶能夠從中收益?!?/p>






