新基建的浪潮如火如荼,國家頂層政策的引導不僅支持著由數據驅動各垂直領域中的新興商業市場,也為相關科研市場的發展提供了眾多機遇。
但持續的發展也帶來了新的問題,傳統基礎設施已逐漸不能響應新興數據驅動研究所需的軟硬件支持。本文將從此類問題出發,為各領域研究團隊介紹 ModelWhale 云端數據科學協同平臺,以其不同的產品服務價值在不同層面上提供系列解決方案,期待為由數據驅動的科學研究提供助力。
目錄
數據驅動研究部署于傳統基礎設施的現存問題
ModelWhale,數據驅動研究的云端協同創新平臺
數據驅動研究的全生命周期管理
數據資產與研究成果的沉淀與展示
強大的算力調度管理能力
客戶案例分享 · 清華大學中國新型城鎮化研究院:交叉領域科研云端數據分析協同創新平臺
數據驅動研究部署于傳統基礎設施的現存問題
部署于傳統基礎設施的數據驅動研究在大環境發展中所暴露出的問題,歸根結底是此類基礎設施已無法滿足現有的使用需求。在對相關高校與科研機構的痛點問題進行客戶調研后,本文得出以下結論。
科研期待:項目能有完整的生命周期,結項不是項目的終結,后續能夠復用是項目生命的存續
實際情況:極不合理的項目成果管理方式為“成果復用”設置重重阻礙
對既往研究成果進行復用以賦予項目完整生命周期中的“復用”定義十分寬泛:可以是復用既往項目中的“中間成果”,譬如僅僅一個代碼片段;也可以是“階段性較為完整的成果”,譬如一個模型或搭建完成的一個鏡像;還可以是對于某一類項目較為流程化、規范化的“研究范式”。
同時,此類“復用”是跨時間、跨人員的。然而事實上,由于項目研究成果缺少系統的歸納管理,加之項目組人員時有更替,隨著時間的流逝,極容易忘卻之前的研究成果,即使記起、有復用的打算,也很難將其翻找出來、輔以配套環境完整復現。即使大家都贊同,合理復用從長遠能夠節省大量時間,為避免當下的麻煩,項目進行過程中大部分相關人員還是會選擇重頭再來。
科研期待:外界對于項目價值的認可
實際情況:沒有完整展示研究成果、完全復現研究過程的條件,外界接觸研究成果的渠道十分有限
傳統的項目在研究完成后不會想到在云端沉淀項目成果,即使選擇了云端沉淀,主要沉淀的也是文字與“死的”數據,而不會留存“數據分析、編程建模的過程”,這主要是由于一般的成果沉淀渠道沒有所謂可存儲“中間過程”的環境。研究過程難以被他人完全復現、研究成果得不到“完整的展示”,顯然不利于提升項目價值的認可度。
此外,目前國內的科研環境缺少一個除期刊、組織門戶外可展示或合理開放研究成果的渠道,大眾領域的科研愛好者與相關領域的外部人員無從接觸項目資源、不知道項目組究竟做出了什么成果,亦或是在時效性上有很大的延遲。

關于“可復現性危機”的調查,圖源 Nature
科研期待:科研過程中算力高效、精準的調配
實際情況:集成難、調度難、運維難,資源閑置,空有硬件而用不上
首先我們需要明確,數據驅動的研究項目普遍屬于大型、復雜計算任務,例如 GPU 集群模型訓練等,對硬件要求高,一般的個人 pc 于本地無法滿足相應算力需求。
其次,普遍來說,高校與科研機構內不是沒有高規格服務器,但此類服務器一般較為分散,組織層面上不知道如何整合利用這部分資源。云上對資源進行集成調度理論上可行,但相關部署運維工作繁瑣且專業性強,小到課題組,大到學校、院系很難尋找到一個合適的人選為此花費大量時間精力。最終造成的結果是,校內許多服務器處于閑置狀態沒有被充分利用,浪費了大量計算與存儲資源。
ModelWhale,數據驅動研究的云端協同創新平臺
作為數據科學行業中的佼佼者,和鯨科技旗下核心產品 ModelWhale 一直是各業研究人員的優選,并獲得清華大學、南開大學、北京協和醫學院等一線科研團隊的廣泛好評。作為云端協同創新平臺,ModelWhale 將從以下幾方面助力數據驅動的科學研究:
數據驅動研究的全生命周期管理
數據資產與研究成果的沉淀與展示
強大的算力調度管理能力
文末,還將附上清華大學新型城鎮化研究院的客戶案例用以對 ModelWhale 的上述產品、服務能力進行具體的展示。
數據驅動研究的全生命周期管理
本節主要為項目從生產到復用全生命周期管理過程中出現的系列問題提供解決方案,為方便行文,將拆分為“項目從零生產”與“復用既往研究”兩部分。
項目從零生產
數據驅動研究的地基便是數據本身,而部署于傳統基礎設施的數據驅動研究在數據管理上主要依賴的還是人力。而通過 ModelWhale,在保證數據安全的前提下,研究者們不僅能夠創建不同類型的數據源,例如數據集、數據庫連接、對象存儲連接、NAS 空間、標注數據等,更是能夠對相關數據源進行概述、標識、版本管理、評論及分發共享。ModelWhale 為研究者們提供的數據接入與管理功能就是要為數據驅動研究打好基礎,令廣大研究人員不必再為數據管理的底層繁復工作浪費時間。
NAS 空間內進行數據接入、管理、協作、分析等操作
解決了數據問題便從零生產項目,而生產項目的第一步,往往是裝包搭建環境。作為云端數據科學協同平臺,ModelWhale 提供 Jupyter Notebook 交互式、Canvas 拖拽式、CloudIDE 三種云端分析環境,并支持 Python、R 等數種編程語言,適配研究者們不同的編程需求與習慣;另外平臺內已配備多種通用與特定學科鏡像,新建項目時直接選定即可,真正做到即開即用——打開 ModelWhale,不需要配置任何環境,即可開始項目研究,省時省力。

快速新建 Notebook 開始研究

內置多種鏡像供不同領域研究者使用
配置好環境即可開始數據分析、編程建模。一般的編程操作不必多說,選定相應的分析界面、算力、鏡像開始即可。值得一提的是,數據驅動研究一般關注的是對于不確定性問題的探索,面對一個新課題,在最開始,往往并不能夠明確哪種方法與手段可達成研究目的,我們需要多種多樣的嘗試。因此,ModelWhale 在這里能夠提供的額外功能就是非 Git 邏輯控制的版本管理,不會太重,隨時進行項目的版本比對與 Cell 級版本回溯,支持廣大研究者們的從零探索。

版本比對與版本回溯,一鍵接受歷史版本
另外,針對于數據驅動研究普遍存在的大型復雜計算任務,例如深度學習等,如前文所述,ModelWhale 首先支持將 NAS 目錄作為數據源掛載進分析環境,從而實現對超大數據的分析研究,其次還支持模型的離線訓練功能,即在電腦關閉后訓練任務仍可繼續,解放研究人員的時間與精力,同時提供訓練結果可視化比對,協助高效進行模型的調參與選擇。一句話總結,ModelWhale 將從各種細節緩解研究者們繁復的底層工作。

新建模型離線訓練任務
最后,科學研究往往不是一個人的工作,對于復雜項目,組內進行多人分攤是很常有的事,而 ModelWhale 不僅關乎數據科學,更是云端協同創新平臺,助力多人協作研究義不容辭。通俗來說,可以將 ModelWhale 想象為代碼版的主流云文檔軟件,能夠實現多人在線編輯同個項目,當然,為避免代碼碰撞出現的 bug,需要生成版本才能將進展同步給他人。另外 ModelWhale 還具備任務規劃的項目管理工具,負責人可以新建課題任務,并將其拆分成子任務進行分發,協同團隊共同完成復雜的項目研究。最后,多人協作不僅著眼于某一項目組內部,我們也關注跨行業、跨領域的合作協同:運用 Canvas 功能,代碼能力較弱的各領域理論學者可與數據科學家們同時工作,理論學者負責以功能模塊搭建研究思路,數據科學家將其轉化為實操代碼,相輔相成、事半功倍。

項目管理工具,任務規劃界面

用 Canvas 快速搭建分析流程
復用既往研究
前文也已提及,對于數據驅動研究而言,除了從零開始,復用既往研究成果從長遠來看是極能提升效率的方式之一,也是項目全生命周期管理中極易被忽視的一環,而 ModelWhale 將從鏡像、代碼片段、研究模板與工作流、算法模型多角度多層次的助力研究時的復用工作。
1.自定義鏡像的復用,不必人人造輪子
“項目從零生產”中有提到,ModelWhale 本身內嵌了多種通用與特定學科鏡像,新建項目時直接選定即可,那么若這些鏡像無法滿足當下研究需求又該怎么辦呢?這時,研究人員可新建自定義鏡像以匹配當前需求。但這并不表示項目組內的每個研究者在開始研究前都需要進行此步操作,一旦完成契合研究需求自定義鏡像的新建,該鏡像可以分發給組織內的任意成員進行復用,不必人人造輪子,除了負責新建鏡像的第一人,組內其他研究者依然能夠即開即用地復用既往已被搭建完成的研究環境。

自定義科研鏡像,一鍵同步給項目組其他研究人員
2.Notebook 代碼庫,代碼片段也可輕松復用
ModelWhale Jupyter Notebook 側邊欄中具備代碼片段庫功能,研究人員在既往研究中可預先收藏有幾率被復用到的代碼片段,后續進行新一輪研究時,即可在該代碼庫“我的收藏”中找到相應代碼片段,此外,代碼庫中還包含了一部分官方代碼,無論是“公有庫”還是“我的收藏”,其中的代碼片段都能夠在新項目界面進行復用,直接插入即可。最后,代碼庫內的代碼片段支持組織內的權限管理與分發,研究人員 A 收藏的代碼片段可便捷復用至 B 的項目。

代碼片段收藏與復用
3.Canvas 組件,通過可視化規范 Flow 模板創建項目
ModelWhale Canvas 簡單來說是基于可視化和模型驅動的理念,通過“拖拉拽”組件,完成應用模型的搭建。這樣說有些大而抽象,實際操作中,Canvas 如何被應用到項目成果的復用過程呢?試想一下,當研究人員正進行一套較為繁瑣但極其流程化、不需要創新、后續也還會經常進行的項目步驟時,可選擇在 Canvas 中運用組件預構這一套步驟,將其封裝成為常用的工作流 Flow,后續在別的項目中再次遇見這一套步驟,就可通過 Canvas 模板直接創建項目、確認組件流程,再轉化為 Notebook,此時大框架已有,通過代碼微調即可實現那一套繁瑣且流程化的項目步驟,十分便捷。

通過模板創建 Canvas 項目,并一鍵另存為 Notebook
4.算法庫功能:實現對算法模型的整理、分享、復用
利用算法庫,研究人員可以管理既往研究工作中已產出的算法模型,輔以文字說明,實現對這些算法模型的整理與分享,實際復用時,可將此類成果直接創建項目或模型服務,免去大量冗余的代碼編寫、模型訓練工作,節省時間。此外,ModelWhale 算法庫內也已整理部分常用算法,供研究者在進行通用數據分析工作時隨時調用。

算法庫功能對于算法模型的沉淀管理、一鍵復現
數據資產與研究成果的沉淀與展示
本節主要為數據驅動研究資產成果沉淀與展示過程中出現的系列問題提供解決方案,為方便行文,將拆分為“資產成果沉淀復現”與“資產成果復現展示”兩部分。
資產成果沉淀復現
如前文所述,傳統的數據驅動項目在研究完成后不會想到在云端沉淀完整的項目成果,主要是因為一般的成果沉淀渠道沒有所謂可存儲研究“中間過程”的環境,而現在 ModelWhale 可為廣大研究者們提供這樣一個環境:
上一部分中我們也提到,ModelWhale 具備版本管理功能,詳細來說 ModelWhale 是為內部的所有生產資料都提供了版本管理功能,例如分析環境、數據、代碼及模型服務。在項目研究完成后,科研人員可以選定最終運行時的分析環境、掛載的數據集、最后的代碼版本,將生產要素全部整合在一起,并補充一定的文字說明,沉淀至組織的項目成果庫中。一方面,團隊內的其他成員可隨時查看成果庫進行復現;另一方面,這也同時解決了科研人員隨著時間推移由于分析環境改變或文件丟失而無法復現自己既往成果的問題。

ModelWhale 項目成果管理界面
資產成果復現展示
上一部分中項目成果庫這一功能主要為組織內成員開放,因此此類“成果復現”以對內為主、對外為輔,在真正提交項目進入項目評議、對外發布的過程中,ModelWhale 主要從以下幾方面助力研究資產成果的復現展示。
1.項目鏈接與模型服務網頁應用
項目提交評議時附帶成果的查看鏈接將提升項目產出整體的完備度,此處的成果包含了項目鏈接與模型服務的網頁應用兩種。對于項目鏈接,項目負責人 / 審稿人不僅能夠快速查看、復現數據分析的完整流程,針對于一個 Notebook,也能夠就其中具體的 Cell 進行提問與評論;對于發布為網頁應用的模型服務,項目負責人 / 審稿人更能夠一鍵調用,填寫表單后即可使用真實數據獲得模型運行推斷結果,使其對科研產出有更直觀的認識與更準確的評價。

針對項目的特定 Cell 進行提問與評論

模型服務發布為網頁應用
2.開放科研:組織門戶對于研究成果的展示、公開
數據驅動研究無論是在進行過程中還是項目結項后都會產生大量的數據成果,對此類資產進行合理公開貫徹了“開放科研”的學術理念,不僅能夠解決當前科研成果剩余價值的流失問題、有利于發揮科學數據的最大價值,同時也為數據驅動的研究提供社會效益的支持、讓更多的人共同參與科學研究工作。然而目前仍存在著許多壁壘阻礙了開放科研的實現:首先,就數據本身來說,數據源載體多、存儲形式多樣、數據類型廣泛,都為數據資產共享與管理造成了比較大的麻煩;其次,傳統的有限防護機制不一定能夠保障數據權益與數據安全,數據資產共享者將面臨風險責任與權利受益的矛盾。
而 ModelWhale 能夠為數據驅動研究生產資料與多形態研究成果提供安全、完善的共享交互與公開機制,具體方式方法是在云端為高校與科研機構搭建科研數據沙箱。搭建完成后,組織管理員可通過該沙箱平臺對各類數據進行統一接入、管理;通過權限系統控制其公開范圍,即可有選擇性地將可開放的數據公開至組織的門戶頁;同時自定義每個數據集訪問用戶的查看、使用或下載權限,實現數據公開卻不落地,通過平臺也能夠自動生成“數據賬本”,查看數據資產實時、完整的使用記錄;最后,ModelWhale 支持為每份數據生成 DOI 標識,在認證數據權益的同時,他人也可通過 DOI 號快速分享查找相關數據集,進一步提升了數據價值利用的科學性與可持續性。

ModelWhale 為華東師范大學搭建的研究數據中臺門戶頁
除數據資產外,ModelWhale 還支持更多類型的研究成果開放發布,將項目鏈接與模型服務網頁應用同樣部署于組織門戶即可。值得一提的是,算法模型作為數據驅動研究中較為獨特的要素,在公開發布后,社會面大規模應用同樣是驗證模型實際效能的過程。研究者可根據平臺記錄下的模型調用次數、歷史及使用過程等信息,來制定下一步的研究計劃與優化方向。
3.和鯨社區提供多維研究成果發布渠道
同屬和鯨科技旗下的和鯨社區聚集了30w+的數據研究愛好者,持續對社區內的海量數據資源與多領域代碼項目案例進行研究、學習、復現。ModelWhale 與其接軌,數據驅動研究的成果資產可以數據資源、項目案例的形式發布至社區,使社區成為除期刊、組織門戶外的又一受眾廣泛的成果展示渠道,數據驅動研究不再只“位于高處”,同樣可以“貼地飛行”,降低社會面對于研究的接觸難度,無疑也對提高成果價值認知度、認可度有所助力。

和鯨社區主頁一覽
強大的算力調度管理能力
如何進行算力調度管理一直是廣大高校與科研機構較為關心的問題,如前文所述,目前正是由于缺乏合理的調度機制,造成了空有強大硬件資源而用不上的情況。本節將從算力接入、各規格算力統一管理、精細化算力調度、算力資源的即開即用四個層面提供相應解決方案。
算力接入:私有化部署與運維
獨立部署的 ModelWhale 在算力接入上可選擇本地服務器(需要高效利用已有硬件設備客戶的首選)、私有云或來自各主流云廠商提供的云服務,無論是哪種方式,基于云原生技術方案的 ModelWhale 都可靈活對接,同時支持跨云調度。
部署完成后,ModelWhale 將提供全套運維服務與完整的售后機制,做到全程跟進。一般性問題,可于線上遠程支持;嚴重或復雜問題,也可以到當地進行解決,不再浪費研究組織內的人力資源運維相關系統。
各規格算力統一管理:閑置算力不浪費,滿足大型復雜計算任務
若選擇高校與科研機構的本地服務器完成算力接入,這意味著已將組織內的本地服務器算力進行了集成,下一步便是各規格算力的統一管理,即如何將之前的閑置資源更方便地利用起來,并分配給不同的老師、研究人員的項目課題組。
通過 ModelWhale,高校與科研機構的管理員可利用圖形化操作界面,根據核數與內存大小對算力進行拆分,再按照不同的使用需求分配給不同群體。舉例來說,數據驅動研究中經常出現大型復雜計算任務,因此需要較高規格的 CPU 算力或 GPU 集群,同時,較為基礎的算力資源則可分配給高校內的教學團隊用于課程實踐,做到各規格算力都不閑置。
此外,ModelWhale 還提供資源申用機制,當現有計算存儲資源不夠用時,項目組管理員可直接通過發起申請及時獲得算力補給,應對不同研究需求。

算力資源按需分配至不同的研究項目組
精細化、靈活的算力調度
如果說各規格算力統一管理的著眼點在于從高校與科研機構組織到組織內不同的項目課題組,那么精細化、靈活的算力調度則更關心項目組內人員間的算力調配。
數據驅動研究項目組內使用算力資源屬于“高規格+高并發”場景,如何將有限的算力分配給組內較多的研究人員呢?同組織管理員一樣,項目組管理員同樣可通過簡單的點選式操作完成遠程資源的分配與管控,精細到組內的每個成員,包括配置可使用的特定資源類型與時長。通過算力上云,項目組內研究人員的研究環境不再局限于辦公室、實驗室的網絡或電腦,個人 pc 也可隨時隨地進行相關研究。

計算資源管理 - 資源使用界面
項目組管理員、負責人對組內研究者們的算力進行實時把控也是杜絕資源浪費的一種途徑。另外,在算力緊缺的情況下,ModelWhale 不僅提供資源排隊機制,也支持為組內成員配置資源使用優先級,使其優先完成部分相對重要的研究工作。最后,算力申請機制同樣適用于項目課題組內,申請將由管理員審核,通過后即可根據各研究者的需求自動發放相應資源。
算力資源的即開即用
最后,算力同分析環境與鏡像一樣,屬于即開即用的一部分:獲得項目組管理員分配的算力后,組內研究人員在開始項目前自主選取所需算力,即可一鍵完成資源調用,開始數據研究工作,同時在研究過程中,也可隨時查看自己算力、內存、磁盤的使用情況。當遇到大型、復雜的計算任務時,新上線的 Pipeline 功能能夠支持任務編排與并行計算,該功能屬于模型離線訓練的一環,可使訓練過程中的相關算力調度變得更為高效。項目關閉、算力使用結束后,資源也會自動釋放,供組內其他有需要的研究人員使用。
客戶案例分享 · 清華大學中國新型城鎮化研究院
目前,國內眾多高校與科研機構都已對 ModelWhale 有了深度應用,本文將以清華大學中國新型城鎮化研究院的客戶案例為例,對上文中所述的產品、服務能力進行補充與具體展示。

ModelWhale 高校與科研機構合作伙伴
基礎設施搭建需求:搭建項目內人人可用的數據分析平臺,同時協助完成數據資產成果的管理
契合清華大學新研院科研痛點最主要的基礎設施搭建需求可簡單分為“數據分析協同”與“數據資產成果管理”兩個層面。
數據分析協同上,由于新研院項目中涉及的數據眾多,傳統方式在數據集協作方面會花費大量的時間與精力,加上特定研究項目中的成員具有領域專業性與交叉性的特點,對于數據分析工具的使用能力不一而足,因此學院亟需使用的是具備協同功能、且門檻較低而分析能力較強的數據分析平臺。
數據資產成果管理層面,由于研究項目涉及指標繁多、數據迭代較快,數據管理本身難度較高。在缺乏統一高效數據管理平臺的情況下,一方面之前的研究成果與新增的數據資產很難實現信息化統一,另一方面新增數據資產易出現數據更新不及時的情況,造成數據無法及時復現復用,影響了不少研究團隊進行成果交流的效率。
應用方案:交叉領域科研云端數據分析協同創新平臺
針對學院需求,ModelWhale 為其部署了工科科研云端數據分析協同創新平臺,平臺能力主要包含以下三個方面:
1.可進行算力資源調配的開放式低門檻云端數據分析協同平臺
此方面是最基礎的,也是新研院最為關心、最直擊痛點的部分。實際應用中,新研院的研究者們可利用由 ModelWhale 提供的完備線上數據分析環境與專業數據科學功能組件,快速開始研究工作;此外,組織及項目管理員可通過完整的權限管理系統,對相關數據資產與研究成果進行合理的權限設置、內容分發,在保護研究成果安全的同時進行跨行業領域、跨組織機構、跨角色人員間高效便捷的協同合作;最后,新研院內部項目組及與之有合作協同的外部工作團隊都能夠利用 ModelWhale 強大的算力資源調配功能便捷接入各類基礎設施云平臺與各種計算實例,根據實際需求實現云資源的快速拓展與高效調度。

協作研究一體化管理
2.數據驅動研究項目全生命周期管理,輕松復用既往研究成果
研究項目全生命周期管理,尤其是對既往研究成果復用的重要性如前文所述,當然也是新研院極為關心的部分之一。在進行城鎮相關項目數據分析研究的過程中普遍會使用到 Notebook 編程建模與一應的模型服務,因此代碼庫與算法庫均為高頻使用的功能模塊,研究人員可據此進行代碼片段與算法模型的復用。相對更值得一提的是 ModelWhale 的自定義鏡像管理功能與專為清華新研院部署的 Canvas 組件模塊:通過該兩項功能,研究者們既能解決原先新研院內數據協同困難、開始數據分析研究前均需裝包搭建合適鏡像而無法復用前人成果、人人造輪子的難題;同時也能使復用既往研究流程成為可能,節省大量時間。
3.與院系原有“空間數據可視化平臺”打通,實現便捷數據傳輸、助力研究成果復現展示
最后這部分是更為專屬化的產品服務。清華新研院原先就有一個“空間數據可視化平臺”,里面有存儲相對較多的業內數據源,同時也能對項目研究成果進行公開展示。ModelWhale 將所搭建的數據分析平臺與院系原有的空間數據可視化平臺做了集成,使兩者間的數據傳輸、研究成果快捷發布展示成為可能:當研究人員需要空間數據可視化平臺中的數據資源,可向管理員提出申請,獲得許可后,可通過創建“數據庫連接”的方式將位于可視化平臺中的數據直接被添加到數據分析平臺;而在數據分析平臺完成項目研究后,研究人員也可將項目分析成果發布至可視化平臺進行成果展示或基于該平臺功能的其他操作。新搭建的數據分析平臺與院系原有的空間數據可視化平臺合理集成,研究人員在兩個平臺的賬號支持綁定、實現便捷一鍵登錄,但平臺的權限又能做到不互通,保障數據安全。
結束語
過去5年間,ModelWhale 先后與清華大學、南開大學、華東師范大學等高等學府,國家氣象信息中心、中國自然資源航空物探遙感中心、紫金山實驗室等先進科研組織進行了深入合作,很高興能參與到各領域的數據驅動研究中去。
我們深知,制作一個工具、建設一個平臺并不是最大的難點,如何將其使用起來、真正發揮出平臺的產品能力才是關鍵。我們希望能用我們積累下來的經驗與方法論,幫助大家一起梳理使用場景,進行數據驅動研究全生命周期的建設與跟蹤,為大家帶來實質性的幫助。
另外,ModelWhale 不僅可用于科研工作,還可用于數據、算力、模型一體化工作流管理,數據開放應用及教學實訓管理等工作。
如果你想更深入地了解 ModelWhale 科研協同、教學實訓相關的各項功能與應用案例,歡迎進入 ModelWhale 官網 注冊體驗。






