亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

新基建的浪潮如火如荼,國家頂層政策的引導不僅支持著由數(shù)據(jù)驅(qū)動各垂直領(lǐng)域中的新興商業(yè)市場,也為相關(guān)科研市場的發(fā)展提供了眾多機遇。

但持續(xù)的發(fā)展也帶來了新的問題,傳統(tǒng)基礎(chǔ)設(shè)施已逐漸不能響應(yīng)新興數(shù)據(jù)驅(qū)動研究所需的軟硬件支持。本文將從此類問題出發(fā),為各領(lǐng)域研究團隊介紹 ModelWhale 云端數(shù)據(jù)科學協(xié)同平臺,以其不同的產(chǎn)品服務(wù)價值在不同層面上提供系列解決方案,期待為由數(shù)據(jù)驅(qū)動的科學研究提供助力。

目錄

數(shù)據(jù)驅(qū)動研究部署于傳統(tǒng)基礎(chǔ)設(shè)施的現(xiàn)存問題

ModelWhale,數(shù)據(jù)驅(qū)動研究的云端協(xié)同創(chuàng)新平臺

數(shù)據(jù)驅(qū)動研究的全生命周期管理

數(shù)據(jù)資產(chǎn)與研究成果的沉淀與展示

強大的算力調(diào)度管理能力

客戶案例分享 · 清華大學中國新型城鎮(zhèn)化研究院:交叉領(lǐng)域科研云端數(shù)據(jù)分析協(xié)同創(chuàng)新平臺

數(shù)據(jù)驅(qū)動研究部署于傳統(tǒng)基礎(chǔ)設(shè)施的現(xiàn)存問題

部署于傳統(tǒng)基礎(chǔ)設(shè)施的數(shù)據(jù)驅(qū)動研究在大環(huán)境發(fā)展中所暴露出的問題,歸根結(jié)底是此類基礎(chǔ)設(shè)施已無法滿足現(xiàn)有的使用需求。在對相關(guān)高校與科研機構(gòu)的痛點問題進行客戶調(diào)研后,本文得出以下結(jié)論。

科研期待:項目能有完整的生命周期,結(jié)項不是項目的終結(jié),后續(xù)能夠復(fù)用是項目生命的存續(xù)

實際情況:極不合理的項目成果管理方式為“成果復(fù)用”設(shè)置重重阻礙

對既往研究成果進行復(fù)用以賦予項目完整生命周期中的“復(fù)用”定義十分寬泛:可以是復(fù)用既往項目中的“中間成果”,譬如僅僅一個代碼片段;也可以是“階段性較為完整的成果”,譬如一個模型或搭建完成的一個鏡像;還可以是對于某一類項目較為流程化、規(guī)范化的“研究范式”。

同時,此類“復(fù)用”是跨時間、跨人員的。然而事實上,由于項目研究成果缺少系統(tǒng)的歸納管理,加之項目組人員時有更替,隨著時間的流逝,極容易忘卻之前的研究成果,即使記起、有復(fù)用的打算,也很難將其翻找出來、輔以配套環(huán)境完整復(fù)現(xiàn)。即使大家都贊同,合理復(fù)用從長遠能夠節(jié)省大量時間,為避免當下的麻煩,項目進行過程中大部分相關(guān)人員還是會選擇重頭再來。

科研期待:外界對于項目價值的認可

實際情況:沒有完整展示研究成果、完全復(fù)現(xiàn)研究過程的條件,外界接觸研究成果的渠道十分有限

傳統(tǒng)的項目在研究完成后不會想到在云端沉淀項目成果,即使選擇了云端沉淀,主要沉淀的也是文字與“死的”數(shù)據(jù),而不會留存“數(shù)據(jù)分析、編程建模的過程”,這主要是由于一般的成果沉淀渠道沒有所謂可存儲“中間過程”的環(huán)境。研究過程難以被他人完全復(fù)現(xiàn)、研究成果得不到“完整的展示”,顯然不利于提升項目價值的認可度。

此外,目前國內(nèi)的科研環(huán)境缺少一個除期刊、組織門戶外可展示或合理開放研究成果的渠道,大眾領(lǐng)域的科研愛好者與相關(guān)領(lǐng)域的外部人員無從接觸項目資源、不知道項目組究竟做出了什么成果,亦或是在時效性上有很大的延遲。

1可復(fù)現(xiàn).png

關(guān)于“可復(fù)現(xiàn)性危機”的調(diào)查,圖源 Nature

科研期待:科研過程中算力高效、精準的調(diào)配

實際情況:集成難、調(diào)度難、運維難,資源閑置,空有硬件而用不上

首先我們需要明確,數(shù)據(jù)驅(qū)動的研究項目普遍屬于大型、復(fù)雜計算任務(wù),例如 GPU 集群模型訓練等,對硬件要求高,一般的個人 pc 于本地無法滿足相應(yīng)算力需求。

其次,普遍來說,高校與科研機構(gòu)內(nèi)不是沒有高規(guī)格服務(wù)器,但此類服務(wù)器一般較為分散,組織層面上不知道如何整合利用這部分資源。云上對資源進行集成調(diào)度理論上可行,但相關(guān)部署運維工作繁瑣且專業(yè)性強,小到課題組,大到學校、院系很難尋找到一個合適的人選為此花費大量時間精力。最終造成的結(jié)果是,校內(nèi)許多服務(wù)器處于閑置狀態(tài)沒有被充分利用,浪費了大量計算與存儲資源。

ModelWhale,數(shù)據(jù)驅(qū)動研究的云端協(xié)同創(chuàng)新平臺

作為數(shù)據(jù)科學行業(yè)中的佼佼者,和鯨科技旗下核心產(chǎn)品 ModelWhale 一直是各業(yè)研究人員的優(yōu)選,并獲得清華大學、南開大學、北京協(xié)和醫(yī)學院等一線科研團隊的廣泛好評。作為云端協(xié)同創(chuàng)新平臺,ModelWhale 將從以下幾方面助力數(shù)據(jù)驅(qū)動的科學研究:

數(shù)據(jù)驅(qū)動研究的全生命周期管理

數(shù)據(jù)資產(chǎn)與研究成果的沉淀與展示

強大的算力調(diào)度管理能力

文末,還將附上清華大學新型城鎮(zhèn)化研究院的客戶案例用以對 ModelWhale 的上述產(chǎn)品、服務(wù)能力進行具體的展示。

數(shù)據(jù)驅(qū)動研究的全生命周期管理

本節(jié)主要為項目從生產(chǎn)到復(fù)用全生命周期管理過程中出現(xiàn)的系列問題提供解決方案,為方便行文,將拆分為“項目從零生產(chǎn)”與“復(fù)用既往研究”兩部分。

項目從零生產(chǎn)

數(shù)據(jù)驅(qū)動研究的地基便是數(shù)據(jù)本身,而部署于傳統(tǒng)基礎(chǔ)設(shè)施的數(shù)據(jù)驅(qū)動研究在數(shù)據(jù)管理上主要依賴的還是人力。而通過 ModelWhale,在保證數(shù)據(jù)安全的前提下,研究者們不僅能夠創(chuàng)建不同類型的數(shù)據(jù)源,例如數(shù)據(jù)集、數(shù)據(jù)庫連接、對象存儲連接、NAS 空間、標注數(shù)據(jù)等,更是能夠?qū)ο嚓P(guān)數(shù)據(jù)源進行概述、標識、版本管理、評論及分發(fā)共享。ModelWhale 為研究者們提供的數(shù)據(jù)接入與管理功能就是要為數(shù)據(jù)驅(qū)動研究打好基礎(chǔ),令廣大研究人員不必再為數(shù)據(jù)管理的底層繁復(fù)工作浪費時間。

2NAS.gifNAS 空間內(nèi)進行數(shù)據(jù)接入、管理、協(xié)作、分析等操作

解決了數(shù)據(jù)問題便從零生產(chǎn)項目,而生產(chǎn)項目的第一步,往往是裝包搭建環(huán)境。作為云端數(shù)據(jù)科學協(xié)同平臺,ModelWhale 提供 Jupyter Notebook 交互式、Canvas 拖拽式、CloudIDE 三種云端分析環(huán)境,并支持 Python、R 等數(shù)種編程語言,適配研究者們不同的編程需求與習慣;另外平臺內(nèi)已配備多種通用與特定學科鏡像,新建項目時直接選定即可,真正做到即開即用——打開 ModelWhale,不需要配置任何環(huán)境,即可開始項目研究,省時省力。

3notebook.gif

快速新建 Notebook 開始研究

4鏡像.gif

內(nèi)置多種鏡像供不同領(lǐng)域研究者使用

配置好環(huán)境即可開始數(shù)據(jù)分析、編程建模。一般的編程操作不必多說,選定相應(yīng)的分析界面、算力、鏡像開始即可。值得一提的是,數(shù)據(jù)驅(qū)動研究一般關(guān)注的是對于不確定性問題的探索,面對一個新課題,在最開始,往往并不能夠明確哪種方法與手段可達成研究目的,我們需要多種多樣的嘗試。因此,ModelWhale 在這里能夠提供的額外功能就是非 Git 邏輯控制的版本管理,不會太重,隨時進行項目的版本比對與 Cell 級版本回溯,支持廣大研究者們的從零探索。

5版本比對.gif

版本比對與版本回溯,一鍵接受歷史版本

另外,針對于數(shù)據(jù)驅(qū)動研究普遍存在的大型復(fù)雜計算任務(wù),例如深度學習等,如前文所述,ModelWhale 首先支持將 NAS 目錄作為數(shù)據(jù)源掛載進分析環(huán)境,從而實現(xiàn)對超大數(shù)據(jù)的分析研究,其次還支持模型的離線訓練功能,即在電腦關(guān)閉后訓練任務(wù)仍可繼續(xù),解放研究人員的時間與精力,同時提供訓練結(jié)果可視化比對,協(xié)助高效進行模型的調(diào)參與選擇。一句話總結(jié),ModelWhale 將從各種細節(jié)緩解研究者們繁復(fù)的底層工作。

6離線任務(wù).png

新建模型離線訓練任務(wù)

最后,科學研究往往不是一個人的工作,對于復(fù)雜項目,組內(nèi)進行多人分攤是很常有的事,而 ModelWhale 不僅關(guān)乎數(shù)據(jù)科學,更是云端協(xié)同創(chuàng)新平臺,助力多人協(xié)作研究義不容辭。通俗來說,可以將 ModelWhale 想象為代碼版的主流云文檔軟件,能夠?qū)崿F(xiàn)多人在線編輯同個項目,當然,為避免代碼碰撞出現(xiàn)的 bug,需要生成版本才能將進展同步給他人。另外 ModelWhale 還具備任務(wù)規(guī)劃的項目管理工具,負責人可以新建課題任務(wù),并將其拆分成子任務(wù)進行分發(fā),協(xié)同團隊共同完成復(fù)雜的項目研究。最后,多人協(xié)作不僅著眼于某一項目組內(nèi)部,我們也關(guān)注跨行業(yè)、跨領(lǐng)域的合作協(xié)同:運用 Canvas 功能,代碼能力較弱的各領(lǐng)域理論學者可與數(shù)據(jù)科學家們同時工作,理論學者負責以功能模塊搭建研究思路,數(shù)據(jù)科學家將其轉(zhuǎn)化為實操代碼,相輔相成、事半功倍。

7任務(wù)規(guī)劃.png

項目管理工具,任務(wù)規(guī)劃界面

8canvas.gif

用 Canvas 快速搭建分析流程

復(fù)用既往研究

前文也已提及,對于數(shù)據(jù)驅(qū)動研究而言,除了從零開始,復(fù)用既往研究成果從長遠來看是極能提升效率的方式之一,也是項目全生命周期管理中極易被忽視的一環(huán),而 ModelWhale 將從鏡像、代碼片段、研究模板與工作流、算法模型多角度多層次的助力研究時的復(fù)用工作。

1.自定義鏡像的復(fù)用,不必人人造輪子

“項目從零生產(chǎn)”中有提到,ModelWhale 本身內(nèi)嵌了多種通用與特定學科鏡像,新建項目時直接選定即可,那么若這些鏡像無法滿足當下研究需求又該怎么辦呢?這時,研究人員可新建自定義鏡像以匹配當前需求。但這并不表示項目組內(nèi)的每個研究者在開始研究前都需要進行此步操作,一旦完成契合研究需求自定義鏡像的新建,該鏡像可以分發(fā)給組織內(nèi)的任意成員進行復(fù)用,不必人人造輪子,除了負責新建鏡像的第一人,組內(nèi)其他研究者依然能夠即開即用地復(fù)用既往已被搭建完成的研究環(huán)境。

9自定義鏡像.gif

自定義科研鏡像,一鍵同步給項目組其他研究人員

2.Notebook 代碼庫,代碼片段也可輕松復(fù)用

ModelWhale Jupyter Notebook 側(cè)邊欄中具備代碼片段庫功能,研究人員在既往研究中可預(yù)先收藏有幾率被復(fù)用到的代碼片段,后續(xù)進行新一輪研究時,即可在該代碼庫“我的收藏”中找到相應(yīng)代碼片段,此外,代碼庫中還包含了一部分官方代碼,無論是“公有庫”還是“我的收藏”,其中的代碼片段都能夠在新項目界面進行復(fù)用,直接插入即可。最后,代碼庫內(nèi)的代碼片段支持組織內(nèi)的權(quán)限管理與分發(fā),研究人員 A 收藏的代碼片段可便捷復(fù)用至 B 的項目。

10代碼復(fù)用

代碼片段收藏與復(fù)用

3.Canvas 組件,通過可視化規(guī)范 Flow 模板創(chuàng)建項目

ModelWhale Canvas 簡單來說是基于可視化和模型驅(qū)動的理念,通過“拖拉拽”組件,完成應(yīng)用模型的搭建。這樣說有些大而抽象,實際操作中,Canvas 如何被應(yīng)用到項目成果的復(fù)用過程呢?試想一下,當研究人員正進行一套較為繁瑣但極其流程化、不需要創(chuàng)新、后續(xù)也還會經(jīng)常進行的項目步驟時,可選擇在 Canvas 中運用組件預(yù)構(gòu)這一套步驟,將其封裝成為常用的工作流 Flow,后續(xù)在別的項目中再次遇見這一套步驟,就可通過 Canvas 模板直接創(chuàng)建項目、確認組件流程,再轉(zhuǎn)化為 Notebook,此時大框架已有,通過代碼微調(diào)即可實現(xiàn)那一套繁瑣且流程化的項目步驟,十分便捷。

11canvas-notebook

通過模板創(chuàng)建 Canvas 項目,并一鍵另存為 Notebook

4.算法庫功能:實現(xiàn)對算法模型的整理、分享、復(fù)用

利用算法庫,研究人員可以管理既往研究工作中已產(chǎn)出的算法模型,輔以文字說明,實現(xiàn)對這些算法模型的整理與分享,實際復(fù)用時,可將此類成果直接創(chuàng)建項目或模型服務(wù),免去大量冗余的代碼編寫、模型訓練工作,節(jié)省時間。此外,ModelWhale 算法庫內(nèi)也已整理部分常用算法,供研究者在進行通用數(shù)據(jù)分析工作時隨時調(diào)用。

12算法庫

算法庫功能對于算法模型的沉淀管理、一鍵復(fù)現(xiàn)

數(shù)據(jù)資產(chǎn)與研究成果的沉淀與展示

本節(jié)主要為數(shù)據(jù)驅(qū)動研究資產(chǎn)成果沉淀與展示過程中出現(xiàn)的系列問題提供解決方案,為方便行文,將拆分為“資產(chǎn)成果沉淀復(fù)現(xiàn)”與“資產(chǎn)成果復(fù)現(xiàn)展示”兩部分。

資產(chǎn)成果沉淀復(fù)現(xiàn)

如前文所述,傳統(tǒng)的數(shù)據(jù)驅(qū)動項目在研究完成后不會想到在云端沉淀完整的項目成果,主要是因為一般的成果沉淀渠道沒有所謂可存儲研究“中間過程”的環(huán)境,而現(xiàn)在 ModelWhale 可為廣大研究者們提供這樣一個環(huán)境:

上一部分中我們也提到,ModelWhale 具備版本管理功能,詳細來說 ModelWhale 是為內(nèi)部的所有生產(chǎn)資料都提供了版本管理功能,例如分析環(huán)境、數(shù)據(jù)、代碼及模型服務(wù)。在項目研究完成后,科研人員可以選定最終運行時的分析環(huán)境、掛載的數(shù)據(jù)集、最后的代碼版本,將生產(chǎn)要素全部整合在一起,并補充一定的文字說明,沉淀至組織的項目成果庫中。一方面,團隊內(nèi)的其他成員可隨時查看成果庫進行復(fù)現(xiàn);另一方面,這也同時解決了科研人員隨著時間推移由于分析環(huán)境改變或文件丟失而無法復(fù)現(xiàn)自己既往成果的問題。

13項目成果.png

ModelWhale 項目成果管理界面

資產(chǎn)成果復(fù)現(xiàn)展示

上一部分中項目成果庫這一功能主要為組織內(nèi)成員開放,因此此類“成果復(fù)現(xiàn)”以對內(nèi)為主、對外為輔,在真正提交項目進入項目評議、對外發(fā)布的過程中,ModelWhale 主要從以下幾方面助力研究資產(chǎn)成果的復(fù)現(xiàn)展示。

1.項目鏈接與模型服務(wù)網(wǎng)頁應(yīng)用

項目提交評議時附帶成果的查看鏈接將提升項目產(chǎn)出整體的完備度,此處的成果包含了項目鏈接與模型服務(wù)的網(wǎng)頁應(yīng)用兩種。對于項目鏈接,項目負責人 / 審稿人不僅能夠快速查看、復(fù)現(xiàn)數(shù)據(jù)分析的完整流程,針對于一個 Notebook,也能夠就其中具體的 Cell 進行提問與評論;對于發(fā)布為網(wǎng)頁應(yīng)用的模型服務(wù),項目負責人 / 審稿人更能夠一鍵調(diào)用,填寫表單后即可使用真實數(shù)據(jù)獲得模型運行推斷結(jié)果,使其對科研產(chǎn)出有更直觀的認識與更準確的評價。

14cell.png

針對項目的特定 Cell 進行提問與評論

15網(wǎng)頁服務(wù).gif

模型服務(wù)發(fā)布為網(wǎng)頁應(yīng)用

2.開放科研:組織門戶對于研究成果的展示、公開

數(shù)據(jù)驅(qū)動研究無論是在進行過程中還是項目結(jié)項后都會產(chǎn)生大量的數(shù)據(jù)成果,對此類資產(chǎn)進行合理公開貫徹了“開放科研”的學術(shù)理念,不僅能夠解決當前科研成果剩余價值的流失問題、有利于發(fā)揮科學數(shù)據(jù)的最大價值,同時也為數(shù)據(jù)驅(qū)動的研究提供社會效益的支持、讓更多的人共同參與科學研究工作。然而目前仍存在著許多壁壘阻礙了開放科研的實現(xiàn):首先,就數(shù)據(jù)本身來說,數(shù)據(jù)源載體多、存儲形式多樣、數(shù)據(jù)類型廣泛,都為數(shù)據(jù)資產(chǎn)共享與管理造成了比較大的麻煩;其次,傳統(tǒng)的有限防護機制不一定能夠保障數(shù)據(jù)權(quán)益與數(shù)據(jù)安全,數(shù)據(jù)資產(chǎn)共享者將面臨風險責任與權(quán)利受益的矛盾。

而 ModelWhale 能夠為數(shù)據(jù)驅(qū)動研究生產(chǎn)資料與多形態(tài)研究成果提供安全、完善的共享交互與公開機制,具體方式方法是在云端為高校與科研機構(gòu)搭建科研數(shù)據(jù)沙箱。搭建完成后,組織管理員可通過該沙箱平臺對各類數(shù)據(jù)進行統(tǒng)一接入、管理;通過權(quán)限系統(tǒng)控制其公開范圍,即可有選擇性地將可開放的數(shù)據(jù)公開至組織的門戶頁;同時自定義每個數(shù)據(jù)集訪問用戶的查看、使用或下載權(quán)限,實現(xiàn)數(shù)據(jù)公開卻不落地,通過平臺也能夠自動生成“數(shù)據(jù)賬本”,查看數(shù)據(jù)資產(chǎn)實時、完整的使用記錄;最后,ModelWhale 支持為每份數(shù)據(jù)生成 DOI 標識,在認證數(shù)據(jù)權(quán)益的同時,他人也可通過 DOI 號快速分享查找相關(guān)數(shù)據(jù)集,進一步提升了數(shù)據(jù)價值利用的科學性與可持續(xù)性。

16華師大.png

ModelWhale 為華東師范大學搭建的研究數(shù)據(jù)中臺門戶頁

除數(shù)據(jù)資產(chǎn)外,ModelWhale 還支持更多類型的研究成果開放發(fā)布,將項目鏈接與模型服務(wù)網(wǎng)頁應(yīng)用同樣部署于組織門戶即可。值得一提的是,算法模型作為數(shù)據(jù)驅(qū)動研究中較為獨特的要素,在公開發(fā)布后,社會面大規(guī)模應(yīng)用同樣是驗證模型實際效能的過程。研究者可根據(jù)平臺記錄下的模型調(diào)用次數(shù)、歷史及使用過程等信息,來制定下一步的研究計劃與優(yōu)化方向。

3.和鯨社區(qū)提供多維研究成果發(fā)布渠道

同屬和鯨科技旗下的和鯨社區(qū)聚集了30w+的數(shù)據(jù)研究愛好者,持續(xù)對社區(qū)內(nèi)的海量數(shù)據(jù)資源與多領(lǐng)域代碼項目案例進行研究、學習、復(fù)現(xiàn)。ModelWhale 與其接軌,數(shù)據(jù)驅(qū)動研究的成果資產(chǎn)可以數(shù)據(jù)資源、項目案例的形式發(fā)布至社區(qū),使社區(qū)成為除期刊、組織門戶外的又一受眾廣泛的成果展示渠道,數(shù)據(jù)驅(qū)動研究不再只“位于高處”,同樣可以“貼地飛行”,降低社會面對于研究的接觸難度,無疑也對提高成果價值認知度、認可度有所助力。

17社區(qū)頁

和鯨社區(qū)主頁一覽

強大的算力調(diào)度管理能力

如何進行算力調(diào)度管理一直是廣大高校與科研機構(gòu)較為關(guān)心的問題,如前文所述,目前正是由于缺乏合理的調(diào)度機制,造成了空有強大硬件資源而用不上的情況。本節(jié)將從算力接入、各規(guī)格算力統(tǒng)一管理、精細化算力調(diào)度、算力資源的即開即用四個層面提供相應(yīng)解決方案。

算力接入:私有化部署與運維

獨立部署的 ModelWhale 在算力接入上可選擇本地服務(wù)器(需要高效利用已有硬件設(shè)備客戶的首選)、私有云或來自各主流云廠商提供的云服務(wù),無論是哪種方式,基于云原生技術(shù)方案的 ModelWhale 都可靈活對接,同時支持跨云調(diào)度。

部署完成后,ModelWhale 將提供全套運維服務(wù)與完整的售后機制,做到全程跟進。一般性問題,可于線上遠程支持;嚴重或復(fù)雜問題,也可以到當?shù)剡M行解決,不再浪費研究組織內(nèi)的人力資源運維相關(guān)系統(tǒng)。

各規(guī)格算力統(tǒng)一管理:閑置算力不浪費,滿足大型復(fù)雜計算任務(wù)

若選擇高校與科研機構(gòu)的本地服務(wù)器完成算力接入,這意味著已將組織內(nèi)的本地服務(wù)器算力進行了集成,下一步便是各規(guī)格算力的統(tǒng)一管理,即如何將之前的閑置資源更方便地利用起來,并分配給不同的老師、研究人員的項目課題組。

通過 ModelWhale,高校與科研機構(gòu)的管理員可利用圖形化操作界面,根據(jù)核數(shù)與內(nèi)存大小對算力進行拆分,再按照不同的使用需求分配給不同群體。舉例來說,數(shù)據(jù)驅(qū)動研究中經(jīng)常出現(xiàn)大型復(fù)雜計算任務(wù),因此需要較高規(guī)格的 CPU 算力或 GPU 集群,同時,較為基礎(chǔ)的算力資源則可分配給高校內(nèi)的教學團隊用于課程實踐,做到各規(guī)格算力都不閑置。

此外,ModelWhale 還提供資源申用機制,當現(xiàn)有計算存儲資源不夠用時,項目組管理員可直接通過發(fā)起申請及時獲得算力補給,應(yīng)對不同研究需求。

18算力1.gif

算力資源按需分配至不同的研究項目組

精細化、靈活的算力調(diào)度

如果說各規(guī)格算力統(tǒng)一管理的著眼點在于從高校與科研機構(gòu)組織到組織內(nèi)不同的項目課題組,那么精細化、靈活的算力調(diào)度則更關(guān)心項目組內(nèi)人員間的算力調(diào)配。

數(shù)據(jù)驅(qū)動研究項目組內(nèi)使用算力資源屬于“高規(guī)格+高并發(fā)”場景,如何將有限的算力分配給組內(nèi)較多的研究人員呢?同組織管理員一樣,項目組管理員同樣可通過簡單的點選式操作完成遠程資源的分配與管控,精細到組內(nèi)的每個成員,包括配置可使用的特定資源類型與時長。通過算力上云,項目組內(nèi)研究人員的研究環(huán)境不再局限于辦公室、實驗室的網(wǎng)絡(luò)或電腦,個人 pc 也可隨時隨地進行相關(guān)研究。

19算力2.png

計算資源管理 - 資源使用界面

項目組管理員、負責人對組內(nèi)研究者們的算力進行實時把控也是杜絕資源浪費的一種途徑。另外,在算力緊缺的情況下,ModelWhale 不僅提供資源排隊機制,也支持為組內(nèi)成員配置資源使用優(yōu)先級,使其優(yōu)先完成部分相對重要的研究工作。最后,算力申請機制同樣適用于項目課題組內(nèi),申請將由管理員審核,通過后即可根據(jù)各研究者的需求自動發(fā)放相應(yīng)資源。

算力資源的即開即用

最后,算力同分析環(huán)境與鏡像一樣,屬于即開即用的一部分:獲得項目組管理員分配的算力后,組內(nèi)研究人員在開始項目前自主選取所需算力,即可一鍵完成資源調(diào)用,開始數(shù)據(jù)研究工作,同時在研究過程中,也可隨時查看自己算力、內(nèi)存、磁盤的使用情況。當遇到大型、復(fù)雜的計算任務(wù)時,新上線的 Pipeline 功能能夠支持任務(wù)編排與并行計算,該功能屬于模型離線訓練的一環(huán),可使訓練過程中的相關(guān)算力調(diào)度變得更為高效。項目關(guān)閉、算力使用結(jié)束后,資源也會自動釋放,供組內(nèi)其他有需要的研究人員使用。

客戶案例分享 · 清華大學中國新型城鎮(zhèn)化研究院

目前,國內(nèi)眾多高校與科研機構(gòu)都已對 ModelWhale 有了深度應(yīng)用,本文將以清華大學中國新型城鎮(zhèn)化研究院的客戶案例為例,對上文中所述的產(chǎn)品、服務(wù)能力進行補充與具體展示。

20科研伙伴.png

ModelWhale 高校與科研機構(gòu)合作伙伴

基礎(chǔ)設(shè)施搭建需求:搭建項目內(nèi)人人可用的數(shù)據(jù)分析平臺,同時協(xié)助完成數(shù)據(jù)資產(chǎn)成果的管理

契合清華大學新研院科研痛點最主要的基礎(chǔ)設(shè)施搭建需求可簡單分為“數(shù)據(jù)分析協(xié)同”與“數(shù)據(jù)資產(chǎn)成果管理”兩個層面。

數(shù)據(jù)分析協(xié)同上,由于新研院項目中涉及的數(shù)據(jù)眾多,傳統(tǒng)方式在數(shù)據(jù)集協(xié)作方面會花費大量的時間與精力,加上特定研究項目中的成員具有領(lǐng)域?qū)I(yè)性與交叉性的特點,對于數(shù)據(jù)分析工具的使用能力不一而足,因此學院亟需使用的是具備協(xié)同功能、且門檻較低而分析能力較強的數(shù)據(jù)分析平臺。

數(shù)據(jù)資產(chǎn)成果管理層面,由于研究項目涉及指標繁多、數(shù)據(jù)迭代較快,數(shù)據(jù)管理本身難度較高。在缺乏統(tǒng)一高效數(shù)據(jù)管理平臺的情況下,一方面之前的研究成果與新增的數(shù)據(jù)資產(chǎn)很難實現(xiàn)信息化統(tǒng)一,另一方面新增數(shù)據(jù)資產(chǎn)易出現(xiàn)數(shù)據(jù)更新不及時的情況,造成數(shù)據(jù)無法及時復(fù)現(xiàn)復(fù)用,影響了不少研究團隊進行成果交流的效率。

應(yīng)用方案:交叉領(lǐng)域科研云端數(shù)據(jù)分析協(xié)同創(chuàng)新平臺

針對學院需求,ModelWhale 為其部署了工科科研云端數(shù)據(jù)分析協(xié)同創(chuàng)新平臺,平臺能力主要包含以下三個方面:

1.可進行算力資源調(diào)配的開放式低門檻云端數(shù)據(jù)分析協(xié)同平臺

此方面是最基礎(chǔ)的,也是新研院最為關(guān)心、最直擊痛點的部分。實際應(yīng)用中,新研院的研究者們可利用由 ModelWhale 提供的完備線上數(shù)據(jù)分析環(huán)境與專業(yè)數(shù)據(jù)科學功能組件,快速開始研究工作;此外,組織及項目管理員可通過完整的權(quán)限管理系統(tǒng),對相關(guān)數(shù)據(jù)資產(chǎn)與研究成果進行合理的權(quán)限設(shè)置、內(nèi)容分發(fā),在保護研究成果安全的同時進行跨行業(yè)領(lǐng)域、跨組織機構(gòu)、跨角色人員間高效便捷的協(xié)同合作;最后,新研院內(nèi)部項目組及與之有合作協(xié)同的外部工作團隊都能夠利用 ModelWhale 強大的算力資源調(diào)配功能便捷接入各類基礎(chǔ)設(shè)施云平臺與各種計算實例,根據(jù)實際需求實現(xiàn)云資源的快速拓展與高效調(diào)度。

21團隊界面.gif

協(xié)作研究一體化管理

2.數(shù)據(jù)驅(qū)動研究項目全生命周期管理,輕松復(fù)用既往研究成果

研究項目全生命周期管理,尤其是對既往研究成果復(fù)用的重要性如前文所述,當然也是新研院極為關(guān)心的部分之一。在進行城鎮(zhèn)相關(guān)項目數(shù)據(jù)分析研究的過程中普遍會使用到 Notebook 編程建模與一應(yīng)的模型服務(wù),因此代碼庫與算法庫均為高頻使用的功能模塊,研究人員可據(jù)此進行代碼片段與算法模型的復(fù)用。相對更值得一提的是 ModelWhale 的自定義鏡像管理功能與專為清華新研院部署的 Canvas 組件模塊:通過該兩項功能,研究者們既能解決原先新研院內(nèi)數(shù)據(jù)協(xié)同困難、開始數(shù)據(jù)分析研究前均需裝包搭建合適鏡像而無法復(fù)用前人成果、人人造輪子的難題;同時也能使復(fù)用既往研究流程成為可能,節(jié)省大量時間。

3.與院系原有“空間數(shù)據(jù)可視化平臺”打通,實現(xiàn)便捷數(shù)據(jù)傳輸、助力研究成果復(fù)現(xiàn)展示

最后這部分是更為專屬化的產(chǎn)品服務(wù)。清華新研院原先就有一個“空間數(shù)據(jù)可視化平臺”,里面有存儲相對較多的業(yè)內(nèi)數(shù)據(jù)源,同時也能對項目研究成果進行公開展示。ModelWhale 將所搭建的數(shù)據(jù)分析平臺與院系原有的空間數(shù)據(jù)可視化平臺做了集成,使兩者間的數(shù)據(jù)傳輸、研究成果快捷發(fā)布展示成為可能:當研究人員需要空間數(shù)據(jù)可視化平臺中的數(shù)據(jù)資源,可向管理員提出申請,獲得許可后,可通過創(chuàng)建“數(shù)據(jù)庫連接”的方式將位于可視化平臺中的數(shù)據(jù)直接被添加到數(shù)據(jù)分析平臺;而在數(shù)據(jù)分析平臺完成項目研究后,研究人員也可將項目分析成果發(fā)布至可視化平臺進行成果展示或基于該平臺功能的其他操作。新搭建的數(shù)據(jù)分析平臺與院系原有的空間數(shù)據(jù)可視化平臺合理集成,研究人員在兩個平臺的賬號支持綁定、實現(xiàn)便捷一鍵登錄,但平臺的權(quán)限又能做到不互通,保障數(shù)據(jù)安全。

結(jié)束語

過去5年間,ModelWhale 先后與清華大學、南開大學、華東師范大學等高等學府,國家氣象信息中心、中國自然資源航空物探遙感中心、紫金山實驗室等先進科研組織進行了深入合作,很高興能參與到各領(lǐng)域的數(shù)據(jù)驅(qū)動研究中去。

我們深知,制作一個工具、建設(shè)一個平臺并不是最大的難點,如何將其使用起來、真正發(fā)揮出平臺的產(chǎn)品能力才是關(guān)鍵。我們希望能用我們積累下來的經(jīng)驗與方法論,幫助大家一起梳理使用場景,進行數(shù)據(jù)驅(qū)動研究全生命周期的建設(shè)與跟蹤,為大家?guī)韺嵸|(zhì)性的幫助。

另外,ModelWhale 不僅可用于科研工作,還可用于數(shù)據(jù)、算力、模型一體化工作流管理,數(shù)據(jù)開放應(yīng)用及教學實訓管理等工作。

如果你想更深入地了解 ModelWhale 科研協(xié)同、教學實訓相關(guān)的各項功能與應(yīng)用案例,歡迎進入 ModelWhale 官網(wǎng) 注冊體驗。

分享到:
標簽:科研 清華大學 數(shù)據(jù) 也在 云端 協(xié)同 中國 城鎮(zhèn)化
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定