亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

近幾年,Jupyter Notebook 為數(shù)據(jù)科學(xué)家們提供了與數(shù)據(jù)有效交互的工具。用戶可以運(yùn)行代碼、查看結(jié)果,然后重復(fù)數(shù)據(jù)之間的循環(huán)和迭代。使用 Jupyter Notebook 進(jìn)行研究成為了數(shù)據(jù)科學(xué)家們快速制作原型和探索分析的首選。

然而,數(shù)據(jù)科學(xué)的實(shí)際工作流程,不僅包括數(shù)據(jù)科學(xué)家們利用 Jupyter Notebook 處理數(shù)據(jù)、制作模型,還包括其他成員之間大量的溝通協(xié)作,如:數(shù)據(jù)科學(xué)家和數(shù)據(jù)源端溝通數(shù)據(jù)的接入、和開發(fā)運(yùn)維溝通服務(wù)的容器化和部署、和業(yè)務(wù)方溝通業(yè)務(wù)需求和數(shù)據(jù)服務(wù)效果等。因此,在線 Jupyter Notebook 和低代碼、拖拽式編程工具逐漸發(fā)展,用于優(yōu)化數(shù)據(jù)模型開發(fā)和應(yīng)用的全流程。

本文介紹了數(shù)據(jù)科學(xué)分析工具的發(fā)展進(jìn)程,并對應(yīng)了不同形態(tài)的工具的主要特征、應(yīng)用場景,以期幫助數(shù)據(jù)科學(xué)家、業(yè)務(wù)專家等各領(lǐng)域的人員了解數(shù)據(jù)科學(xué)生態(tài)下的關(guān)鍵工具,進(jìn)而優(yōu)化工作流,加速數(shù)據(jù)驅(qū)動的研究及決策。

目錄

Jupyter Notebook 交互式編程

Jupyter Notebook 是什么?

Jupyter 并非理想的 Notebook

在線 Jupyter Notebook

1. 云原生

2. 功能拓展

3. 協(xié)作開放

低代碼、拖拽式編程

低代碼是什么?

為什么要用低代碼?

1. 可視化模型驅(qū)動數(shù)據(jù)研究

2. 低代碼拖拽改善協(xié)作方式

Canvas 與 Notebook 的互補(bǔ)與轉(zhuǎn)換

ModelWhale 以人為徑,助力協(xié)同創(chuàng)新

海量數(shù)據(jù)挖掘、數(shù)據(jù)密集型研究的應(yīng)用范式

專業(yè)性強(qiáng)工程能力相對較弱的復(fù)合型分析研究者的強(qiáng)力支撐

結(jié)尾

Jupyter Notebook 交互式編程

Jupyter Notebook 是什么?

對于數(shù)據(jù)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)或是深度學(xué)習(xí)等數(shù)據(jù)科學(xué)領(lǐng)域的專業(yè)人員來說,除了需要具備一些數(shù)理統(tǒng)計(jì)知識外,還會需要通過代碼來實(shí)踐或驗(yàn)證理論想法,Jupyter Notebook 便成了數(shù)據(jù)科學(xué)家們最熟悉且常用的工具。通過它獨(dú)特的交互式開發(fā),適用于科研、教學(xué)等場景。

Jupyter 即是 Julia、Python 和 R 的縮寫組合,另如 Notebook 含義所示,它可以以筆記的形式記錄和保存相關(guān)的代碼和輸出,并將結(jié)果以文檔的形式與其他人共享。

8aeb934c-2e8f-4bbd-947f-7dda1a029afe.png

Jupyter Notebook(圖源:網(wǎng)絡(luò))

Jupyter Notebook 主要有三大優(yōu)點(diǎn):文學(xué)編程、交互展示、易于調(diào)試。

1. 文學(xué)編程

文學(xué)編程的思想強(qiáng)調(diào)人的思維邏輯的可讀性,即在對閱讀者友好的文本中插入代碼塊,讓學(xué)習(xí)進(jìn)程和探索進(jìn)程變得可記錄可回溯,不斷累積知識,獲得增量式進(jìn)步。這種形式非常適合研究性、探索性工作。想象一下,當(dāng)你需要做數(shù)據(jù)處理、分析建模、觀察結(jié)果時:

• 如果是在終端運(yùn)行程序,包含函數(shù)和類的腳本存在其他文檔,可視化結(jié)果在不同窗口顯示,此時還需要寫一份囊括全部的說明文檔記錄分析思路、程序運(yùn)行、結(jié)果呈現(xiàn)......整個研究過程雜亂無章,無法專注于研究本身。

• 如果是用 Jupyter Notebook 進(jìn)行分析,代碼、可視化結(jié)果、說明文檔都留存在同一頁面中,整個分析過程和研究思路變得異常清晰。

2. 交互展示

Jupyter Notebook 由 Cell 模塊構(gòu)成,Cell 分為 Code 和 Markdown,其中 :

• Code Cell 可以獨(dú)立編寫、運(yùn)行代碼,并單獨(dú)反饋結(jié)果,方便試錯和驗(yàn)證結(jié)果,對于學(xué)習(xí)數(shù)據(jù)分析、入門數(shù)據(jù)科學(xué)或者編程語言的初學(xué)者來說,這種交互形式非常友好。

• Markdown Cell 可撰寫文檔,展示圖片、表格、鏈接、公式等豐富的內(nèi)容,可讀性強(qiáng)、學(xué)習(xí)成本低,一個文檔就可以涵蓋課程章節(jié)的理論知識點(diǎn)+編程實(shí)戰(zhàn)+可視化結(jié)果,將課程知識點(diǎn)完整表達(dá),適合教學(xué)展示、課堂交互、數(shù)字化培訓(xùn)等。

Jupyter Notebook 本質(zhì)是開源的 Web 應(yīng)用,文檔可以被輕松創(chuàng)建和共享。在團(tuán)隊(duì)協(xié)作時,代碼、敘述文本、可視化結(jié)果結(jié)合可以清晰地表述出完整的分析過程,輕易地與他人分享研究思路、復(fù)現(xiàn)研究成果,團(tuán)隊(duì)之間迅速建立有效溝通,極大地提高協(xié)作研究效率。

3. 易于調(diào)試

在數(shù)據(jù)研究中,如果需要調(diào)用深度學(xué)習(xí)模型來測試功能時,模型往往幾百M(fèi)甚至幾個G,將模型全部加載到內(nèi)存里需要耗費(fèi)大量時間。當(dāng)加載模型確定無誤,只需調(diào)試調(diào)用模型預(yù)測數(shù)據(jù)時:

• 如果用 IDE,每加一行代碼或每改一個參數(shù)都會花費(fèi)大量時間重新加載模型。

• 如果用 Jupyter Notebook,運(yùn)行一遍代碼以后變量占用的內(nèi)存不會自動釋放。模型加載的所有數(shù)據(jù)都在內(nèi)存里,不覆蓋變量就不需要重跑 ,因此只需將代碼分段執(zhí)行,靈活調(diào)整參數(shù)。

Jupyter 并非理想的 Notebook

基于數(shù)據(jù)科學(xué)的繁榮,尤其是探索性數(shù)據(jù)分析和開放科學(xué)的發(fā)展,Jupyter Notebook 作為一種交互式編程的范式實(shí)現(xiàn)了自己的價值,但隨著數(shù)據(jù)科學(xué)領(lǐng)域近年的飛速變化,它面臨著更現(xiàn)實(shí)的業(yè)務(wù)問題和技術(shù)挑戰(zhàn)。

1. 繁復(fù)、易出錯的環(huán)境搭建與版本管理

研究之初和實(shí)際研究中,不論是對于編程新手還是技術(shù)人員,都難免經(jīng)歷一系列費(fèi)時費(fèi)力的環(huán)境搭建與版本管理過程。

環(huán)境配置問題

不同研究項(xiàng)目使用的 Python 的解釋器版本不相同,各版本之間互不兼容且長期并行,但是卻需要運(yùn)行在同一個服務(wù)器環(huán)境中。而不同的 Python 解釋器版本,對軟件包、依賴庫的管理也是個問題。因此,在本地使用 Jupyter Notebook 時經(jīng)常因?yàn)闆_突問題導(dǎo)致系統(tǒng)出問題,安裝環(huán)境或服務(wù)組件失敗。

ecd7b743-d0fc-4479-b2b2-cf1070a4ef95.png

Python 官網(wǎng)下載不同 Python版本(圖源:Python 官網(wǎng))

版本控制問題

在實(shí)際使用 Jupyter Notebook 進(jìn)行研究的過程中難免會遇到文件回退、歷史文件對比等操作,但是 Jupyter Notebook 內(nèi)容結(jié)構(gòu)通過 JSON 的方式進(jìn)行組織,源代碼 、Markdown、outputs 輸出都儲存在一個體積較大的 .ipynb 文件中,復(fù)雜的數(shù)據(jù)結(jié)構(gòu)會導(dǎo)致 .ipynb 文件在版本比對時的可讀性很差,無法很好地做版本控制。

2. 編程使用習(xí)慣與 IDE 不同

數(shù)據(jù)科學(xué)研究人員如果有其他編程語言的經(jīng)驗(yàn),經(jīng)歷過傳統(tǒng)的 IDE 時代,使用過 Visual Studio 或者類似的 IDE 進(jìn)行開發(fā),對編程開發(fā)平臺有著固有印象和特定期許,那么對 Jupyter Notebook 的接受程度可能不是很高。

• Jupyter Notebook 定義為研究類調(diào)試環(huán)境,不是一個真正意義上的集成開發(fā)環(huán)境;

• Jupyter Notebook 對于成規(guī)模的項(xiàng)目來說功能過于簡單,缺少必要的項(xiàng)目工具,而 IDE 的文件管理、代碼管理、工具集成以及自動補(bǔ)全、智能提示都相對較強(qiáng)大;

• Jupyter Notebook 對于分布式調(diào)測、重型異步任務(wù)的支持不夠友好;

• Jupyter Notebook 對于分布式的訓(xùn)練可以通過單機(jī)多進(jìn)程的方式進(jìn)行模擬,但對于運(yùn)行非常大規(guī)模的訓(xùn)練作業(yè),還是需要工程化代碼開發(fā),并搭配測試邏輯,將任務(wù)部署在集群中進(jìn)行批量運(yùn)行。

4b62c405-4812-4b48-8e01-a29d6d6c7ca7.gif

VS code 的代碼著色、補(bǔ)全和智能提示功能(圖源:網(wǎng)絡(luò))

P.S. (我是彩蛋)CloudIDE 是后文即將出現(xiàn)的 ModelWhale 數(shù)據(jù)科學(xué)平臺的另一種數(shù)據(jù)分析工具,后期推文將會著重介紹。

在線 Jupyter Notebook

時下,我們面臨著數(shù)據(jù)科學(xué)的諸多挑戰(zhàn):

• 數(shù)據(jù)量呈指數(shù)級增長,對大型計(jì)算、存儲、及數(shù)據(jù)管理提出了新的要求。

• 機(jī)器學(xué)習(xí)、人工智能、增強(qiáng)現(xiàn)實(shí)、物聯(lián)網(wǎng)以及幾乎所有其他突破性技術(shù),正在進(jìn)入工業(yè)化階段。

• 自然科學(xué)(如氣象學(xué)和生命科學(xué))、經(jīng)濟(jì)學(xué)、工程學(xué)和社會科學(xué)等研究領(lǐng)域都開始利用數(shù)據(jù)科學(xué)解決領(lǐng)域問題。

• 模型的大規(guī)模、復(fù)雜性和實(shí)驗(yàn)性成為各行業(yè)工作流程的主要挑戰(zhàn)。

這意味著你可能需要一個云端數(shù)據(jù)科學(xué)工具來整合現(xiàn)有的生態(tài)系統(tǒng)和數(shù)據(jù)平臺。在 Jupyter 交互式的基礎(chǔ)上,ModelWhale 應(yīng)“云”而生,更加關(guān)注基礎(chǔ)架構(gòu)、資源配置、功能拓展、協(xié)作開放。

1. 云原生

ModelWhale 對現(xiàn)有的本地設(shè)施沒有侵入性,能夠與原有的基礎(chǔ)設(shè)施很好地兼容,提供數(shù)據(jù)科學(xué)應(yīng)用特性所配套的計(jì)算調(diào)度引擎,使得不同的研究團(tuán)隊(duì)、工作團(tuán)隊(duì)可以根據(jù)實(shí)際需求實(shí)現(xiàn)云資源的快速拓展與高效調(diào)度,同時可便捷地接入各主流廠商的云平臺、各種類型的計(jì)算實(shí)例,對基礎(chǔ)設(shè)施的陳舊與不足提供有力的支撐補(bǔ)給。

高校、企業(yè)、科研機(jī)構(gòu)可以利用 ModelWhale 的云原生架構(gòu)輕易搭建一站式數(shù)據(jù)科學(xué)平臺,助力研究、應(yīng)用和業(yè)務(wù)的發(fā)展。

2. 功能拓展

ModelWhale 對數(shù)據(jù)探索的流程做了許多針對性的功能優(yōu)化,包裹了實(shí)現(xiàn)細(xì)節(jié),提供了好用的功能。個人和團(tuán)隊(duì)都可輕松上手?jǐn)?shù)據(jù)分析,快捷高效地開展數(shù)據(jù)研究工作。

數(shù)據(jù)接入

支持多種類型格式的本地?cái)?shù)據(jù)文件上傳接入,或直接調(diào)用公開數(shù)據(jù)集。

支持超大數(shù)據(jù)的云上調(diào)用及分析。用戶除了可以在 ModelWhale 使用數(shù)據(jù)連接調(diào)取存放在數(shù)據(jù)庫、對象存儲的數(shù)據(jù)外,還可以通過創(chuàng)建 NAS 空間調(diào)取 NAS 中的各類數(shù)據(jù)。

11d5884e-ce29-4e6b-b649-93ed21b02204.png

算力接入

• 面向多種規(guī)格的計(jì)算資源一鍵接入。不論是單卡CPU/GPU運(yùn)算,還是多機(jī)多卡的 GPU 組成集群算力進(jìn)行分布式訓(xùn)練,可隨實(shí)際需求一鍵勾選。多機(jī) GPU 集群,支持基于 Horovod 的環(huán)狀規(guī)約架構(gòu),可顯著分散網(wǎng)絡(luò)傳輸?shù)膲毫ΓS著集群的規(guī)模增大計(jì)算性能線性增加。

• 資源用量可視可控。ModelWhale 可以對每個資源的可用群體、使用時長、使用時間進(jìn)行管理配置,能夠?qū)Y源的使用情況進(jìn)行可視化監(jiān)控,支持對資源的權(quán)限審核機(jī)制。

55d2b93c-284d-4bf6-8849-f333f143bf46.png

環(huán)境管理

• ModelWhale 真正做到了開箱即用,無需任何軟件安裝及環(huán)境部署,解決了科研初期基礎(chǔ)設(shè)施配置搭建的繁瑣消耗,提供了豐富的鏡像資源,包含大量數(shù)據(jù)科學(xué)和其他交叉學(xué)科的常用工具包(如:氣象、生命科學(xué)等)。

• 用戶可以根據(jù)需求利用標(biāo)簽篩選官方預(yù)置的安全穩(wěn)定的鏡像環(huán)境,也可以自定義鏡像環(huán)境,滿足個人或團(tuán)隊(duì)的特定運(yùn)算需求。

• ModelWhale 的環(huán)境管理為每一個數(shù)據(jù)科學(xué)項(xiàng)目創(chuàng)建了隔離的開發(fā)環(huán)境,每個開發(fā)環(huán)境所安裝的包和依賴相互獨(dú)立,可以確保項(xiàng)目的開發(fā)環(huán)境不相互干擾和污染。

b8da07a0-dc02-4b2f-85b7-8e6a8814fdfa.png

版本控制

面對研究過程中多次修改或者迭代數(shù)次的項(xiàng)目內(nèi)容,如果打算保留每個版本,就需要在每次修改前創(chuàng)建副本并重新命名,最終很可能導(dǎo)致研究者本人都無法區(qū)分有效版本。

ModelWhale 支持為復(fù)雜研究項(xiàng)目的階段性工作進(jìn)行版本管理,提供了生成項(xiàng)目版本、版本比對、內(nèi)容替換、合并版本的功能。針對每處修改,用戶可以實(shí)現(xiàn)文件級回退與 Cell 級回溯。團(tuán)隊(duì)成員也能直接查看修改歷史,將注意力放在最為重要的創(chuàng)作上,安全高效地開展團(tuán)隊(duì)協(xié)作。

275d9f74-317a-49e5-bbea-747c2f183b97.png

生產(chǎn)資料共享

大部分的數(shù)據(jù)研究,實(shí)質(zhì)是對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行重構(gòu)和再構(gòu),是利用數(shù)據(jù)再生內(nèi)容和驅(qū)動內(nèi)容的過程。已有研究內(nèi)容的開放、分享和共享,是生產(chǎn)和應(yīng)用的基礎(chǔ),也是團(tuán)隊(duì)協(xié)作的前提。

ModelWhale 可以一鍵 Fork 團(tuán)隊(duì)成員以及和鯨社區(qū)產(chǎn)出的相關(guān)項(xiàng)目、數(shù)據(jù)集。科研過程中的所有生產(chǎn)內(nèi)容,如數(shù)據(jù)、代碼、環(huán)境,皆可打包為項(xiàng)目復(fù)制到自己的工作區(qū),或者發(fā)布為云端的數(shù)據(jù)集、算法、模型服務(wù),便于重用和管理,讓團(tuán)隊(duì)不同成員、企業(yè)不同部門之間有效協(xié)作,提升工作效率。

0b71d100-49ef-4700-bede-fc518dfc2e1c.png

3. 協(xié)作開放

數(shù)據(jù)研究離不開團(tuán)隊(duì)協(xié)作,ModelWhale 提供了清晰易用的協(xié)作空間和靈活可控的管理體系。團(tuán)隊(duì)成員之間資源共享、信息融合,有效地推進(jìn)項(xiàng)目進(jìn)展,提高團(tuán)隊(duì)科研創(chuàng)新的質(zhì)量和水平,同時為基礎(chǔ)設(shè)施賦能,計(jì)算資源彈性調(diào)度,從容應(yīng)對多變科研場景。

團(tuán)隊(duì)空間

ModelWhale 提供了團(tuán)隊(duì)的共享視圖,可以靈活地對各類研究課題、算法項(xiàng)目、分析任務(wù),進(jìn)行分工拆解、任務(wù)分配、數(shù)據(jù)接入、資源分配、進(jìn)度監(jiān)控、成果驗(yàn)收、成果復(fù)用等項(xiàng)目管理工作。

92b93a52-ba34-488e-9238-e696c8f33579.jpg

同時為有教學(xué)和培訓(xùn)需求的團(tuán)隊(duì)提供了教學(xué)評一體的課程模塊,整合了教學(xué)內(nèi)容管理、課程管理、作業(yè)評測系統(tǒng),有效提高了教師的工作效率,改善了教學(xué)管理的質(zhì)量,促進(jìn)了學(xué)生對數(shù)據(jù)分析實(shí)戰(zhàn)的參與性和積極性。

ec5db04c-c25f-4acf-a7ee-f58b4ac55b81.jpg

團(tuán)隊(duì)數(shù)據(jù)、代碼、項(xiàng)目等資料可沉淀在共享知識庫中,并輕松接入官方預(yù)置實(shí)戰(zhàn)案例及外部豐富的案例資源。

5f907adc-2b15-41c2-9743-4c966154603b.jpg

組織管理

ModelWhale 可實(shí)現(xiàn)統(tǒng)一高效的數(shù)據(jù)管理和資源調(diào)度。

數(shù)據(jù)管理

ModelWhale 始終保障數(shù)據(jù)安全,對多數(shù)據(jù)源類型進(jìn)行統(tǒng)一管理,各環(huán)節(jié)具有嚴(yán)格的權(quán)限控制。管理員可以控制和分配數(shù)據(jù)庫的訪問權(quán)限,每個數(shù)據(jù)集都有獨(dú)立的權(quán)限管理、文檔管理。結(jié)構(gòu)化數(shù)據(jù)可自動解析統(tǒng)計(jì)性描述,提供數(shù)據(jù)文檔記錄數(shù)據(jù)字典與背景信息,幫助用戶在使用前快速了解數(shù)據(jù)。數(shù)據(jù)可一鍵掛載到不同的研究項(xiàng)目、關(guān)聯(lián)到團(tuán)隊(duì)知識庫中,便于管理具體研究協(xié)作中的數(shù)據(jù)使用情況。

05f85399-cbe1-4147-8e87-042c8f2e5f1b.jpg

82737eb1-4f77-49d3-bfe4-0fb4dd7109e9.png

算力管理

ModelWhale 以云計(jì)算能力為基礎(chǔ),自主研發(fā)了高可用的算力調(diào)度器,具備按需計(jì)算、彈性擴(kuò)容的優(yōu)勢,從而可以支持從1個用戶到數(shù)千個用戶的低成本、高效率地快速拓展,也可滿足大規(guī)模分布式的模型訓(xùn)練需求。

ModelWhale 同時提供了對單個成員的資源用量監(jiān)控,在項(xiàng)目開展前后可以有效規(guī)劃資源、保障計(jì)算資源的合理分配使用。企業(yè)機(jī)構(gòu)無需提前進(jìn)行資源容量規(guī)劃,資源成本有效降低,不再為閑置資源付費(fèi)。

3d8afbca-c397-4f3d-a367-82e2ccd2243f.png

低代碼、拖拽式編程

低代碼是什么?

低代碼是基于可視化和模型驅(qū)動理念,讓不懂代碼的人,直接使用經(jīng)封裝的常用機(jī)器學(xué)習(xí)算法組件,通過“拖拉拽”組件,完成應(yīng)用模型的搭建。

ModelWhale Canvas 基于這種低代碼范式,結(jié)合云原生與多端體驗(yàn)技術(shù),在多數(shù)業(yè)務(wù)場景下實(shí)現(xiàn)大幅度的提效降本,為團(tuán)隊(duì)協(xié)作提供了一種全新的高生產(chǎn)力開發(fā)范式。 運(yùn)用 Canvas:

• 不需要寫很多代碼,對于純業(yè)務(wù)側(cè)、低代碼能力的科研人員通過可視化的圖形連接就能構(gòu)建研究框架和模型雛形。

• 結(jié)果可以一鍵導(dǎo)出 Notebook,組件直接轉(zhuǎn)化為代碼,確保可復(fù)現(xiàn)性的同時,支持在基礎(chǔ)的分析框架上進(jìn)行更精細(xì)的建模工作,方便數(shù)據(jù)科學(xué)家等進(jìn)一步優(yōu)化。

• 技術(shù)人員可以在 Canvas 里面預(yù)構(gòu)建模型組件和封裝常用工作流 Flow,方便業(yè)務(wù)人員直接套用。

• 技術(shù)人員可以根據(jù)分析需求編寫自定義組件,優(yōu)化組件內(nèi)容結(jié)構(gòu),提升組件能力上限。

0e6e4a05-c242-46c6-a9f1-c8608fb12436.jpg

為什么要用低代碼?

1. 可視化模型驅(qū)動數(shù)據(jù)研究

低代碼提供了新的交互形式:可視化的圖形組件。可視化的模型是業(yè)務(wù)和技術(shù)共享的視覺語言,無差別無二義性,為業(yè)務(wù)人員搭建模型和數(shù)據(jù)研究人員優(yōu)化模型帶來了溝通的橋梁。雙方基于可視化的圖形組件:

• 業(yè)務(wù)專家可以向開發(fā)人員展示業(yè)務(wù)的主要需求和難點(diǎn),便于數(shù)據(jù)科學(xué)家熟悉和理解業(yè)務(wù)架構(gòu)。

• 數(shù)據(jù)科學(xué)家可以向業(yè)務(wù)專家演示一些常見的或者創(chuàng)新的解決方案,方便業(yè)務(wù)人員調(diào)整業(yè)務(wù)邏輯。

2. 低代碼拖拽改善協(xié)作方式

按照傳統(tǒng)的模式,在實(shí)際的數(shù)據(jù)工作中,業(yè)務(wù)部門只能描述需求,開發(fā)人員又不熟悉業(yè)務(wù),項(xiàng)目上線通常需要耗費(fèi)大量時間才能開發(fā)完成,這會影響業(yè)務(wù)創(chuàng)新的進(jìn)程。

低代碼可以有效促進(jìn)業(yè)務(wù)人員和數(shù)據(jù)科學(xué)家、IT人員之間的協(xié)作,突出了協(xié)作中的敏捷開發(fā)理念和數(shù)據(jù)科學(xué)實(shí)踐的結(jié)合。業(yè)務(wù)人員更接近生產(chǎn),并且不影響原本生產(chǎn)環(huán)境的安全性、可擴(kuò)展性和長期可維護(hù)性。使用低代碼、拖拽式編程:

• 業(yè)務(wù)人員可以快速搭建出模型,同時可以一邊試用模型,一邊與數(shù)據(jù)科學(xué)家進(jìn)行探討,找到思路差異的部分;

• 數(shù)據(jù)科學(xué)家也可以輕易將模型組件轉(zhuǎn)化為代碼,一邊優(yōu)化完善,一邊與業(yè)務(wù)人員確認(rèn)。

使用這種敏捷開發(fā)模式,數(shù)據(jù)建模通常可以快速推進(jìn),修改部分業(yè)務(wù)邏輯后,模型服務(wù)很快就能上線。同時,推廣到各部門應(yīng)用之后,會繼續(xù)反饋各種開發(fā)需求,基于低代碼開發(fā)的模型服務(wù)核心業(yè)務(wù)邏輯采用配置的方式實(shí)現(xiàn),只需要調(diào)整參數(shù)配置就可以快速的響應(yīng)需求,并更新到正式環(huán)境。

Canvas 與 Notebook 的互補(bǔ)與轉(zhuǎn)換

同樣是基于云端平臺的基礎(chǔ)架構(gòu)和功能延拓,Canvas 與 Notebook 之間不止是分析建模方式的不同,更重要地是協(xié)同方式的互補(bǔ)與轉(zhuǎn)換。

ModelWhale 針對不同場景的數(shù)據(jù)團(tuán)隊(duì),提供不同的工作方式,支持以項(xiàng)目為主體來管理實(shí)際的研究。項(xiàng)目內(nèi)提供不同角色不同工作流下的協(xié)作功能。包括 Notebook 的代碼級協(xié)作、Notebook 的常用代碼封裝組件、Canvas 拖拉拽分析建模、Canvas 結(jié)果與 Notebook 的轉(zhuǎn)化。

• Canvas 專注于數(shù)據(jù)建模和業(yè)務(wù)邏輯實(shí)現(xiàn),重點(diǎn)關(guān)注的是模型框架而不是具體編程。對于業(yè)務(wù)人員、領(lǐng)域?qū)<襾碚f,采用圖形化的拖拽操作就可以完成簡單的模型構(gòu)建,表現(xiàn)業(yè)務(wù)邏輯和領(lǐng)域經(jīng)驗(yàn);

• Notebook 注重研究思路的記錄,關(guān)注數(shù)據(jù)科學(xué)本身。對于代碼優(yōu)先的數(shù)據(jù)科學(xué)家、IT人員,可以直接在 Notebook 中編寫代碼、探索創(chuàng)作,并可將常用的代碼封裝為 Canvas 組件便于業(yè)務(wù)人員的直接調(diào)取使用;也可以選擇在 Canvas 低代碼界面編寫代碼、自定義組件來實(shí)現(xiàn)功能,或通過 Canvas 一鍵轉(zhuǎn)換為 Notebook 延續(xù) Notebook 的代碼編寫習(xí)慣直接優(yōu)化代碼。

ModelWhale 以人為徑,助力協(xié)同創(chuàng)新

ModelWhale 以人為徑,是將不同業(yè)務(wù)能力、不同技術(shù)水平的企業(yè)機(jī)構(gòu)成員,當(dāng)作連通解決方案的途徑,助推高校、企業(yè)、機(jī)構(gòu)的人才賦能,改進(jìn)工作流程,改善共享與協(xié)作方式,回應(yīng)業(yè)務(wù)痛點(diǎn),達(dá)成研究目標(biāo),實(shí)現(xiàn)創(chuàng)新價值。

海量數(shù)據(jù)挖掘、數(shù)據(jù)密集型研究的應(yīng)用范式

很多行業(yè)的數(shù)據(jù)私密性很高,數(shù)據(jù)量龐大,而大部分?jǐn)?shù)據(jù)研究平臺的基礎(chǔ)設(shè)施不足以支撐大型高并發(fā)GPU運(yùn)算需求,研究人員的算法環(huán)境也不近相同。在實(shí)際數(shù)據(jù)挖掘分析過程中會經(jīng)常遇到多來源數(shù)據(jù)管理難、大規(guī)模計(jì)算調(diào)度難、數(shù)據(jù)分析環(huán)境統(tǒng)一難、交叉領(lǐng)域研究協(xié)同難等瓶頸,缺乏新的平臺助推研究人員的數(shù)據(jù)建模工作以及各領(lǐng)域數(shù)據(jù)挖掘成果的協(xié)同與管理工作。

ModelWhale 可以提供:

• 從底層架構(gòu)保障數(shù)據(jù)安全,基于現(xiàn)有基礎(chǔ)設(shè)施優(yōu)化工作結(jié)構(gòu),提供私有化部署的云端計(jì)算平臺;

• 本地計(jì)算資源有效擴(kuò)容,多類型數(shù)據(jù)源與GPU集群輕松接入,實(shí)現(xiàn)數(shù)據(jù)和硬件資源的集約化管理和彈性調(diào)度分配,大幅度提效降本;

• 研究環(huán)境開箱即用,有效降低科研門檻,集成最新機(jī)器學(xué)習(xí)算法庫,以及各領(lǐng)域?qū)I(yè)工具包,即使是復(fù)雜研究項(xiàng)目也可多版本管理,賦能數(shù)據(jù)研究的開展;

• 為協(xié)作共享提供了新的交互形式,數(shù)據(jù)、代碼、環(huán)境等研究資料一鍵打包共享,讓跨地域、跨部門、跨團(tuán)隊(duì)之間的協(xié)作在云端實(shí)現(xiàn)。

專業(yè)性強(qiáng)工程能力相對較弱的復(fù)合型分析研究者的強(qiáng)力支撐

業(yè)務(wù)人員大多擁有豐富的一線經(jīng)驗(yàn),但相對代碼工程能力薄弱。目前主要依賴口口相傳及業(yè)務(wù)需求分享,提出高價值的數(shù)據(jù)研究應(yīng)用思路,再進(jìn)一步與數(shù)據(jù)科學(xué)家、IT技術(shù)人員合作實(shí)現(xiàn)領(lǐng)域數(shù)據(jù)的分析需求,但跨角色協(xié)作傳播力度有限,分析思路與研究成果難以系統(tǒng)化地被復(fù)現(xiàn)轉(zhuǎn)化應(yīng)用。

利用 ModelWhale 的低代碼、拖拽式 Canvas 可以

• 降低科研門檻,直觀地保留了業(yè)務(wù)經(jīng)驗(yàn):使業(yè)務(wù)人員通過拖拽式組件直接搭建工作流 Flow ,完成業(yè)務(wù)邏輯的直觀體現(xiàn)和模型應(yīng)用的雛形。

• 有效提高了信息研究的教學(xué)質(zhì)量:將復(fù)雜的數(shù)據(jù)分析代碼圖形化簡易封裝、繁瑣的數(shù)據(jù)分析步驟用可視化組件的連接有序展現(xiàn)、數(shù)據(jù)分析流程及每一步的產(chǎn)出結(jié)果清晰可見,再通過 Canvas 轉(zhuǎn) Notebook 代碼的方式,以數(shù)據(jù)分析流程思維一一對應(yīng)代碼的編寫,更易理解和上手代碼。

• 優(yōu)化跨角色的工作流程:Canvas 轉(zhuǎn)化后的代碼可以交由更熟悉編程的數(shù)據(jù)科學(xué)家、IT人員進(jìn)一步優(yōu)化,進(jìn)行精細(xì)化調(diào)整。

從而強(qiáng)力支撐

• 面向業(yè)務(wù)人員、領(lǐng)域?qū)<业臄?shù)據(jù)分析教學(xué)、培訓(xùn)、應(yīng)用,讓不同學(xué)科背景下編程能力較弱的非專業(yè)級數(shù)據(jù)科學(xué)家、復(fù)合型分析研究者掌握獨(dú)立自主的數(shù)據(jù)分析能力;

• 同時滿足數(shù)據(jù)分析部門和業(yè)務(wù)部門的不同技術(shù)水平的需求,為業(yè)務(wù)人員與數(shù)據(jù)科學(xué)家、IT技術(shù)人員的有效溝通協(xié)作建立了橋梁,實(shí)現(xiàn)了復(fù)雜研究領(lǐng)域的跨角色協(xié)同工作。

結(jié)尾

ModelWhale 數(shù)據(jù)科學(xué)平臺所提供的,不論是 Jupyter Notebook 交互式編程,還是低代碼拖拽式編程,都是為了協(xié)助不同角色、不同編程能力的用戶能夠更流暢高效地進(jìn)行分析建模及項(xiàng)目協(xié)作。ModelWhale 不僅可以云端即開即用,同時還支持本地私有化部署,滿足企業(yè)、高校、科研機(jī)構(gòu)、政府機(jī)構(gòu)不同應(yīng)用場景下多樣化的研究及業(yè)務(wù)需求。

可以肯定的是,數(shù)據(jù)科學(xué)平臺會隨著數(shù)據(jù)研究壁壘的逐漸降低,企業(yè)機(jī)構(gòu)以數(shù)據(jù)為導(dǎo)向的決策需求的不斷推進(jìn),云端數(shù)據(jù)分析工具的不斷發(fā)展,更加重視可擴(kuò)展性、強(qiáng)調(diào)用戶體驗(yàn)、重視非專業(yè)級數(shù)據(jù)科學(xué)家、重視團(tuán)隊(duì)協(xié)同創(chuàng)新的場景,尤其是借助低代碼拖拽式工具實(shí)現(xiàn)的自動建模,數(shù)據(jù)科學(xué)平臺將會更先進(jìn)和完善,甚至可以成為一種更低門檻、更強(qiáng)交互、可廣泛培訓(xùn)的工具技能。

分享到:
標(biāo)簽:拖拽 理想 代碼 科學(xué) 數(shù)據(jù) 平臺 Jupyter Notebook
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定