亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

2021 DevFest上海谷歌開發者節已于近期圓滿落幕。格物鈦與28w+ 線上觀眾、1300+ 線下開發者、工程師和行業重磅嘉賓一起盡享了一場技術盛宴。格物鈦作為參展企業,創始人兼CEO崔運凱受邀發言,與開發者們分享了從DevOps到MLOps的進化路程,從組織變革看機器學習的最佳實踐。

特斯拉的 AI 高級總監 Andrej Karpathy 定義了 Software 2.0 時代,即以 MLOps 組織開發模式為主的時代,那么它的前身 Software 1.0是什么?格物鈦創始人兼CEO崔運凱從三十年前的軟件開發時代講起:在 DevOps (Software 1.0) 的開發時代,軟件開發以代碼為中心,通過編程語言,完全基于程序員們手動編寫代碼來實現某項功能。Software1.0 的演進歷史分為下面四個方面:

 軟件發布時效的演進

以往每兩年發布一次更新,用戶需購買相應光盤,推演到現在每天都有新的版本發布。這樣看似時間跨度小的變化從何而來?又如何推動企業發展?如果你的軟件發布速度比別人快,那么你在競爭當中的優勢有:

1)  也許可以盡快切入更多市場,因為你比別人較快的發布最新 features,你的 idea 比別人更早上線

2)  試錯成本不斷降低,因為在有限相同的時間內,你更快速的上線、下線,嘗試不同的東西。

 軟件開發的演進

從 Waterfall 瀑布式發布流程到 Agile 敏捷式開發流程的轉變中,一個顯著的改進是迭代時間縮短。因為軟件開發的方式是服務于軟件發布是間的,而線性開發(前者)流程導致效率過低,故催生敏捷式開發的應用,其優勢在于小版本快速迭代,以用戶需求為核心。雖然瀑布式發布流程的模塊在敏捷式開發流程種有,但是后者每次只發布少量的 features,然后通過自動化工具讓流程自動化運轉。如果說瀑布式是由項目經理人工推動發布的,那么敏捷式就是由流水線自然推動發布的。

于是就有了各種自動化管理工具的誕生:

  協作和版本管理工具的演進

版本管理的出現主要配合協作上面提到的開發方式,盡可能實現流程自動化。以往集中式文件版本管理系統效率低、復雜,而開源的分布式版本控制具有強大的分支管理,使得協作靈活、可靠。比如git。

工具變化以后,使用工具的組織也發生了結構性變化:

  軟件開發組織的演進

從全員軟件工程師的團隊優化到軟件工程師+自動化工具工程師合作的分層組織。有些工程師的工作是開發維護自動化工具,這些工具去賦能其他的軟件工程師。

一句話總結 DevOps 的核心:為了讓團隊成員更加專注于自己的職能,需要管理跨越職能的協作。簡單來講,開發的人要懂運維,運維的人要懂開發。

回到開頭,Andrew Karpathy 定義的 MLOps (Software 2.0) 的理念,是指軟件開發以代碼和數據為中心,通過 AI 技術尋找解決問題的方法。你定義好輸入和輸出,中間的邏輯和對應關系由機器學習決定。通過編程語言,以及大量相關數據,在程序空間通過隨機梯度下降(Stochastic Gradient Descent, SGD) 和反向傳播尋找可以完成特定任務的程序,以機器為主導,自動完成特定任務。

大家曾在學校學過典型的機器學習項目流程如圖: 

然而在工業界,隨著項目體量的增加,由于數據不足,需要 Data Operation 團隊來負責數據采集、數據標注和數據清洗。比如在無人駕駛領域,你可能曾用 KITTI 公開數據集進行練習,可是當進入工業界你發現數據完全不夠。你需要采集數據時,而采集數據本身太復雜以至于你需要一個多層級的組織來完成。當采集的數據量超過硬盤大小時,又需要 Infrastructure Team 負責開發分布式系統。當你將數據放入模型以后,因為一直有新的模型出現,算法工程師需要不斷對同一份數據嘗試新的算法。每個模型又有非常多的超參,你又需要(雇人)調優不同的超參數…由于數據漂移、概念漂移,需要重新收集數據,重新訓練。

由于需要的數據越來越多、工作量加大,那么跨組織的、重復性的工作希望被自動化,才能滿足開發流程的需要。

那么產品開發的組織又如何升級呢?簡單來說是通過多層級的組織,不同的人各司不同職能。那么組織如何流水線化?答案是需要自動化的工具 ,通過MLOps  進行串聯。

崔運凱認為上述公司定義的 MLOps 偏向 DevOps 風格的定義,而他創立的格物鈦則在探索 MLOps 的本質與 MLOps 可提升的方向:

 

 

       整個機器學習產品迭代分為兩大流派

1.    以模型為中心的 AI (Model-Centric)

2.    以數據為中心的AI (Data-Centric)

大量的算法工程師傾向于通過調整模型來獲得更好的效果,但實際上根據谷歌 2015年發布的一篇名為Hidden Technical Debt in Machine Learning Systems 的論文,絕大多數的工程師花了大量時間在數據上。

形象地講,經典的 Model-Centric 是固定一組數據在多個模型種評估模型表現,而 Data-Centric 則是固定一個模型(BERT)去找更高質量的數據,使得整體系統性能更佳。

不過,上述兩種模式不是非此即彼的關系,在不同的 AI 產品開發時間線條,模型的選擇有講究:早期在數據數量有限時,使用 Model-Centric的方式是為了找到一個合適的 model;當這個模型慢慢確定后,慢慢進入Data Centric 階段,目的是通過提高數據質量來提高整體性能。

如下圖所示,Data-Centric帶來的性能提升顯著大于 Model-Centric 所帶來的。

        格物鈦從數據的角度給出四點 MLOps 所具有的特點

1. 整個機器學習開發過程要對數據進行多次處理轉換(data transforming)

2. 數據轉換可以手動,也可以自動化

3. 整個機器學習項目有多個組織或機構參與

4. 需要一個 data pipeline 來管理所有數據

如果將數據的一次變換抽象地看成對數據進行的一次操作(operation),在輸入和輸出的數據中應用一個黑盒/白盒變換,包括模型訓練、數據采集、模型測都可以抽象成這樣的單元(unit),那么可通過觀察數據的流動特性去搭建 pipeline。

那么,一個理想的 pipeline 長什么樣?

一個很好的參考是 Andrej Karpathy 在 CVPR 2021 Workshop 中介紹了 Tesla 的數據引擎(Data Engine),它負責實現 Autopilot 模型的迭代。這個 Data Engine 提供了業界標準的抽象,在各行各業都可以把數據閉環實現,以快速迭代。

格物鈦數據平臺也模塊化地注入系統里去實現和 Tesla 一樣的 Data Engine。格物鈦可以幫助你完成 MLOps 通過

1) 數據搜索可視化發現高價值的數據:統一管理原始數據、元數據、語義數據以及來自預處理與評估服務等數據,支持擴展自定義搜索維度,實現數據的復雜場景搜索;

2)版本迭代和管理:統一的數據托管、權限控制與版本管理,實現不同角色對于數據的加工與使用相互不干擾又可以統一管理,組織的高效協同使得數據可以快速迭代

3)自動化:Action  功能通過工作流連接不同的數據處理任務和應用,統一存儲與管理數據,使得數據可以在各個流程節點高效流轉,實現快速搭建任意場景下的數據自動化處理流程,并且可以和用戶的已有Pipeline集成。

格物鈦智能科技是一家專注打造人工智能新型基礎設施的初創企業,定位為面向機器學習的數據平臺,幫助AI開發者解決日益增長的非結構化數據難題。借助格物鈦非結構化數據平臺和公開數據集社區,機器學習團隊和個人可進行數據管理、查詢、協同、可視化和版本控制等高效操作,降低高質量數據獲取、存儲和處理成本,加速AI開發和產品創新,釋放海量非結構化數據的商業價值。

分享到:
標簽:格物 變革 實踐 機器 組織 學習 分享 DevOps
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定