亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務,提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

近期,第29屆國際知識發(fā)現(xiàn)與數(shù)據(jù)挖掘大會(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,以下簡稱KDD)在美國加州長灘舉辦。由火山引擎數(shù)智平臺,北京大學計算機學院和蒙特利爾學習算法研究所等單位合作的論文 《Rover: An online Spark SQL tuning service via generalized transfer learning 》(以下簡稱Rover)成功被大會收錄。Rover由北京大學的沈彧和火山引擎數(shù)智平臺的任鑫宇楊擔任共同第一作者,北京大學的崔斌教授擔任通訊作者。

圖片1.png

圖:論文題目和作者信息

KDD會議始于1989年,是數(shù)據(jù)挖掘領域歷史最悠久、影響最大的頂級學術(shù)年會。KDD廣泛的交叉學科性和應用性吸引了來自統(tǒng)計、機器學習、數(shù)據(jù)庫、萬維網(wǎng)、生物信息學、多媒體、自然語言處理、人機交互、社會網(wǎng)絡計算、高性能計算及大數(shù)據(jù)挖掘等眾多領域的研究者,為來自學術(shù)界、企業(yè)界和政府部門的相關(guān)人員提供了一個學術(shù)交流和成果展示的理想場所。

Apache Spark作為主流的分布式計算框架,在工業(yè)界得到了廣泛的應用,字節(jié)跳動內(nèi)部龐大的例行計算任務每天消費數(shù)百萬core CPU及數(shù)十PB RAM規(guī)模的計算資源。每個Spark任務通過200余個相互關(guān)聯(lián)的配置參數(shù)啟動,但是,由于平臺默認配置缺乏彈性,任務環(huán)境多樣,終端用戶經(jīng)驗不足等問題,相當數(shù)量的計算資源常因不合理的配置而被浪費。傳統(tǒng)上,有經(jīng)驗的大數(shù)據(jù)工程師可以依據(jù)每個任務的運行情況,對其配置進行人工分析和調(diào)整。然而,這種人工調(diào)優(yōu)方式在面臨在高維參數(shù)組合時往往有天花板,并伴有運維迭代成本高昂等問題,使得其難以被規(guī)模化。

為了解決此問題,火山引擎的工程師和北京大學的研究者一起設計了一種結(jié)合機器學習方法與人類專家知識的基礎設施成本優(yōu)化框架(如圖1所示),該框架以貝葉斯優(yōu)化算法為基礎,使用高斯過程作為代理模型學習配置參數(shù)集與任務成本/運行時長的關(guān)系,并通過可信賴的遷移學習機制,從人類專家知識編碼中獲得安全性和可解釋性(如圖1中Expert-assisted Optimization部分所示),并從相似的歷史任務中獲得額外的收斂加速特性(如圖1中Controlled History Transfer部分所示)。

圖片2.png

圖:Rover優(yōu)化器的整體架構(gòu)

該方案能自動化識別和調(diào)整例行計算任務的配置參數(shù)集,在不破壞任務服務等級的前提下壓縮資源浪費,有效節(jié)省運行成本。經(jīng)驗證,Rover在公開任務集及字節(jié)跳動內(nèi)部的實際部署中,對比當前市面領先的解決方案,在極限收益,收斂速度和安全性方面均有進一步提升。

圖片3.png

圖:Rover對比4家市面上領先解決方案在內(nèi)存降低率上的Benchmark

Rover是基于火山引擎DataTester在字節(jié)跳動內(nèi)部應用的自動調(diào)參系統(tǒng)優(yōu)化器內(nèi)核、增加遷移學習機制演化而來,并通過自動調(diào)參平臺的配套服務來實施和運行的,目前該項研究已經(jīng)在字節(jié)跳動上萬個Spark數(shù)據(jù)開發(fā)任務上得到應用,已幫助公司節(jié)約700萬元/年的資源成本。未來,這項技術(shù)將在字節(jié)跳動內(nèi)部的大數(shù)據(jù)計算基礎設施上大規(guī)模部署,預計每年將會節(jié)約近十億元,還將通過火山引擎數(shù)智平臺為外部企業(yè)提供通用優(yōu)化器服務,可應用于基礎設施成本優(yōu)化,線上算法超參數(shù)優(yōu)化等多種場景。

據(jù)了解,火山引擎數(shù)智平臺(VeDI)是新一代企業(yè)數(shù)據(jù)智能服務平臺,旗下的A/B測試產(chǎn)品DataTester經(jīng)歷了字節(jié)跳動的10年打磨,目前服務于字節(jié)跳動內(nèi)部500余個業(yè)務線,也服務了包括美的、得到、凱叔講故事等在內(nèi)的上百家外部企業(yè),為企業(yè)業(yè)務的用戶增長、轉(zhuǎn)化、產(chǎn)品迭代、運營活動等各個環(huán)節(jié)提供科學的決策依據(jù),將成熟的“數(shù)據(jù)驅(qū)動增長”經(jīng)驗賦能給各行業(yè)。

附錄論文地址:https://dl.acm.org/doi/10.1145/3580305.3599953

(作者:韓圣瀚)

分享到:
標簽:基于遷移學習的基礎設施成本優(yōu)化框架 火山引擎數(shù)智平臺與北京大學聯(lián)合論文被KDD收錄 熱點資訊
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定