亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

大數據時代,機器學習算法該如何升級?

 

文 /楊曉寧

隨著產業界數據量的爆炸式增長,大數據概念受到越來越多的關注。由于大數據的海量、復雜多樣、變化快的特性,對于大數據環境下的應用問題,傳統的小數據上的機器學習算法很多已不再適用。因此,研究大數據環境下的機器學習算法成為學術界和產業界共同關注的話題。

傳統機器學習的問題主要包括如下4個方面:理解并模擬人類的學習過程;針對計算機系統和人類用戶之間的自然語言接口的研究;針對不完全的信息進行推理的能力,及自動規劃的問題;構造可發現新事物的程序。

傳統機器學習面臨的一個新挑戰是如何處理大數據。由于現有的機器學習算法是基于內存的,大數據卻無法裝載進計算機內存,故現有的諸多算法不能處理大數據。如何讓新機器學習算法適應大數據處理需求,是大數據時代的研究熱點之一。

數據分治與并行處理策略是大數據處理的基本策略,尤其是近年來在分布式和并行計算有很大發展的情況下,分治策略顯得尤為重要。一般來說,數據中不同樣本對學習結果的重要程度并不相同,一些冗余和噪音數據不僅造成大量的存儲耗費,降低學習運行效率,還會影響學習進度,因此更傾向于依據一定的性能標準(如保持樣本分布、拓撲結構以及保持分類精度等)選擇代表性樣本形成原樣本空間的子集,之后在子集上構造學習方法,完成學習任務。

在數據挖掘、文檔分類和多媒體索引等新興領域中,所面臨的數據往往是大數據集,其中包含的屬性和記錄數據都很大,導致處理算法的執行效率低下,通過屬性選擇可剔除無關屬性,增加分析任務的有效性,從而提高模型精度,減少運行時間。

魯棒是Robust的譯音,是在異常和危險情況下系統生存的能力。比如說,計算機軟件在輸入錯誤、磁盤故障、網絡過載或有意攻擊情況下,能否不死機、不崩潰,也指控制系統在一定結構、大小的參數攝動下,維持其他某些性能的特性。

在監督學習中面臨的挑戰是如何處理大數據,面臨的兩大瓶頸是計算密集幾乎不能用于大規模數據集,魯棒和非參數的置信區間的擬合預測往往是未知的。

國內外學者已開始對機器學習算法進行改進,針對大規模數據的分類問題,在增量核主成分分析和基于共軛梯度的最小二乘支持向量機算法基礎上,大數據領域專家卡姆等提出適用于大數據特征提取和分類算法。該算法所需內存較少,無需存儲較大矩陣,可更好地解決大規模數據分類問題。類似改進還有很多,常用的改進方法有隨機梯度下降、小批量梯度下降、在線學習等。

(作者單位:北京弘治銳龍教育科技有限公司)

分享到:
標簽:機器 學習
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定