亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747



任何對機(jī)器學(xué)習(xí)有興趣,想了解基本原理,前沿課題和應(yīng)用實(shí)踐的大學(xué)計(jì)算機(jī)系或相關(guān)科系的高年級本科生,研究生,以及青年教師,和在高科技企業(yè)中從事相關(guān)工作的技術(shù)人員。

余凱博士與張潼教授



Day 1

lecture 1: Introduction to ML and review of linear algebra, probability, statistics (kai)

lecture 2: linear model (tong)

lecture 3: overfitting and regularization (tong)

lecture 4: linear classification (kai)



Day 3

lecture 9: overview of learning theory (tong)


lecture 10: optimization in machine learning (tong)


lecture 11: online learning (tong)


lecture 12: sparsity models (tong)




Day 5

lecture 17: matrix factorization and recommendations (kai)


lecture 18: learning on images (kai)


lecture 19: learning on the web (tong)


lecture 20: summary and road ahead (tong)




第1課:緒論課



第2課:線性模型



1. 怎樣從訓(xùn)練數(shù)據(jù)估計(jì)線性模型的參數(shù)?即截距和斜率。



3. 模型中2個(gè)參數(shù)的重要性怎么估計(jì)?



 
 



更廣義的線性模型并不一定是一個(gè)線性方程。只是其參數(shù)可能是線性的。線性模型能夠模擬非線性函數(shù)。



特征向量元素屬性的重要性評價(jià)常見的有以下2種方法:第一是抽掉一個(gè)特征想,然后計(jì)算其殘差變化值與全部特征都用上的比值,所得到的分?jǐn)?shù)為F-score,F(xiàn)-score越大,說明該屬性越重要。第2種方法是采用t分布來假設(shè)檢驗(yàn)得到Z-score,即假設(shè)對應(yīng)特征屬性不存在(即其值為0)時(shí),出現(xiàn)樣本數(shù)據(jù)的概率為Z-score,如果Z-score越大,說明該屬性越不重要。



Regularization中文意思是規(guī)則,指的是在overfitting和underfitting之間做平衡,通過限制參數(shù)空間來控制模型的復(fù)雜度。測試誤差和訓(xùn)練誤差之間差一個(gè)規(guī)則項(xiàng),其公式為:



模型越復(fù)雜說明模型越不穩(wěn)定,學(xué)習(xí)到的目標(biāo)函數(shù)越不光滑,也就越容易o(hù)ver-fitting。所以需要控制模型的復(fù)雜度,一般來說有2種方法,即減少模型中參數(shù)的個(gè)數(shù)或者減小參數(shù)的空間大小,目前用得最多的就是減小參數(shù)的空間大小,是通過規(guī)則項(xiàng)達(dá)到的。規(guī)則項(xiàng)的引入同時(shí)也需要引入一個(gè)調(diào)節(jié)的參數(shù),該參數(shù)的大小一般通過交叉驗(yàn)證獲得。如果規(guī)則項(xiàng)是2次的,則也稱為ridge回歸,規(guī)則項(xiàng)是一次的則稱為lasso回歸。Ridge回歸的優(yōu)點(diǎn)是解比較穩(wěn)定,且允許參數(shù)的個(gè)數(shù)大于樣本的個(gè)數(shù)。Lasson回歸的優(yōu)點(diǎn)是有稀疏解,不過解不一定穩(wěn)定。




第4課:線性分類器



據(jù)余老師講,從06年開始,人工神經(jīng)網(wǎng)絡(luò)又開始熱起來了,主要體現(xiàn)在deep learning領(lǐng)域。



當(dāng)數(shù)據(jù)為大樣本數(shù)據(jù)時(shí),用線性SVM模型比較好。



RKHS表示定理:即模型的參數(shù)是在訓(xùn)練樣本的線性子空間中,是訓(xùn)練樣本的線性組合。這不僅適用于svm,對其他的模型,比如感知機(jī),RBF網(wǎng)絡(luò),LVQ,boosting,logistic回歸等模型都成立。



邏輯回歸和svm的區(qū)別只是loss函數(shù)的不同,logstic回歸的loss函數(shù)為logstic函數(shù),核svm的loss函數(shù)為hinge loss。兩者有著相同的性能,邏輯回歸是帶概率的輸出,更容易用于多分類問題。不過目前,這2種方法都是舊方法了。



因此我們在設(shè)計(jì)一個(gè)模型時(shí),需要考慮采用什么樣的loss函數(shù)?采用什么樣的基函數(shù)h(x)?h(x)是有限維的還是無限維的?是否需要學(xué)習(xí)h(x)?用什么樣的方法來優(yōu)化目標(biāo)函數(shù),QP,LBFGS,還是梯度下降等?



參數(shù)模型和非參數(shù)模型的區(qū)別不是看模型中是否有參數(shù),所有的模型都是有參數(shù)的,非參數(shù)模型是指隨著樣本數(shù)的增加,其模型中的參數(shù)的個(gè)數(shù)也跟著增加。反之就為參數(shù)模型了。常見的非參數(shù)模型有高斯過程,核svm,dirichlet過程等。



模型選擇在實(shí)際應(yīng)用過程中非常有用,一般把與模型有關(guān)的數(shù)據(jù)分為3部分,訓(xùn)練數(shù)據(jù),驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù),如下圖所示:



其中訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)都是已有的樣本數(shù)據(jù),即已觀察到了的數(shù)據(jù)。測試數(shù)據(jù)是未來實(shí)際應(yīng)用中產(chǎn)生的數(shù)據(jù),是事先不知道的。



模型選擇問題就是說怎樣驗(yàn)證一個(gè)模型是否好。模型的好壞最終是要看它在測試數(shù)據(jù)集上的表現(xiàn)。因此在未觀測到測試數(shù)據(jù)時(shí),我們只能用驗(yàn)證數(shù)據(jù)集來代替它進(jìn)行測試。一般采用的方法為交叉驗(yàn)證,比如說LOOCV,即留一法交叉驗(yàn)證,類似的還有k折交叉驗(yàn)證。交叉驗(yàn)證的主要目的是防止訓(xùn)練出來的模型過擬合。但是在當(dāng)今由于數(shù)據(jù)都是海量的,交叉驗(yàn)證方法使用越來越少了,因?yàn)槿绻?xùn)練數(shù)據(jù)集非常大的話,一般不會產(chǎn)生過擬合現(xiàn)象。

分享到:
標(biāo)簽:機(jī)器 清華大學(xué) 課程 人工智能
用戶無頭像

網(wǎng)友整理

注冊時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定