欧美vs日韩vs国产在线观看,三上悠亚精品专区久久,久操免费在线观看

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會員：747

清華大學(xué)機(jī)器學(xué)習(xí)課程

發(fā)布時(shí)間：2022-10-16 22:51:26 作者：網(wǎng)友整理

任何對機(jī)器學(xué)習(xí)有興趣，想了解基本原理，前沿課題和應(yīng)用實(shí)踐的大學(xué)計(jì)算機(jī)系或相關(guān)科系的高年級本科生，研究生，以及青年教師，和在高科技企業(yè)中從事相關(guān)工作的技術(shù)人員。

余凱博士與張潼教授

Day 1

lecture 1: Introduction to ML and review of linear algebra, probability, statistics (kai)

lecture 2: linear model (tong)

lecture 3: overfitting and regularization (tong)

lecture 4: linear classification (kai)

Day 3

lecture 9: overview of learning theory (tong)

lecture 10: optimization in machine learning (tong)

lecture 11: online learning (tong)

lecture 12: sparsity models (tong)

Day 5

lecture 17: matrix factorization and recommendations (kai)

lecture 18: learning on images (kai)

lecture 19: learning on the web (tong)

lecture 20: summary and road ahead (tong)

第1課：緒論課

第2課：線性模型

1. 怎樣從訓(xùn)練數(shù)據(jù)估計(jì)線性模型的參數(shù)？即截距和斜率。

3. 模型中2個(gè)參數(shù)的重要性怎么估計(jì)？

更廣義的線性模型并不一定是一個(gè)線性方程。只是其參數(shù)可能是線性的。線性模型能夠模擬非線性函數(shù)。

特征向量元素屬性的重要性評價(jià)常見的有以下2種方法：第一是抽掉一個(gè)特征想，然后計(jì)算其殘差變化值與全部特征都用上的比值，所得到的分?jǐn)?shù)為F-score，F(xiàn)-score越大，說明該屬性越重要。第2種方法是采用t分布來假設(shè)檢驗(yàn)得到Z-score，即假設(shè)對應(yīng)特征屬性不存在(即其值為0)時(shí)，出現(xiàn)樣本數(shù)據(jù)的概率為Z-score，如果Z-score越大，說明該屬性越不重要。

Regularization中文意思是規(guī)則，指的是在overfitting和underfitting之間做平衡，通過限制參數(shù)空間來控制模型的復(fù)雜度。測試誤差和訓(xùn)練誤差之間差一個(gè)規(guī)則項(xiàng)，其公式為：

模型越復(fù)雜說明模型越不穩(wěn)定，學(xué)習(xí)到的目標(biāo)函數(shù)越不光滑，也就越容易o(hù)ver-fitting。所以需要控制模型的復(fù)雜度，一般來說有2種方法，即減少模型中參數(shù)的個(gè)數(shù)或者減小參數(shù)的空間大小，目前用得最多的就是減小參數(shù)的空間大小，是通過規(guī)則項(xiàng)達(dá)到的。規(guī)則項(xiàng)的引入同時(shí)也需要引入一個(gè)調(diào)節(jié)的參數(shù)，該參數(shù)的大小一般通過交叉驗(yàn)證獲得。如果規(guī)則項(xiàng)是2次的，則也稱為ridge回歸，規(guī)則項(xiàng)是一次的則稱為lasso回歸。Ridge回歸的優(yōu)點(diǎn)是解比較穩(wěn)定，且允許參數(shù)的個(gè)數(shù)大于樣本的個(gè)數(shù)。Lasson回歸的優(yōu)點(diǎn)是有稀疏解，不過解不一定穩(wěn)定。

第4課：線性分類器

據(jù)余老師講，從06年開始，人工神經(jīng)網(wǎng)絡(luò)又開始熱起來了，主要體現(xiàn)在deep learning領(lǐng)域。

當(dāng)數(shù)據(jù)為大樣本數(shù)據(jù)時(shí)，用線性SVM模型比較好。

RKHS表示定理：即模型的參數(shù)是在訓(xùn)練樣本的線性子空間中，是訓(xùn)練樣本的線性組合。這不僅適用于svm，對其他的模型，比如感知機(jī)，RBF網(wǎng)絡(luò)，LVQ，boosting，logistic回歸等模型都成立。

邏輯回歸和svm的區(qū)別只是loss函數(shù)的不同，logstic回歸的loss函數(shù)為logstic函數(shù)，核svm的loss函數(shù)為hinge loss。兩者有著相同的性能，邏輯回歸是帶概率的輸出，更容易用于多分類問題。不過目前，這2種方法都是舊方法了。

因此我們在設(shè)計(jì)一個(gè)模型時(shí)，需要考慮采用什么樣的loss函數(shù)？采用什么樣的基函數(shù)h(x)？h(x)是有限維的還是無限維的？是否需要學(xué)習(xí)h(x)?用什么樣的方法來優(yōu)化目標(biāo)函數(shù)，QP，LBFGS，還是梯度下降等？

參數(shù)模型和非參數(shù)模型的區(qū)別不是看模型中是否有參數(shù)，所有的模型都是有參數(shù)的，非參數(shù)模型是指隨著樣本數(shù)的增加，其模型中的參數(shù)的個(gè)數(shù)也跟著增加。反之就為參數(shù)模型了。常見的非參數(shù)模型有高斯過程，核svm，dirichlet過程等。

模型選擇在實(shí)際應(yīng)用過程中非常有用，一般把與模型有關(guān)的數(shù)據(jù)分為3部分，訓(xùn)練數(shù)據(jù)，驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù)，如下圖所示：

其中訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)都是已有的樣本數(shù)據(jù)，即已觀察到了的數(shù)據(jù)。測試數(shù)據(jù)是未來實(shí)際應(yīng)用中產(chǎn)生的數(shù)據(jù)，是事先不知道的。

模型選擇問題就是說怎樣驗(yàn)證一個(gè)模型是否好。模型的好壞最終是要看它在測試數(shù)據(jù)集上的表現(xiàn)。因此在未觀測到測試數(shù)據(jù)時(shí)，我們只能用驗(yàn)證數(shù)據(jù)集來代替它進(jìn)行測試。一般采用的方法為交叉驗(yàn)證，比如說LOOCV，即留一法交叉驗(yàn)證，類似的還有k折交叉驗(yàn)證。交叉驗(yàn)證的主要目的是防止訓(xùn)練出來的模型過擬合。但是在當(dāng)今由于數(shù)據(jù)都是海量的，交叉驗(yàn)證方法使用越來越少了，因?yàn)槿绻?xùn)練數(shù)據(jù)集非常大的話，一般不會產(chǎn)生過擬合現(xiàn)象。