任何對機(jī)器學(xué)習(xí)有興趣,想了解基本原理,前沿課題和應(yīng)用實(shí)踐的大學(xué)計(jì)算機(jī)系或相關(guān)科系的高年級本科生,研究生,以及青年教師,和在高科技企業(yè)中從事相關(guān)工作的技術(shù)人員。
余凱博士與張潼教授
Day 1
lecture 1: Introduction to ML and review of linear algebra, probability, statistics (kai)
lecture 2: linear model (tong)
lecture 3: overfitting and regularization (tong)
lecture 4: linear classification (kai)
Day 3
lecture 9: overview of learning theory (tong)
lecture 10: optimization in machine learning (tong)
lecture 11: online learning (tong)
lecture 12: sparsity models (tong)
Day 5
lecture 17: matrix factorization and recommendations (kai)
lecture 18: learning on images (kai)
lecture 19: learning on the web (tong)
lecture 20: summary and road ahead (tong)
第1課:緒論課
第2課:線性模型
1. 怎樣從訓(xùn)練數(shù)據(jù)估計(jì)線性模型的參數(shù)?即截距和斜率。
3. 模型中2個(gè)參數(shù)的重要性怎么估計(jì)?
更廣義的線性模型并不一定是一個(gè)線性方程。只是其參數(shù)可能是線性的。線性模型能夠模擬非線性函數(shù)。
特征向量元素屬性的重要性評價(jià)常見的有以下2種方法:第一是抽掉一個(gè)特征想,然后計(jì)算其殘差變化值與全部特征都用上的比值,所得到的分?jǐn)?shù)為F-score,F(xiàn)-score越大,說明該屬性越重要。第2種方法是采用t分布來假設(shè)檢驗(yàn)得到Z-score,即假設(shè)對應(yīng)特征屬性不存在(即其值為0)時(shí),出現(xiàn)樣本數(shù)據(jù)的概率為Z-score,如果Z-score越大,說明該屬性越不重要。
Regularization中文意思是規(guī)則,指的是在overfitting和underfitting之間做平衡,通過限制參數(shù)空間來控制模型的復(fù)雜度。測試誤差和訓(xùn)練誤差之間差一個(gè)規(guī)則項(xiàng),其公式為:
模型越復(fù)雜說明模型越不穩(wěn)定,學(xué)習(xí)到的目標(biāo)函數(shù)越不光滑,也就越容易o(hù)ver-fitting。所以需要控制模型的復(fù)雜度,一般來說有2種方法,即減少模型中參數(shù)的個(gè)數(shù)或者減小參數(shù)的空間大小,目前用得最多的就是減小參數(shù)的空間大小,是通過規(guī)則項(xiàng)達(dá)到的。規(guī)則項(xiàng)的引入同時(shí)也需要引入一個(gè)調(diào)節(jié)的參數(shù),該參數(shù)的大小一般通過交叉驗(yàn)證獲得。如果規(guī)則項(xiàng)是2次的,則也稱為ridge回歸,規(guī)則項(xiàng)是一次的則稱為lasso回歸。Ridge回歸的優(yōu)點(diǎn)是解比較穩(wěn)定,且允許參數(shù)的個(gè)數(shù)大于樣本的個(gè)數(shù)。Lasson回歸的優(yōu)點(diǎn)是有稀疏解,不過解不一定穩(wěn)定。
第4課:線性分類器
據(jù)余老師講,從06年開始,人工神經(jīng)網(wǎng)絡(luò)又開始熱起來了,主要體現(xiàn)在deep learning領(lǐng)域。
當(dāng)數(shù)據(jù)為大樣本數(shù)據(jù)時(shí),用線性SVM模型比較好。
RKHS表示定理:即模型的參數(shù)是在訓(xùn)練樣本的線性子空間中,是訓(xùn)練樣本的線性組合。這不僅適用于svm,對其他的模型,比如感知機(jī),RBF網(wǎng)絡(luò),LVQ,boosting,logistic回歸等模型都成立。
邏輯回歸和svm的區(qū)別只是loss函數(shù)的不同,logstic回歸的loss函數(shù)為logstic函數(shù),核svm的loss函數(shù)為hinge loss。兩者有著相同的性能,邏輯回歸是帶概率的輸出,更容易用于多分類問題。不過目前,這2種方法都是舊方法了。
因此我們在設(shè)計(jì)一個(gè)模型時(shí),需要考慮采用什么樣的loss函數(shù)?采用什么樣的基函數(shù)h(x)?h(x)是有限維的還是無限維的?是否需要學(xué)習(xí)h(x)?用什么樣的方法來優(yōu)化目標(biāo)函數(shù),QP,LBFGS,還是梯度下降等?
參數(shù)模型和非參數(shù)模型的區(qū)別不是看模型中是否有參數(shù),所有的模型都是有參數(shù)的,非參數(shù)模型是指隨著樣本數(shù)的增加,其模型中的參數(shù)的個(gè)數(shù)也跟著增加。反之就為參數(shù)模型了。常見的非參數(shù)模型有高斯過程,核svm,dirichlet過程等。
模型選擇在實(shí)際應(yīng)用過程中非常有用,一般把與模型有關(guān)的數(shù)據(jù)分為3部分,訓(xùn)練數(shù)據(jù),驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù),如下圖所示:
其中訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)都是已有的樣本數(shù)據(jù),即已觀察到了的數(shù)據(jù)。測試數(shù)據(jù)是未來實(shí)際應(yīng)用中產(chǎn)生的數(shù)據(jù),是事先不知道的。
模型選擇問題就是說怎樣驗(yàn)證一個(gè)模型是否好。模型的好壞最終是要看它在測試數(shù)據(jù)集上的表現(xiàn)。因此在未觀測到測試數(shù)據(jù)時(shí),我們只能用驗(yàn)證數(shù)據(jù)集來代替它進(jìn)行測試。一般采用的方法為交叉驗(yàn)證,比如說LOOCV,即留一法交叉驗(yàn)證,類似的還有k折交叉驗(yàn)證。交叉驗(yàn)證的主要目的是防止訓(xùn)練出來的模型過擬合。但是在當(dāng)今由于數(shù)據(jù)都是海量的,交叉驗(yàn)證方法使用越來越少了,因?yàn)槿绻?xùn)練數(shù)據(jù)集非常大的話,一般不會產(chǎn)生過擬合現(xiàn)象。






