課程概述:
使用數據領域最主流語言Python及其分析與建模庫作為核心武器。對于機器學習經典算法給出完整的原理推導并基于實例進行講解,基于案例演示如何應用機器學習算法解決實際問題。
課程特色:
- 通俗易懂,快速入門
對機器學習經典算法結合數學推導進行形象解釋,實例演示。
2.Python主導,實用高效
使用數據領域最主流語言Python及其分析與建模庫作為課程核心工具。 - 案例為師,實戰護航
基于真實數據集,從零開始結合Python工具與機器學習算法完成整個案例實戰。 - 持續更新,一勞永逸
【課程內容】
01.課程介紹(主題與大綱)
02.機器學習概述
03.使用Anaconda安裝python環境
04.課程數據,代碼,PPT(在參考資料界面)
05.科學計算庫Numpy
06.Numpy基礎結構
07.Numpy矩陣基礎
08.Numpy常用函數
09.矩陣常用操作
10.不同復制操作對比
11.Pandas數據讀取
12.Pandas索引與計算
13.Pandas數據預處理實例
14.Pandas常用預處理方法
15.Pandas自定義函數
16.Series結構
17.折線圖繪制
18.子圖操作
19.條形圖與散點圖
20.柱形圖與盒圖
21.細節設置
22.Seaborn簡介
23.整體布局風格設置
24.風格細節設置
25.調色板
26.調色板
27.調色板顏色設置
28.單變量分析繪圖
29.回歸分析繪圖
30.多變量分析繪圖
31.分類屬性繪圖
32.Facetgrid使用方法
33.Facetgrid繪制多變量
34.熱度圖繪制
35.回歸算法綜述
36.回歸誤差原理推導
37.回歸算法如何得出最優解
38.基于公式推導完成簡易線性回歸
39.邏輯回歸與梯度下降
40.使用梯度下降求解回歸問題
41.決策樹算法綜述
42.決策樹熵原理
43.決策樹構造實例
44.信息增益原理
45.信息增益率的作用
46.決策樹剪枝策略
47.隨機森林模型
48.決策樹參數詳解
49.貝葉斯算法概述
50.貝葉斯推導實例
51.貝葉斯拼寫糾錯實例
52.垃圾郵件過濾實例
53.貝葉斯實現拼寫檢查器
54.支持向量機要解決的問題
55.支持向量機目標函數
56.支持向量機目標函數求解
57.支持向量機求解實例
58.支持向量機軟間隔問題
59.支持向量核變換
60.SMO算法求解支持向量機
61.初識神經網絡
62.計算機視覺所面臨的挑戰
63.K近鄰嘗試圖像分類
64.超參數的作用
65.線性分類原理
66.神經網絡-損失函數
67.神經網絡-正則化懲罰項
68.神經網絡-softmax分類器
69.神經網絡-最優化形象解讀
70.神經網絡-梯度下降細節問題
71.神經網絡-反向傳播
72.神經網絡架構
73.神經網絡實例演示
74.神經網絡過擬合解決方案
75.感受神經網絡的強大
76.集成算法思想
77.xgboost基本原理
78.xgboost目標函數推導
79.xgboost求解實例
80.xgboost安裝
81.xgboost實戰演示
82.Adaboost算法概述
83.自然語言處理與深度學習
84.語言模型
85.-N-gram模型
86.詞向量
87.神經網絡模型
88.Hierarchical.Softmax
89.CBOW模型實例
90.CBOW求解目標
91.梯度上升求解
92.負采樣模型
93.無監督聚類問題
94.聚類結果與離群點分析
95.K-means聚類案例對NBA球員進行評估
96.使用Kmeans進行圖像壓縮
97.K近鄰算法原理
98.K近鄰算法代碼實現
99.PCA基本原理
100.PCA實例
101.SVD奇異值分解原理
102.SVD推薦系統應用實例
103.使用python庫分析汽車油耗效率
104.使用scikit-learn庫建立回歸模型
105.使用邏輯回歸改進模型效果
106..模型效果衡量標準
107.ROC指標與測試集的價值
108.交叉驗證
109.多類別問題
110.Kobe.Bryan生涯數據讀取與簡介
111.特征數據可視化展示
112.數據預處理
113.使用Scikit-learn建立模型
114.船員數據分析
115.數據預處理
116.使用回歸算法進行預測
117.使用隨機森林改進模型
118.隨機森林特征重要性分析
119.案例背景和目標
120.樣本不均衡解決方案
121.下采樣策略
122.交叉驗證
123.模型評估方法
124.正則化懲罰
125.邏輯回歸模型
126.混淆矩陣
127.邏輯回歸閾值對結果的影響
128.SMOTE樣本生成策略
129.文本分析與關鍵詞提取
130.相似度計算
131.新聞數據與任務簡介
132.TF-IDF關鍵詞提取
133.LDA建模
134.基于貝葉斯算法進行新聞分類
135.章節簡介
136.Pandas生成時間序列
137.Pandas數據重采樣
138.Pandas滑動窗口
139.數據平穩性與差分法
140.ARIMA模型
141.相關函數評估方法
142.建立ARIMA模型
143.參數選擇
144.股票預測案例
145.使用tsfresh庫進行分類任務
146.維基百科詞條EDA
147.使用Gensim庫構造詞向量
148.維基百科中文數據處理
149.Gensim構造word2vec模型
150.測試模型相似度結果
151.數據清洗過濾無用特征
152.數據預處理
153.獲得最大利潤的條件與做法
154.預測結果并解決樣本不均衡問題
155.數據背景介紹
156.數據預處理
157.嘗試多種分類器效果
158.結果衡量指標的意義
159.應用閾值得出結果
160.內容簡介
161.數據背景介紹
162.數據讀取與預處理
163.數據切分模塊
164.缺失值可視化分析
165.特征可視化展示
166.多特征之間關系分析
167.報表可視化分析
168.紅牌和膚色的關系
169.數據背景簡介
170.數據切片分析
171.單變量分析
172.峰度與偏度
173.數據對數變換
174.數據分析維度
175.變量關系可視化展示
176.建立特征工程
177.特征數據預處理
178.應用聚類算法得出異常IP點