1、什么是數(shù)據(jù)分析
結(jié)合分析工具,運用數(shù)據(jù)分析思維,分析龐雜數(shù)據(jù)信息,為業(yè)務(wù)賦能。
2、數(shù)據(jù)分析師工作的核心流程:
(1)界定問題:明確具體問題是什么;
●what 發(fā)生了什么(是什么)
●why 為什么會發(fā)生這個問題(為什么)
●how 針對這個問題,我們改怎么做?(怎么樣)
(2)數(shù)據(jù)搜集:根據(jù)業(yè)務(wù)問題,確定所需要的的數(shù)據(jù)維度,進(jìn)行數(shù)據(jù)收集;(工具Excel、 sql、 Python)
● 我們需要哪些數(shù)據(jù);
●這些數(shù)據(jù)在哪里可以獲得;
●這些數(shù)據(jù)可以通過什么手段獲得;
(3)數(shù)據(jù)清洗:把數(shù)據(jù)格式、數(shù)據(jù)(真實性、完整性、準(zhǔn)確性)進(jìn)行加工整理、剔除干擾數(shù)據(jù);(工具excel、 sql、 python)
●如果數(shù)據(jù)存在缺失,應(yīng)該怎么辦?
●如果數(shù)據(jù)存在錯誤,應(yīng)該怎么辦?
●如果數(shù)據(jù)格式不一致,應(yīng)該怎么辦?
(4)數(shù)據(jù)可視化:把數(shù)據(jù)轉(zhuǎn)化成圖表,直觀呈現(xiàn)數(shù)據(jù)的結(jié)構(gòu)與關(guān)系,方便快速發(fā)現(xiàn)關(guān)系及問題;(工具:Tableau、Python)
(5)數(shù)據(jù)建模:利用數(shù)據(jù)之間的規(guī)律建模,評估和預(yù)測結(jié)果及判斷未來趨勢;(工具:python)
3、個人學(xué)習(xí)問題:
(1)問題:界定問題,這一環(huán)節(jié),比較依靠案例實際經(jīng)驗。不同的項目,雖然都是分析是什么,為什么,怎么樣?這3個角度。但是具體細(xì)化的維度不好選取,因為每個人的知識儲備、個人經(jīng)歷不一樣,則對同一問題的理解就會有差別,那么界定的最終問題結(jié)論就會不一樣。
(2)建議的解決方案:肯定是不同類別的項目分析3個案例——歸納總結(jié)(了解在同類項目中應(yīng)該選取哪些參考的維度進(jìn)行分析)。但是這個短期不好提升,是一個長期的知識積累、閱歷思考的過程,不斷優(yōu)化改進(jìn)。
4、數(shù)據(jù)分析工具:
(1)Excel;
(2)SQL是一種數(shù)據(jù)庫查詢和程序設(shè)計語言,用于存取數(shù)據(jù)以及查詢、更新和管理關(guān)系數(shù)據(jù)庫系統(tǒng);
(3)Python;
5、數(shù)據(jù)分析工具之間的優(yōu)勢比較
5.1、SQL VS excel優(yōu)勢比較
(1)SQL處理大量數(shù)據(jù),效率更高;
(2)SQL處理復(fù)雜問題,優(yōu)勢更明顯;eg:合并多個不同文件中的數(shù)據(jù);
5.2、SQL VS python比較
SQL主要用于超大數(shù)據(jù)的查詢并導(dǎo)出數(shù)據(jù);而Python和R主要用于超大數(shù)據(jù)的導(dǎo)出數(shù)據(jù)后的分析整理。
6、SQL常用語句
(1)select from 可以在表中查詢特定字段的數(shù)據(jù)
示例:Select 字段名 from 數(shù)據(jù)表 limit 行數(shù);
(2)order by 可以對某個字段進(jìn)行排序
示例:Select 字段名 from 數(shù)據(jù)表 order by 字段名;
(3)limit 可以限制顯示多少行數(shù)據(jù)——放程序最后
示例:select 字段名 from 數(shù)據(jù)表 limit 行數(shù);
(4)group by 可以進(jìn)行字段分組;(一般會和sum一起使用)
示例1:select 要分組的字段,sum (要統(tǒng)計的字段) as 給統(tǒng)計出的數(shù)據(jù)起的字段名
Group by 要分組的字段
示例2:select
reg_channel, (注意求和程序前面是要加,號的)
sum(pushed) as total_pushed, (注意求和字段名是要加()的)
sum(viewed) as total_viewed,
sum(checked) as total_checked,
sum(used) as total_used (注意最后一個sum是沒有,號的)
from pdd_data
group by reg_channel;
7、python基礎(chǔ)知識介紹
7.1、python數(shù)據(jù)分析功能
(1)可以快速找到網(wǎng)頁上的重要信息;爬蟲
7.2、python編程語言的基礎(chǔ)知識
(1)怎么讓機(jī)器說話?print()
(2)基期能理解什么?(最常見的3中數(shù)據(jù)類型,字符串,整數(shù),浮點數(shù))
(3)怎么把你想要的東西存起來。(賦值=)
7.3、print()函數(shù) ——結(jié)果輸出
(1)可以輸入數(shù)字、文字、符號;
(2)多個數(shù)據(jù)組用,隔開;
(3)文本用單引號’’引用;
(3)示例:print("我愛學(xué)習(xí)","校招商業(yè)分析",”666”)
7.4、3種最常見的字符串
(1)字符串(str)——文本數(shù)據(jù)類型,文本中已有單引號,外面就用雙引號引用。示例:print("Let's Go!")
(2)整數(shù)(int)
(3)浮點數(shù)(float)
7.5、通過=賦值,可以賦值一切變量,中文、英文、符號、數(shù)字、表格等
示例:
7.6、python常用數(shù)據(jù)分析工具包
(1)Matplotlip——自助(可以組合、高度定制化,支持配色)
(2)Seaborn——套餐(固定模板)
7.7、實戰(zhàn)演示
(1)準(zhǔn)備資料——庫(python自帶的工具包) 數(shù)據(jù)
①調(diào)包
import pandas as pd
import seaborn as sns
%matplotlib inline
②讀取數(shù)據(jù)
pdd=pd.read_csv('pdd_data.csv')
(2)處理數(shù)據(jù)
①查看數(shù)據(jù)基本情況:來哦接數(shù)據(jù)基本情況,看是否有需要加工處理的地方eg:空值、非數(shù)字?jǐn)?shù)據(jù)等
pdd.info()
②把非數(shù)字型變量變成數(shù)字型變量
pdd=pd.get_dummies(pdd)
pdd.info()
(3)數(shù)據(jù)可視化
Eg:不同的項目考慮的指標(biāo)可能也會不同
示例:
①計算相關(guān)性
pdd.corr()[['gmv']] 注意:是兩個方括號
②繪制熱力圖
sns.heatmap(pdd.corr()[['gmv']])
8、數(shù)據(jù)分析書籍推薦
8.1、sql學(xué)習(xí)書籍推薦:
《SQL必知必會》《深度學(xué)習(xí)》
8.2、python學(xué)習(xí)書籍推薦
8.2.1、數(shù)據(jù)分析理論:
(1)、機(jī)器學(xué)習(xí)——吳恩達(dá)的Coursera機(jī)器學(xué)習(xí)課——入門級
——吳恩達(dá)的斯坦福大學(xué)的公開課——進(jìn)階級
說明:雖然吳恩達(dá)的機(jī)器學(xué)習(xí)書籍網(wǎng)絡(luò)上依舊有部分人吐槽,說數(shù)學(xué)知識涉及太少,談不上真正的數(shù)據(jù)分析,但是縱觀全網(wǎng)公開免費的大多數(shù)數(shù)據(jù)分析書籍或課程來說,他的機(jī)器學(xué)習(xí),應(yīng)該算是相對而言比較通俗易懂的,適合小白,適合零基礎(chǔ),畢竟對數(shù)學(xué)的知識要求較為基礎(chǔ)。
8.2.2、統(tǒng)計學(xué):
(1)周志華的機(jī)器學(xué)習(xí)(俗稱,西瓜書);
(2)李航的統(tǒng)計學(xué)習(xí)方法。
寫在文末:野蠻生長,向善而生,積跬步,至千里。我是“逆風(fēng)北極光”,公眾號同名。追光者,照亮前行的路,期待與您共同成長,譜寫自己的美好青春。






