1. 什么是大數(shù)據(jù)?
大數(shù)據(jù)的幾個(gè)明顯的特點(diǎn):
海量的數(shù)據(jù)
數(shù)據(jù)多樣性
數(shù)據(jù)增速快
以上特點(diǎn)帶來(lái)了數(shù)據(jù)的存儲(chǔ)和計(jì)算問(wèn)題,大數(shù)據(jù)技術(shù)的出現(xiàn)就是為了解決上述問(wèn)題的。
接著往下看,下圖 1-1 展示了數(shù)據(jù)端到端的流程,從左到右依次為:數(shù)據(jù)產(chǎn)生、數(shù)據(jù)采集和傳輸、數(shù)據(jù)存儲(chǔ),處理、數(shù)據(jù)應(yīng)用。
為了解決這個(gè)過(guò)程中大數(shù)據(jù)場(chǎng)景遇到的問(wèn)題,我們可以使用哪些技術(shù)呢?
數(shù)據(jù)采集和傳輸:Sqoop、Flume、DataX、Canal 等。
數(shù)據(jù)存儲(chǔ):HDFS、HBase、ES、ClickHouse、Kafka等。
數(shù)據(jù)計(jì)算:MapReduce、Spark、Flink 、Hive、Presto 等。
如果你現(xiàn)在還不了解這些技術(shù)?不要緊,先有個(gè)大概的印象就好。技術(shù)不斷在進(jìn)步,先理解技術(shù)產(chǎn)生的背景,比技術(shù)本身更重要。
2、大數(shù)據(jù)開(kāi)發(fā)工程師的分類(lèi) & 職責(zé)
簡(jiǎn)單總結(jié)如下,公司越大,崗位分得越細(xì)。
看了上面大數(shù)據(jù)細(xì)分的崗位,不難發(fā)現(xiàn),這是一個(gè)比較龐大的生態(tài),不是一兩句話就能概括的,下面我盡可能的還原每個(gè)崗位的工作職責(zé)。
數(shù)據(jù)運(yùn)維工程師
① 協(xié)調(diào)機(jī)器資源,采購(gòu)、縮減、預(yù)算等等。
② 集群組件的維護(hù)、升級(jí)。
③ 處理集群和用戶的各種問(wèn)題...
④ 如果公司采購(gòu)了阿里/網(wǎng)易這樣的數(shù)據(jù)平臺(tái),就會(huì)很省心。
數(shù)據(jù)平臺(tái)開(kāi)發(fā)工程師
① 開(kāi)發(fā)面向數(shù)據(jù)開(kāi)發(fā)使用的工具,比如元數(shù)據(jù)系統(tǒng)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)采集、數(shù)據(jù)計(jì)算平臺(tái)、任務(wù)調(diào)度平等。自研或者基于開(kāi)源的項(xiàng)目進(jìn)行二次開(kāi)發(fā)。
② 開(kāi)發(fā)面向產(chǎn)品和數(shù)據(jù)分析師的工具:數(shù)據(jù)報(bào)表平臺(tái)、數(shù)據(jù)分析平臺(tái)、數(shù)據(jù)查詢平臺(tái)(AdHoc)等。
③ 需要熟悉 Web 后端開(kāi)發(fā)語(yǔ)言,比如 JAVA/Go等,熟悉大數(shù)據(jù)開(kāi)源組件,可以進(jìn)行二次開(kāi)發(fā)等。
數(shù)據(jù)倉(cāng)庫(kù)工程師
① 離線數(shù)倉(cāng)的開(kāi)發(fā),比如數(shù)倉(cāng)建模、數(shù)據(jù)清洗。
② 實(shí)時(shí)數(shù)倉(cāng):實(shí)時(shí)指標(biāo)的開(kāi)發(fā),使用Spark Streaing 、Flink。
③ 主要是寫(xiě) SQL(離線、實(shí)時(shí)開(kāi)發(fā)平臺(tái))、需要理解業(yè)務(wù),開(kāi)發(fā)業(yè)務(wù)報(bào)表。
④ 需要業(yè)務(wù)能力,根據(jù)業(yè)務(wù)數(shù)據(jù)進(jìn)行建模。
數(shù)據(jù)測(cè)試工程師
① 一般公司沒(méi)有這個(gè)崗位,大概率又開(kāi)發(fā)工程師進(jìn)行自測(cè)。
② 測(cè)試數(shù)倉(cāng)開(kāi)發(fā)的指標(biāo)邏輯、數(shù)據(jù)的準(zhǔn)確性。
③ 測(cè)試業(yè)務(wù)埋點(diǎn)上報(bào)的準(zhǔn)確性等。
數(shù)據(jù)分析師
不同的公司也有些不同的叫法:比如阿里的BI,美團(tuán)的商分
① 臨時(shí)取數(shù):比如大型活動(dòng),某一次運(yùn)營(yíng)活動(dòng)等數(shù)據(jù)查詢分析。
② 日?qǐng)?bào)、周報(bào)、月報(bào)、季報(bào)、年報(bào)、報(bào)表等等。
③ 專(zhuān)題分析,比如用戶畫(huà)像分析、ROI分析、風(fēng)控分析、指標(biāo)體系的搭建等
④ 市場(chǎng)分析,比如要做競(jìng)品分析、渠道分析、行業(yè)分析等等。
⑤ 編寫(xiě)數(shù)據(jù)分析報(bào)告。
數(shù)據(jù)挖掘師
① 用戶基礎(chǔ)研究,用戶生命周期刻畫(huà)(進(jìn)入、成長(zhǎng)、成熟、衰退、流失)、用戶細(xì)分模型、用戶價(jià)值模型、用戶活躍度模型、用戶意愿度識(shí)別模型、用戶偏好識(shí)別模型、用戶流失預(yù)警模型、用戶激活模型等。
② 個(gè)性化推薦算法:基于協(xié)同過(guò)濾(USERBASE/ITEMBASE)的推薦,基于內(nèi)容推薦,基于關(guān)聯(lián)規(guī)則Apriot算法推薦,基于熱門(mén)地區(qū)、季節(jié)、商品、人群的推薦等。
③ 風(fēng)控模型:惡意注冊(cè)模型、異地識(shí)別模型、欺詐識(shí)別模型、高危會(huì)員模型;電商領(lǐng)域(炒信模型、刷單模型、職業(yè)差評(píng)師模型、虛假發(fā)貨模型、反欺詐模型);金融領(lǐng)域(欺詐評(píng)分模型、征信評(píng)分模型、催收模型、虛假賬單識(shí)別模型等)。
④ 文本挖掘、語(yǔ)義識(shí)別、圖像識(shí)別,等等。
算法工程師
① 語(yǔ)音、圖像、自然語(yǔ)言處理、深度學(xué)習(xí)等機(jī)器學(xué)習(xí)算法開(kāi)發(fā)及優(yōu)化。
② 挖掘并推進(jìn)算法在業(yè)務(wù)中應(yīng)用:比如美團(tuán)外賣(mài)的配送算法、滴滴打車(chē)的派單算法。
③ 推薦系統(tǒng)、用戶畫(huà)像。
數(shù)據(jù)產(chǎn)品經(jīng)理
① 協(xié)助公司各業(yè)務(wù)?向?數(shù)據(jù)應(yīng)?產(chǎn)品調(diào)研、規(guī)劃、執(zhí)?。
② 數(shù)據(jù)產(chǎn)品的開(kāi)發(fā)項(xiàng)目管理工作,確保項(xiàng)目按照需求如期完成。
3、總結(jié)
以上大數(shù)據(jù)的崗位的職責(zé),也只是冰山一角,每一家公司獨(dú)一崗位的分類(lèi)和職責(zé)也不太一樣。但是實(shí)現(xiàn)數(shù)據(jù)價(jià)值的目標(biāo)是一致的。
看到好多人都在說(shuō)大數(shù)據(jù)工程師是 SQL Boy,也有自嘲,算法工程師自嘲為算命工程師,哈哈,簡(jiǎn)直不能再形象了。






