其實大數據行業發展到現在,最大的痛點并不是數據的可視化和分析問題。而是龐大業務數據的預處理。
NO.1 80%-90%的項目時間大量花費在將不同來源的業務系統中的數據傳輸到同一個地方進行整合的過程中。
這里面存在的時間成本、用工成本、實施成本問題(規則定義、清洗、字典轉換、傳輸、安全、性能……)亟待解決。
而一旦數據進入企業數據網絡信息中心倉庫后,不管是分析還是可視化的問題都有解決方案,而在如何快速精準處理這些業務數據上卻鮮有解決之道。
ETL就是解決這個問題的關鍵工具。
ETL,Extraction-Transformation-Loading的縮寫,中文名為數據抽取、轉換和加載。
ETL負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
NO.2
如果說數據倉庫的模型設計是一座大廈的設計藍圖,
數據是磚瓦的話,
那么ETL就是將磚瓦分類、清潔、運輸、存儲的過程。
在整個項目中最難部分是用戶需求分析和模型設計,而ETL規則設計和實施則是工作量最大的,約占整個項目的60%~80%,工作時間占到整個項目時間的三分之一。這是國內外從眾多實踐中得到的普遍共識。
大數據ETL工程師到底有多稀缺?
拿招聘企業舉例,很多企業明明知道自己缺這個人,也知道這個人要什么樣的,以及他需要掌握哪些技術,但就是招不來。
社會上會這個技術的人太少了,我們合作的一家企業崗位掛了兩個多月了,只收到了1個簡歷,更別說在行業里深耕五六年甚至更久的技術人才了,那基本上都是公司的“珍寶”。
大數據這個方向還是缺少底蘊。對比其他行業方向,十年以上的專家比比皆是!大數據這個技術方向滿打滿算才發展不到六七年,所以說十年以上的大數據專家非常之稀缺。
1、在這個行業里,真正五年以上的大數據背景的人,已經可以算的上是半個專家了,業內絕對是稀有動物;
2、而諸如三四年的,會點數據架構,又會點上層數據應用挖掘的,估計至少也能算的是半個中堅了,這種人不算太少,但也絕對不算多;
3、最多的是那種不到兩年大數據行業背景的,特別是那種聽聞大數據行情好,紛紛轉過來一兩年左右的,再就是那種一畢業就立志投身大數據行業的新人朋友,這類型的人應該是占據大數據從業人士中的絕大部分。
巨大的人才缺口問題一直懸而不決,這也給了我們轉行大數據ETL行業一個契機。
這樣的情況意味著你作為一個新人有相當大的機會能夠脫穎而出,成為行業里的精英。






