01.什么是大數據?
數據是對客觀事實進行記錄的一種符號,可以是數字、文字,也可以是圖片、音頻、視頻。大數據是指無法在一定時間范圍內用常規軟件進行捕捉、管理和數據的數據集合。
大數據具有"5V"特點,即數據量大、數據多樣性、價值密度低、增長速度快、數據質量低。
大數據時代強調數據的全部,而不是局部的樣本數據。由于大數據的價值密度低,我們要接受這種模糊和不精確性。通過對數據的研究,發現以前不曾發現的聯系,而不是像小數據時代,先通過假設,然后再用數據來驗證。也就是說,在大數據時代,對相關性的重視程度要強于因果性。
02.什么是結構化和非結構化數據?
結構化數據是適合用二維表格展現的數據。每一行是一條記錄,每一列是不同的字段。
以電商網站為例,用戶信息就可以用結構化數據來存儲。每位用戶就是一條記錄,而每位用戶又有姓名、性別、地址、手機、郵箱等字段,這樣就形成了一個二維表格。
非結構化數據不適合用二維表格來展現,比如文檔、圖片、音頻、視頻等。非結構化數據的格式多樣,難以標準化和理解,因此在存儲、檢索、利用上都需要更加有效的方法和技術。
03.什么是數據庫?
數據庫從字面意思來看就是存儲數據的地方,但數據的存儲不是雜亂無章的,而是按照一定的規則來存儲的,具有可共享和便于管理的特點。數據庫被視為電子化的文件柜。用戶可以對數據庫中的數據進行增、刪、改、查等操作。
數據庫可分為關系型數據庫、非關系型數據庫、數據倉庫等類型。
04.什么是關系型數據庫?
關系型數據庫是指使用關系模型來組織數據的數據庫。關系模型可以簡單理解為二維表格模型,以行和列的形式存儲數據,因此適合存儲結構化數據。關系型數據庫就是由多個二維表格及其之間的關系組成的數據庫。
常見的關系型數據庫有MySQL、SQL Server、PostgreSQL、Oracle等。
以電商網站為例,除了用戶信息之外,還要記錄產品信息和訂單信息。為簡化起見,每個訂單只包含一種產品。產品包括名稱、價格、圖片、介紹等字段,訂單包括所屬用戶、相關產品、訂購數量、訂單價格、下單時間等字段。一個用戶擁有一個或多個訂單,而一個產品也會屬于一個或多個訂單,這樣就建立了用戶、訂單和產品之間的關系。
05.什么是非關系型數據庫?
相對關系型數據庫而言,非關系型數據庫拋棄了固定的二維表格結構,存儲機制靈活,比如鍵值對、文檔、圖形等格式都可以進行存儲。
常見的非關系型數據庫有redis、MongoDB、Cassandra等。
性能是非關系型數據庫最大的優勢。由于關系型數據庫中的關系模型會占用掉90%的硬件資源及計算時間,對于有大量不需要關系功能的數據處理,非關系型數據庫的性能是非常高的。
另一方面,正是由于缺少數據表之間的關系,非關系型數據庫很難在多個表之間做非常復雜的數據查詢。
06.什么是時序數據庫?
時序數據庫是一類特殊的非關系型數據庫,全稱是時間序列數據庫。經研究發現,機器設備、傳感器、系統日志等產生的數據有如下明顯的特征:
數據是時序的,即按照一定時間順序生成;
數據極少有更新或刪除操作;
數據產生頻率快、數據信息量大;
數據往往帶有位置信息。
傳統的關系型數據庫或非關系型數據庫對于這類數據,在性能提升上極為有限,只能依靠集群技術,投入更多的計算資源和存儲資源來處理,造成企業運營成本急劇上升。而時序數據庫可以有效地處理龐大的數據,通過創新的列式存儲和先進的壓縮算法,使用的計算資源不到傳統方案的1/5,存儲空間不到通用數據庫的1/10。
常見的時序數據庫有InfluxDB等。
07.什么是分布式存儲?
分布式存儲是相對于集中式存儲而言的。分布式存儲是由標準服務器(硬件)和分布式文件系統(軟件)組成的,可擴展至千臺硬件節點,支持塊存儲、對象存儲、文件存儲等多種類型統一管理。
常見的分布式文件系統有HDFS、Ceph、GFS、GPFS、Swift等。
舉個通俗易懂的例子,如果把存儲比喻成車廂,數據比喻成貨物。集中式存儲方案下,如果要想拉更多的貨物,只能更換更大的車廂。而分布式存儲方案,直接增加車廂就可以了。有了分布式存儲技術,存儲EB級別(1EB=1024PB=1024*1024TB=1024*1024*1024GB)的海量數據庫都不成問題。
08.什么是數據集成?
由于開發部門或開發時間的不同,企業中往往有多個異構的、運行在不同的軟硬件平臺上的數據庫,這些數據庫彼此獨立、相互封閉,使得數據難以在系統之間交流和共享,從而形成了"信息孤島"。隨著信息化應用的不斷深入,企業內部之間、企業與外部的信息交互的需求日益強烈,急切需要對已有的數據進行整合,打通"信息孤島",這就是數據集成的意義。
數據集成是把不同來源、不同種類、不同格式的數據在物理上或邏輯上進行集中,為企業提供全面的數據共享。數據集成主要解決的問題是各個數據源的異構性,包括數據庫的異構性、通信協議的異構性、數據類型的異構性、數據取值的異構性等。
09.什么是數據清洗?
數據清洗是一種清除錯誤數據、去掉重復數據的技術。數據經過清洗之后,可以還保存到原來的數據庫中,也可以和數據集成聯系在一起,最終保存到集成后的數據庫里。
舉幾個數據清洗的實例:
1.在用戶信息表中,規定有姓名、性別、地址、手機、郵箱五個字段是必填的。而某些用戶缺少某些字段的值,因此需要補充這些數據。
2.英文的姓名之間規定要有空格,而某些姓名沒有空格,比如"JohnSmith",就需要修正這類錯誤。
3.有些數據表的金額單位是元,有些數據表的金額單位是萬元,數據集成時就需要統一單位。
4.兩條用戶記錄完全重復,需要進行去重處理。
10.什么是ETL?
ETL是Extraction、Transformation、Loading三個單詞的首字母縮寫,指的是數據抽取、轉換、加載的過程。
數據抽取是從不同的數據源中獲取我們需要的數據的過程,和數據集成的概念類似,這個過程往往會做一些數據清洗和數據轉換。數據轉換的任務主要是進行數據格式的轉換和一些業務規則的計算。數據加載通常是指在數據清洗和數據轉換完成后,寫入到目標數據庫中去。
11.什么是數據分析?
數據分析是基于商業需要,有目的的對數據進行收集、整理、加工、分析,最終提煉有價值的信息的過程。
數據分析的四個步驟:
需求分析、明確目標;
數據收集、加工處理;
數據挖掘、數據展現;
分析報告、提煉價值。
12.什么是數據埋點?
所謂數據埋點就是從應用的特定流程中收集一些信息,跟蹤用戶使用的狀況,用來提供運營的數據支撐,進一步優化產品。
常見的信息包括獨立訪客數(UV)、頁面瀏覽量(PV)、頁面停留時長、頁面跳出率、交互元素的點擊事件等。
數據埋點通常有兩種方式:
第一種是研發團隊在產品中注入代碼,并搭建響應的查詢平臺;
第二種是借助第三方數據埋點工具,如神策數據、百度統計等。
13.什么是數據倉庫?
數據倉庫 (Data Warehouse) 簡稱DW,存儲大量數據的集成中心。數據倉庫的目的是構建面向分析的集成化數據環境,為企業提供決策支持(Decision-Support)。它為企業提供一定的BI(商業智能)能力,指導業務流程改進、監視時間、成本、質量以及控制。
數據倉庫的輸入方是各種各樣的數據源,最終的輸出用于企業的數據分析、數據挖掘、數據報表等方向。
14.什么是數據集市?
數據倉庫是面向整個企業的,而數據集市是面向部門的,因此規模更小,由業務部門設計、開發、管理、維護,可以理解為是數據庫的子集。
數據集市就像宜家樓上的家居展廳,正如其名字"集市"一樣,是一個面向最終顧客的數據市場。在這里,數據(家具)以一種更加容易被顧客接受的方式組合在一起。顧客的需求是分場景的,比如客廳、書房、臥室、廚房等,因此我們需要創建多個數據集市(展廳)。
15.什么是數據湖?
數據湖至今仍然沒有一個特別標準的概念,比較統一的是數據湖存儲的是未經加工的原始數據,包含結構化和非結構化的各類數據。數據湖就是一個存儲了企業所有原始數據的存儲,對于這些原始數據的管理則更加復雜。
以宜家家居為例,數據湖的原始數據就相當于拆散的零部件,顧客可以根據實際需要挑選零部件后自行組裝。
16.什么是數據挖掘?
數據挖掘就是從大量的實際應用數據中,提取隱藏在其中的有價值的信息的過程。
一般而言,數據挖掘分為兩類:一類是監督學習,另一類是無監督學習。監督學習是對目標需求的概念進行學習,通過建立模型來實現從觀察變量到目標需求的有效解釋。無監督學習沒有明確的標識變量來表達目標需求,主要任務是探索數據之間的內在聯系和結構。
數據挖掘融合了多學科領域的知識,常用的算法有分類、聚類分析、關聯分析、趨勢與演化分析、特征分析、異常分析等。
17.什么是數據可視化?
數據可視化就是借助圖形化的手段,清晰有效地傳達與溝通信息。
利用人類對形狀、顏色的敏感,有效地傳遞信息,幫助用戶從數據中發現關系、規律和趨勢。常用的數據可視化圖表有柱狀圖、條形圖、餅圖、雷達圖、折線圖、堆積圖、散點圖等。
18.什么是商業智能?
商業智能(BI,Business Intelligence)是對商業信息的搜集、管理和分析過程,目的是使企業決策者獲得洞察力,做出對企業更有利的決策。
從技術層面上講,商業智能不是什么新技術,它只是數據倉庫、聯機分析處理、數據挖掘、數據備份和恢復等技術的綜合應用。
19.結語
遠齊科技基于成熟的軟件架構、互聯網、物聯網、大數據、人工智能等技術構建面向未來的集成開發平臺系統。在自有集成開發平臺基礎上,基于最佳業務實踐開發出豐富的軟件功能模塊、業務系統,為企業提供高效的定制化開發服務。






