大數據時代必須了解18個概念：數據倉庫、商業智能、數據可視化…

01.什么是大數據？

數據是對客觀事實進行記錄的一種符號，可以是數字、文字，也可以是圖片、音頻、視頻。大數據是指無法在一定時間范圍內用常規軟件進行捕捉、管理和數據的數據集合。

大數據具有"5V"特點，即數據量大、數據多樣性、價值密度低、增長速度快、數據質量低。

大數據時代強調數據的全部，而不是局部的樣本數據。由于大數據的價值密度低，我們要接受這種模糊和不精確性。通過對數據的研究，發現以前不曾發現的聯系，而不是像小數據時代，先通過假設，然后再用數據來驗證。也就是說，在大數據時代，對相關性的重視程度要強于因果性。

02.什么是結構化和非結構化數據?

結構化數據是適合用二維表格展現的數據。每一行是一條記錄，每一列是不同的字段。

以電商網站為例，用戶信息就可以用結構化數據來存儲。每位用戶就是一條記錄，而每位用戶又有姓名、性別、地址、手機、郵箱等字段，這樣就形成了一個二維表格。

非結構化數據不適合用二維表格來展現，比如文檔、圖片、音頻、視頻等。非結構化數據的格式多樣，難以標準化和理解，因此在存儲、檢索、利用上都需要更加有效的方法和技術。

03.什么是數據庫？

數據庫從字面意思來看就是存儲數據的地方，但數據的存儲不是雜亂無章的，而是按照一定的規則來存儲的，具有可共享和便于管理的特點。數據庫被視為電子化的文件柜。用戶可以對數據庫中的數據進行增、刪、改、查等操作。

數據庫可分為關系型數據庫、非關系型數據庫、數據倉庫等類型。

04.什么是關系型數據庫？

關系型數據庫是指使用關系模型來組織數據的數據庫。關系模型可以簡單理解為二維表格模型，以行和列的形式存儲數據，因此適合存儲結構化數據。關系型數據庫就是由多個二維表格及其之間的關系組成的數據庫。

常見的關系型數據庫有MySQL、SQL Server、PostgreSQL、Oracle等。

以電商網站為例，除了用戶信息之外，還要記錄產品信息和訂單信息。為簡化起見，每個訂單只包含一種產品。產品包括名稱、價格、圖片、介紹等字段，訂單包括所屬用戶、相關產品、訂購數量、訂單價格、下單時間等字段。一個用戶擁有一個或多個訂單，而一個產品也會屬于一個或多個訂單，這樣就建立了用戶、訂單和產品之間的關系。

05.什么是非關系型數據庫？

相對關系型數據庫而言，非關系型數據庫拋棄了固定的二維表格結構，存儲機制靈活，比如鍵值對、文檔、圖形等格式都可以進行存儲。

常見的非關系型數據庫有redis、MongoDB、Cassandra等。

性能是非關系型數據庫最大的優勢。由于關系型數據庫中的關系模型會占用掉90%的硬件資源及計算時間，對于有大量不需要關系功能的數據處理，非關系型數據庫的性能是非常高的。

另一方面，正是由于缺少數據表之間的關系，非關系型數據庫很難在多個表之間做非常復雜的數據查詢。

06.什么是時序數據庫？

時序數據庫是一類特殊的非關系型數據庫，全稱是時間序列數據庫。經研究發現，機器設備、傳感器、系統日志等產生的數據有如下明顯的特征：

數據是時序的，即按照一定時間順序生成；

數據極少有更新或刪除操作；

數據產生頻率快、數據信息量大；

數據往往帶有位置信息。

傳統的關系型數據庫或非關系型數據庫對于這類數據，在性能提升上極為有限，只能依靠集群技術，投入更多的計算資源和存儲資源來處理，造成企業運營成本急劇上升。而時序數據庫可以有效地處理龐大的數據，通過創新的列式存儲和先進的壓縮算法，使用的計算資源不到傳統方案的1/5，存儲空間不到通用數據庫的1/10。

常見的時序數據庫有InfluxDB等。

07.什么是分布式存儲？

分布式存儲是相對于集中式存儲而言的。分布式存儲是由標準服務器（硬件）和分布式文件系統（軟件）組成的，可擴展至千臺硬件節點，支持塊存儲、對象存儲、文件存儲等多種類型統一管理。

常見的分布式文件系統有HDFS、Ceph、GFS、GPFS、Swift等。

舉個通俗易懂的例子，如果把存儲比喻成車廂，數據比喻成貨物。集中式存儲方案下，如果要想拉更多的貨物，只能更換更大的車廂。而分布式存儲方案，直接增加車廂就可以了。有了分布式存儲技術，存儲EB級別（1EB=1024PB=1024*1024TB=1024*1024*1024GB）的海量數據庫都不成問題。

08.什么是數據集成？

由于開發部門或開發時間的不同，企業中往往有多個異構的、運行在不同的軟硬件平臺上的數據庫，這些數據庫彼此獨立、相互封閉，使得數據難以在系統之間交流和共享，從而形成了"信息孤島"。隨著信息化應用的不斷深入，企業內部之間、企業與外部的信息交互的需求日益強烈，急切需要對已有的數據進行整合，打通"信息孤島"，這就是數據集成的意義。

數據集成是把不同來源、不同種類、不同格式的數據在物理上或邏輯上進行集中，為企業提供全面的數據共享。數據集成主要解決的問題是各個數據源的異構性，包括數據庫的異構性、通信協議的異構性、數據類型的異構性、數據取值的異構性等。

09.什么是數據清洗？

數據清洗是一種清除錯誤數據、去掉重復數據的技術。數據經過清洗之后，可以還保存到原來的數據庫中，也可以和數據集成聯系在一起，最終保存到集成后的數據庫里。

舉幾個數據清洗的實例：

1.在用戶信息表中，規定有姓名、性別、地址、手機、郵箱五個字段是必填的。而某些用戶缺少某些字段的值，因此需要補充這些數據。

2.英文的姓名之間規定要有空格，而某些姓名沒有空格，比如"JohnSmith"，就需要修正這類錯誤。

3.有些數據表的金額單位是元，有些數據表的金額單位是萬元，數據集成時就需要統一單位。

4.兩條用戶記錄完全重復，需要進行去重處理。

10.什么是ETL？

ETL是Extraction、Transformation、Loading三個單詞的首字母縮寫，指的是數據抽取、轉換、加載的過程。

數據抽取是從不同的數據源中獲取我們需要的數據的過程，和數據集成的概念類似，這個過程往往會做一些數據清洗和數據轉換。數據轉換的任務主要是進行數據格式的轉換和一些業務規則的計算。數據加載通常是指在數據清洗和數據轉換完成后，寫入到目標數據庫中去。

11.什么是數據分析？

數據分析是基于商業需要，有目的的對數據進行收集、整理、加工、分析，最終提煉有價值的信息的過程。

數據分析的四個步驟：

需求分析、明確目標；

數據收集、加工處理；

數據挖掘、數據展現；

分析報告、提煉價值。

12.什么是數據埋點？

所謂數據埋點就是從應用的特定流程中收集一些信息，跟蹤用戶使用的狀況，用來提供運營的數據支撐，進一步優化產品。

常見的信息包括獨立訪客數（UV）、頁面瀏覽量（PV）、頁面停留時長、頁面跳出率、交互元素的點擊事件等。

數據埋點通常有兩種方式：

第一種是研發團隊在產品中注入代碼，并搭建響應的查詢平臺；

第二種是借助第三方數據埋點工具，如神策數據、百度統計等。

13.什么是數據倉庫？

數據倉庫 (Data Warehouse) 簡稱DW，存儲大量數據的集成中心。數據倉庫的目的是構建面向分析的集成化數據環境，為企業提供決策支持（Decision-Support）。它為企業提供一定的BI（商業智能）能力，指導業務流程改進、監視時間、成本、質量以及控制。

數據倉庫的輸入方是各種各樣的數據源，最終的輸出用于企業的數據分析、數據挖掘、數據報表等方向。

14.什么是數據集市？

數據倉庫是面向整個企業的，而數據集市是面向部門的，因此規模更小，由業務部門設計、開發、管理、維護，可以理解為是數據庫的子集。

數據集市就像宜家樓上的家居展廳，正如其名字"集市"一樣，是一個面向最終顧客的數據市場。在這里，數據（家具）以一種更加容易被顧客接受的方式組合在一起。顧客的需求是分場景的，比如客廳、書房、臥室、廚房等，因此我們需要創建多個數據集市（展廳）。

15.什么是數據湖？

數據湖至今仍然沒有一個特別標準的概念，比較統一的是數據湖存儲的是未經加工的原始數據，包含結構化和非結構化的各類數據。數據湖就是一個存儲了企業所有原始數據的存儲，對于這些原始數據的管理則更加復雜。

以宜家家居為例，數據湖的原始數據就相當于拆散的零部件，顧客可以根據實際需要挑選零部件后自行組裝。

16.什么是數據挖掘？

數據挖掘就是從大量的實際應用數據中，提取隱藏在其中的有價值的信息的過程。

一般而言，數據挖掘分為兩類：一類是監督學習，另一類是無監督學習。監督學習是對目標需求的概念進行學習，通過建立模型來實現從觀察變量到目標需求的有效解釋。無監督學習沒有明確的標識變量來表達目標需求，主要任務是探索數據之間的內在聯系和結構。

數據挖掘融合了多學科領域的知識，常用的算法有分類、聚類分析、關聯分析、趨勢與演化分析、特征分析、異常分析等。

17.什么是數據可視化？

數據可視化就是借助圖形化的手段，清晰有效地傳達與溝通信息。

利用人類對形狀、顏色的敏感，有效地傳遞信息，幫助用戶從數據中發現關系、規律和趨勢。常用的數據可視化圖表有柱狀圖、條形圖、餅圖、雷達圖、折線圖、堆積圖、散點圖等。

18.什么是商業智能？

商業智能（BI，Business Intelligence）是對商業信息的搜集、管理和分析過程，目的是使企業決策者獲得洞察力，做出對企業更有利的決策。

從技術層面上講，商業智能不是什么新技術，它只是數據倉庫、聯機分析處理、數據挖掘、數據備份和恢復等技術的綜合應用。

19.結語

遠齊科技基于成熟的軟件架構、互聯網、物聯網、大數據、人工智能等技術構建面向未來的集成開發平臺系統。在自有集成開發平臺基礎上，基于最佳業務實踐開發出豐富的軟件功能模塊、業務系統，為企業提供高效的定制化開發服務。

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区