如果你準(zhǔn)備要開展推動數(shù)據(jù)治理或者是數(shù)據(jù)質(zhì)量的項目,那么你就有可能會聽說到幾個詞:主數(shù)據(jù)和參考數(shù)據(jù)。一開始聽到主數(shù)據(jù)這一詞聽起來就很高大上,而且非專業(yè)人士肯定不理解(即便是從事數(shù)據(jù)行業(yè)的朋友也很難參透)。這一小節(jié)將會解答如下疑惑:
1、什么是主數(shù)據(jù)?
2、主數(shù)據(jù)是干嘛用的?
3、什么又是參考數(shù)據(jù)?
4、參考數(shù)據(jù)又是干嘛用的?
5、主數(shù)據(jù)和參考數(shù)據(jù)又有什么關(guān)系?
主數(shù)據(jù)定義
從百度百科上的定義來看主數(shù)據(jù)指的是系統(tǒng)間共享數(shù)據(jù),又稱基準(zhǔn)數(shù)據(jù),描述了組織業(yè)務(wù)中涉及到的人員、地點、事物(也就是我們常說的人貨場),比如說像企業(yè)中的客戶、員工、供應(yīng)商相關(guān)數(shù)據(jù)、地點數(shù)據(jù)(位置、銷售區(qū)域)、事物(賬戶、產(chǎn)品、資產(chǎn))等都是主數(shù)據(jù),因為這些數(shù)據(jù)往往會被多個業(yè)務(wù)流程和 IT 系統(tǒng)使用,而且主數(shù)據(jù)可以用來分析和推動業(yè)務(wù)流程以此來提高運營效率。
這么一講感覺什么都懂了,但又感覺什么都沒懂。
那我們從字面意思上可以理解成主要的數(shù)據(jù),什么是主要的數(shù)據(jù)呢?在整個企業(yè)業(yè)務(wù)流程中起到關(guān)鍵作用,而且是比較常用的數(shù)據(jù),在核心業(yè)務(wù)流程上產(chǎn)生的數(shù)據(jù)都是主數(shù)據(jù),這么一解釋可以發(fā)現(xiàn)主數(shù)據(jù)是可以檢測企業(yè)發(fā)展是否健康的一種方式,但這么理解是有些偏差的。稍微嚴(yán)謹(jǐn)一點的定義就是主數(shù)據(jù)是整個企業(yè)中使用的核心、非交易性數(shù)據(jù)。請注意:這里指的是非交易性數(shù)據(jù)。舉個例子,比如你在ERP系統(tǒng)中能夠看到一些交易數(shù)據(jù),比如訂單產(chǎn)生的日期和編號、地點、金額、商品、用戶、供貨商、店鋪之類的信息。那么這些信息中的產(chǎn)品、供貨商、用戶、地點這些都是主數(shù)據(jù),也就是說參與到核心流程中的主體數(shù)據(jù)都是主數(shù)據(jù),這些實體為業(yè)務(wù)交易和分析提供了上下文信息,到這里不知道你有沒有稍微理解了主數(shù)據(jù)的概念呢?
當(dāng)然通過該例子,有些讀者可能會有疑惑,那訂單交易記錄又算什么呢?這里其實又?jǐn)U展出來了另外一種數(shù)據(jù)類型:交易數(shù)據(jù),也就是這些實體數(shù)據(jù)結(jié)合在一起產(chǎn)生了事件活動記錄,那么這個記錄就屬于交易數(shù)據(jù)。例如通話記錄、銷售記錄等等事件。這樣看起來好像主數(shù)據(jù)是嵌入到了交易數(shù)據(jù)中了,但是主數(shù)據(jù)相對交易數(shù)據(jù)來說的話,屬性是相對穩(wěn)定的,而且可信度要求高,需要做到唯一識別
既然扯到了交易數(shù)據(jù),那么這里再和另外一個名詞做下對比:元數(shù)據(jù),關(guān)于元數(shù)據(jù)的定義概念可以看萬字介紹25種元數(shù)據(jù)管理解決方案(含視頻,建議收藏)。在通信院發(fā)布的《主數(shù)據(jù)管理實踐白皮書》中提到的了元數(shù)據(jù)和主數(shù)據(jù)的區(qū)別,小編覺得很形象,該書中提到了“元數(shù)據(jù)類似于表格的表頭信息,是一個相對的概念;而主數(shù)據(jù)是從元數(shù)據(jù)中挑選出來的,代表的是企業(yè)業(yè)務(wù)運行的關(guān)鍵、通用性數(shù)據(jù),是一個相對主觀的概念,主數(shù)據(jù)不僅僅只是表頭信息,而且還包括了實例數(shù)據(jù)”
那這里又扯到了元數(shù)據(jù),大家可能又會和數(shù)據(jù)倉庫關(guān)聯(lián)起來,主數(shù)據(jù)其實和數(shù)據(jù)倉庫是有些相似點的,但也不能把主數(shù)據(jù)完全等同于數(shù)據(jù)倉庫。首先主數(shù)據(jù)和數(shù)據(jù)倉庫都有一個共同點就是集成,因為主數(shù)據(jù)是跨業(yè)務(wù)、跨系統(tǒng)、跨部門的共享數(shù)據(jù),那么就需要把各個業(yè)務(wù)系統(tǒng)共享的數(shù)據(jù)進行集中式管理,這樣一來就減少了數(shù)據(jù)冗余,不一致的問題;那數(shù)據(jù)倉庫也是針對數(shù)據(jù)進行了集成,把所有的數(shù)據(jù)都放到一個“倉庫”中,供企業(yè)中所有人進行查閱(當(dāng)然還是要考慮數(shù)據(jù)安全的)。這么一梳理,其實就應(yīng)該發(fā)現(xiàn)兩者之間的不同了,數(shù)據(jù)倉庫是面向所有數(shù)據(jù),也就是來者不拒,統(tǒng)統(tǒng)都收;但主數(shù)據(jù)并不是所有的數(shù)據(jù)都集成,而是那些核心的、有高度價值密度的數(shù)據(jù)才會進行集中管理。
這里還有一個數(shù)據(jù)流向和時效的區(qū)別點:對于數(shù)據(jù)倉庫一般是單向的,也就是數(shù)據(jù)從業(yè)務(wù)系統(tǒng)入倉之后經(jīng)過ETL處理后出倉用于決策分析;而主數(shù)據(jù)來源于業(yè)務(wù)系統(tǒng),同時也會流回業(yè)務(wù)系統(tǒng),屬于雙向的流轉(zhuǎn);而且數(shù)倉中的數(shù)據(jù)發(fā)生了變化,一般是T+1后才會感知到。而主數(shù)據(jù)的變化需要實時的作用于業(yè)務(wù)系統(tǒng),比如客戶的地址或者聯(lián)系方式發(fā)生了變化,那么就必須立即同步到業(yè)務(wù)系統(tǒng),否則可能會使用歷史數(shù)據(jù),影響業(yè)務(wù)服務(wù)體驗。
主數(shù)據(jù)作用與特點
從開頭的定義就可以了解其第一個特點:共享;主數(shù)據(jù)是跨系統(tǒng)、跨部門共享的數(shù)據(jù)。那么既然是共享的數(shù)據(jù),那么就可以解決系統(tǒng)之間數(shù)據(jù)不一致的問題,比如說一個用戶可能在多個系統(tǒng)之間有不同的地方信息(比如搬家了),如果各個系統(tǒng)使用各自的地址信息,最后肯定是會出問題的。如果各個系統(tǒng)統(tǒng)一使用最新的地址,就不需要考慮該問題了,這樣在協(xié)作流程上也有所提升(其實這里需要涉及到主數(shù)據(jù)管理MDM的范疇來保證主數(shù)據(jù)的標(biāo)準(zhǔn)統(tǒng)一規(guī)范)。同時由于數(shù)據(jù)是共享的,對于企業(yè)來說價值是很高的了,既然是價值高的數(shù)據(jù),命名為主數(shù)據(jù)也不為過。
從上面一句話我們可以精簡一下得到兩個詞:共享、價值;既然這類數(shù)據(jù)是被共享的,而且是價值比較高的,那么就要保證數(shù)據(jù)質(zhì)量,而且不能經(jīng)常改變了(哎呦,這跟緩慢變化維有點相似),如果各個系統(tǒng)共享該部分?jǐn)?shù)據(jù),質(zhì)量不能保障的話,整個企業(yè)發(fā)展就很危險了,而且變化很頻繁的話,就加大各個系統(tǒng)的維護成本,而且風(fēng)險性也會提高,可謂是牽一發(fā)動全身呀。
參考數(shù)據(jù)定義
DAMA數(shù)據(jù)管理知識體系指南一書中對參考數(shù)據(jù)的定義是指“可用于描述或分類其他數(shù)據(jù),或者將數(shù)據(jù)與組織外部的信息 聯(lián)系起來的任何數(shù)據(jù)”。這個定義可以說是比較抽象,簡單來說就是維度數(shù)據(jù),大家平時理解的數(shù)據(jù)字典,該類型的數(shù)據(jù)的主要作用是用來增強對數(shù)據(jù)的可讀性和解釋性,比如狀態(tài)編碼、性別、產(chǎn)品維表、地理信息等維度數(shù)據(jù)。由此可見,參數(shù)數(shù)據(jù)的來源可能是內(nèi)部產(chǎn)生或者外部手動采集獲取到的(比如國際標(biāo)準(zhǔn)編碼、行業(yè)標(biāo)準(zhǔn))
特點
參考數(shù)據(jù)的特點同維度表的特點,有慢維,也有快維。
參考數(shù)據(jù)和主數(shù)據(jù)的區(qū)別
主數(shù)據(jù)和參考數(shù)據(jù)一般來說就是兩種不同類型的數(shù)據(jù)。
1、從定義上來看主數(shù)據(jù)是代表業(yè)務(wù)對象的數(shù)據(jù),由關(guān)鍵業(yè)務(wù)實體組成,它包含了整個組織共享的最有價值的信息;而參考數(shù)據(jù)是定義其他數(shù)據(jù)字段使用的一組允許的值的數(shù)據(jù),包含了附加的文本描述,更多的像是數(shù)據(jù)字典;
2、從范圍上來看參考數(shù)據(jù)是主數(shù)據(jù)的一種特殊子集。
下面的表格匯總了主數(shù)據(jù)和參考數(shù)據(jù)的區(qū)別:
參考資料:
- 中國通信院發(fā)布的《主數(shù)據(jù)管理實踐白皮書1.0》
- DAMA數(shù)據(jù)管理知識體系指南






