亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務,提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

一、什么是數(shù)據(jù)中臺

數(shù)據(jù)中臺是一種將企業(yè)沉睡的數(shù)據(jù)變成數(shù)據(jù)資產(chǎn),持續(xù)使用數(shù)據(jù)、產(chǎn)生智能、為業(yè)務服務,從而實現(xiàn)數(shù)據(jù)價值變現(xiàn)的系統(tǒng)和機制。通過數(shù)據(jù)中臺提供的方法和運行機制,形成匯聚整合、提純加工、建模處理、算法學習,并以共享服務的方式將數(shù)據(jù)提供給業(yè)務使用,從而與業(yè)務聯(lián)動。再者,結合業(yè)務中臺的數(shù)據(jù)生產(chǎn)能力,最終構建數(shù)據(jù)生產(chǎn)一消費一再生的閉環(huán)。

數(shù)據(jù)中臺與大數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)湖、 商業(yè)智能BI有什么區(qū)別,請參考另外一篇文章:
https://www.toutiao.com/article/7166179034006209061/。

二、數(shù)據(jù)中臺功能架構

數(shù)據(jù)中臺建設是一個宏大的工程,涉及整體規(guī)劃、組織搭建、中臺落地與運營等方方面面的工作,本文重點從物理形態(tài)上講述企業(yè)的數(shù)據(jù)中臺應該如何搭建。一般來講,企業(yè)的數(shù)據(jù)中臺在物理形態(tài)上分為三個大層:工具平臺層、數(shù)據(jù)資產(chǎn)層和數(shù)據(jù)應用層。

 

2.1.工具平臺層

工具平臺層是數(shù)據(jù)中臺的載體,包含大數(shù)據(jù)處理的基礎能力技術,如集數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)安全等于一個的大數(shù)據(jù)平臺;還包含建設數(shù)據(jù)中臺的一系列工具,如離線或實時數(shù)據(jù)研發(fā)工具、數(shù)據(jù)聯(lián)通工具、標簽計算工具、算法平臺工具、數(shù)據(jù)服務工具及自助分析工具。以上工具集基本覆蓋了數(shù)據(jù)中臺的數(shù)據(jù)加工過程。

(1)數(shù)據(jù)開發(fā)平臺

大數(shù)據(jù)的4V(Volume 數(shù)據(jù)量大、 Variety類型繁多、Velocity 速度快效率高、 Value價值密度低)特征決定了大數(shù)據(jù)處理是一個復雜的工程。建設數(shù)據(jù)中臺需要搭建數(shù)據(jù)中臺的基建工具,要滿足各種結構化、非結構化數(shù)據(jù)的采集、存儲與處理,要根據(jù)場景處理離線和實時數(shù)據(jù)的計算與存儲,要將一個個數(shù)據(jù)處理任務串聯(lián)起來以保障數(shù)據(jù)的運轉能賦能到業(yè)務端。

(2)數(shù)據(jù)資產(chǎn)管理

數(shù)據(jù)中臺建設的成功與否,與數(shù)據(jù)資產(chǎn)是否管理有序有直接關系。數(shù)據(jù)中臺是需要持續(xù)運營的,隨著時間的推移,數(shù)據(jù)不斷涌人數(shù)據(jù)中臺,如果沒有一套井然有序的數(shù)據(jù)資產(chǎn)平臺來進行管理,后果將不堪設想。

數(shù)據(jù)資產(chǎn)管理工具既能幫助企業(yè)合理評估、規(guī)范和治理信息資產(chǎn),又可以發(fā)揮數(shù)據(jù)資產(chǎn)價值并促進數(shù)據(jù)資產(chǎn)持續(xù)增值。對于數(shù)據(jù)資產(chǎn)管理,不推薦事后管理,而要與數(shù)據(jù)研發(fā)的過程聯(lián)動。也就是說,當數(shù)據(jù)經(jīng)過數(shù)據(jù)開發(fā)平臺加工的鏈路時,數(shù)據(jù)資產(chǎn)管理平臺就已經(jīng)無聲無息地介入了。數(shù)據(jù)資產(chǎn)管理的首要任務是管理好進入數(shù)據(jù)中臺的元數(shù)據(jù),這里的元數(shù)據(jù)包括數(shù)據(jù)源、構建的各種模型、通過模型拆解出來的指標與標簽。有序管理這些數(shù)據(jù)資產(chǎn)的元數(shù)據(jù)是前提條件,只有做好了這一步,才能繼續(xù)對數(shù)據(jù)流向的追溯,對指標、標簽體系的生命可期進行管理。

(3)標簽工廠

標簽工廠又稱標簽平臺,標簽建設是數(shù)據(jù)中臺走向數(shù)據(jù)業(yè)務化的關鍵步驟,嚴格來說標簽工廠也屬于數(shù)據(jù)開發(fā)平臺的一部分。一個強大的標簽工廠是數(shù)據(jù)中臺價值體現(xiàn)的有力保障,標簽的使用場景豐富,標簽與業(yè)務結合得非常緊密。標簽工廠致力于屏蔽底層復雜的大數(shù)據(jù)框架,面向普通開發(fā)人員、數(shù)據(jù)分析師、運營人員提供友好的界面交互配置,完成標簽的全生命周期管理;同時,對上層業(yè)務系統(tǒng)提供自身 API 能力,與各業(yè)務系統(tǒng)形成數(shù)據(jù)閉環(huán)。

標簽工廠按功能一般分為兩部分:底層的標簽計算引擎與上層的標簽配置與管理門戶。標簽計算引擎一般會使用 MapReduce 、 Spark 、 Flink 等大數(shù)據(jù)計算框架,而計算后的標簽存儲可采用 Elasticsearch 或者 HBase ,這樣存儲的好處是便于快速檢索。而標簽配置與管理門戶則支持通過配置標簽規(guī)則提交到標簽計算引擎,就能定時算出所需要的標簽。標簽配置和官理戶還提供標準的標簽服務申請與調用。通過標簽工廠,數(shù)據(jù)中口團隊可減少大量的數(shù)據(jù)開發(fā)工作。

(4) ID - MApping

ID - Mapping 又稱 ID 打通工具,是數(shù)據(jù)中臺建設的可選項,可選不代表不重要,在一些多渠道、多觸點的新零售企業(yè),離開這個工具,數(shù)據(jù)質量將大打折扣。ID - Mapping 功能的建設一般會利用強大的圖計算功能,通過兩兩之間的關系實現(xiàn)互通,目動高效地將關聯(lián)的身份映射為同一身份即唯一 ID 的數(shù)據(jù)工具。它能大幅度降低處理成本,提高效率,挖掘更多用戶信息,形成更完整的畫像,大大利于數(shù)字營銷的推進。另外, ID - Mapping 工具也可用于企業(yè)主數(shù)據(jù)治理。

5)機器學習平臺

在整個機器學習的工作流中,模型訓練的代碼開發(fā)只是其中一部分。除此之外,數(shù)據(jù)準備、數(shù)據(jù)清洗、數(shù)據(jù)標注、特征提取、超參數(shù)的選擇與優(yōu)化、訓練任務的監(jiān)控、模型的發(fā)布與集成、日志的回收等,都是流程中不可或缺的部分。機器學習平臺支持訓練數(shù)據(jù)的高質量采集與高效標注,內置預訓練模型,封裝機器學習算法,通過可視化拖曳實現(xiàn)模型訓練,支持從數(shù)據(jù)處理、模型訓練、模型部署為在線預測服務,通過 RESTful API 的形式與業(yè)務應用集成,實現(xiàn)預測,打通機器學習全鏈路,幫助企業(yè)更好地完成傳統(tǒng)機器學習和深度學習的落地。

(6)統(tǒng)一數(shù)據(jù)服務

統(tǒng)一數(shù)據(jù)服務旨在為企業(yè)搭建統(tǒng)一的數(shù)據(jù)服務門戶,幫助企業(yè)提升數(shù)據(jù)資產(chǎn)的價值,同時保證數(shù)據(jù)的可靠性、安全性和有效性。統(tǒng)一數(shù)據(jù)服務支持通過界面配置的方式構建 API 和數(shù)據(jù)服務接口,以滿足不同數(shù)據(jù)的使用場景,同時降低數(shù)據(jù)的開發(fā)門檻,幫助企業(yè)實現(xiàn)數(shù)據(jù)應用價值最大化。統(tǒng)一數(shù)據(jù)服務作為唯一的數(shù)據(jù)服務出口,實現(xiàn)了數(shù)據(jù)的統(tǒng)一市場化管理,在有效降低數(shù)據(jù)開放門檻的同時,保障了數(shù)據(jù)開放的安全。

2.2.數(shù)據(jù)資產(chǎn)層

數(shù)據(jù)資產(chǎn)層是數(shù)據(jù)中臺的核心層,它依托于工具平臺層,具體內容因企業(yè)的業(yè)務與行業(yè)而異,但總體來講,可以劃分為主題域模型區(qū)、標簽模型區(qū)和算法模型區(qū)

(1)主題域模型

主題域模型是指面向業(yè)務分析,將業(yè)務過程或維度進行抽象的集合。業(yè)務過程可以概括為一個個不可拆分的行為事件,如訂單、合同、營銷等。為了保障整個體系的生命力,主題域即數(shù)據(jù)域需要抽象提煉,并且長期維護和更新,但是不輕易變動。在劃分數(shù)據(jù)域時,既要涵蓋當前所有業(yè)務的需求,又要保證新業(yè)務能夠無影啊地被包含進來。

(2)標簽模型

標簽模型的設計與主題域模型方法大同小異,同樣需要給日業(yè)務過程進行設計,需要充分理解業(yè)務討程。標簽一般會涉及企業(yè)經(jīng)營過程中的實體對象,如會員、商品、門店、經(jīng)銷商等,這些主體一般來說都穿插在各個業(yè)務流程中,比如會員一般都穿插在注冊、登錄、瀏覽、下單、評價、服務等環(huán)節(jié)。那么在設計標簽系統(tǒng)的時候就而要充分理解這此業(yè)務流程,在流程中發(fā)現(xiàn)標簽的應用點,結合這些應用點來搭建企業(yè)的標簽系統(tǒng)。設計標簽模型時非常關鍵的要索是標簽模型一定要具有可擴展性。畢竟標簽這種數(shù)據(jù)資產(chǎn)是需要持續(xù)運營的,也是有生命周期的,在運營的過程中隨時可能增加新的標簽。

(3)算法模型

算法模型更加貼近業(yè)務場景。在設計算法模型的時候要反復推演算法模型使用的場景,包括模型的冷啟動等問題。整個模型搭建過程包含定場景、數(shù)據(jù)源準備、特征工程、模型設計、模型訓練、正式上線、參數(shù)調整7個環(huán)節(jié)。以新零售企業(yè)為例,常用的機器學習算法有決策樹、神經(jīng)網(wǎng)絡、關聯(lián)規(guī)、聚類、貝葉斯、支持問量機等。這些算法已經(jīng)非常成熟,可以用來實現(xiàn)商品個性化推薦、銷量預測、流失預測、商品組貨優(yōu)化等新零售場景的算法模型。

2.3.數(shù)據(jù)應用層

數(shù)據(jù)應用層嚴格來說不屬于數(shù)據(jù)中臺的范疇,但數(shù)據(jù)中臺的使命就是為業(yè)務賦能,幾乎所有企業(yè)在建設數(shù)據(jù)中臺的同時都已規(guī)劃好數(shù)據(jù)應用。數(shù)據(jù)應用可按數(shù)據(jù)使用場景來劃分為以下多個使用領域。

(1)分析與決策應用

分析與決策應用主要面向企業(yè)的領導、運營人員等角色,基于企業(yè)的業(yè)務背景和數(shù)據(jù)分析訴求,針對客戶拉新、老客運營、銷售能力評估等分析場景,通過主題域模型、標簽模型和算法模型,為企業(yè)提供可視化分析專題。用戶在分析與決策應用中快速獲取企業(yè)現(xiàn)狀和問題,同時可對數(shù)據(jù)進行鉆取、聯(lián)動分析等,深度分析企業(yè)問題及其原因,從而輔助企業(yè)進行管理和決策,實現(xiàn)精準管理和智能決策。

(2)標簽應用

標簽旨在挖掘實體對象(如客戶、商品等)的特征,將數(shù)據(jù)轉化成真正對業(yè)務有價值的產(chǎn)物并對外提供標簽數(shù)據(jù)服務,多應用于客戶圈選、精準營銷和個性化推薦等場景,從而實現(xiàn)資產(chǎn)變現(xiàn),不斷擴大資產(chǎn)價值。標簽體系的設計立足于標簽使用場景,不同使用場景對你簽需求是不同的,警如在客戶個性化推薦場景下,需要客戶性別、近期關注商品類型、消費能力和消費習慣等標簽。因此,在標簽體系設計前,需要先基于業(yè)務需求分析標簽的使用場景,再詳細設計標簽體系和規(guī)則。

(3)智能應用

智能應用是數(shù)智化的一個典型外在表現(xiàn)。比如在營銷領域,不僅可實現(xiàn)千人千面的用戶個性化推薦,如猜你喜歡、加購推薦等,還可借助智能營銷工具進行高精準度的用戶觸達。除了傳統(tǒng)統(tǒng)計分析、機器學習之外,還可以融入深度學習,自然語言處理等,滿足更多智能化應用場景。

三、數(shù)據(jù)中臺技術架構

隨著大數(shù)據(jù)與人工智能技術的不斷迭代以及商業(yè)大數(shù)據(jù)工具產(chǎn)品的推出,數(shù)據(jù)中臺的架構設計大可不必從零開始,可以采購一站式的研發(fā)平臺產(chǎn)品,或者基于一些開源產(chǎn)品進行組裝。企業(yè)可根據(jù)自身情況進行權衡考慮,但無論采用哪種方案,數(shù)據(jù)中臺的架構設計以滿足當前數(shù)據(jù)處理的全場景為基準。

以開源技術為例,數(shù)據(jù)中臺的技術架構如下圖所示,總體來看一般包含以下幾種功能:數(shù)據(jù)采集、數(shù)據(jù)計算、數(shù)據(jù)存儲和數(shù)據(jù)服務;在研發(fā)、運維和公共服務方面包括離線開發(fā)、實時開發(fā)、數(shù)據(jù)資產(chǎn)、任務調度、數(shù)據(jù)安全、集群管理。

 

3.1.數(shù)據(jù)采集層

按數(shù)據(jù)的實時性,數(shù)據(jù)采集分為離線采集和實時采集。離線采集使用 DataX 和 Sqoop ,實時米集使用 Kafka Connect 、 Flume 、 Kafka。 在離線數(shù)據(jù)采集中,建議使用 DataX 和Sqoop相結合。 DataX 適合用在數(shù)據(jù)量較小且采用非關系型數(shù)據(jù)庫的場景,部署方式很簡單。 Sqoop 適合用在數(shù)據(jù)量較大且采用關系型數(shù)據(jù)庫的場景。在實時數(shù)據(jù)采集中,對于數(shù)據(jù)庫的變更數(shù)據(jù),如 MySQL 的 binlog 、 Oracle 的OGG,使用 Kafka Connect 進行數(shù)據(jù)的實時采集。對于其他數(shù)據(jù),先將數(shù)據(jù)實時寫成文件,然后采用 Flume 對文件內容進行實時采集。將實時采集后的數(shù)據(jù)推送到 Kafka ,田 Flink 進行數(shù)據(jù)處理。

3.2.數(shù)據(jù)計算層

數(shù)據(jù)計算采用 YARN 作為各種計算框架部署的執(zhí)行調度引擎,計算框架有 MapReduce 、 Spark 及 Spark SQL 、 Flink 、 Spark MLlib 等。 MapReduce 是最早開源的大數(shù)據(jù)計算框架,雖然性能相當較差,但它的資源占用比較小,尤其是內存方面。因此在部分數(shù)據(jù)量過大,而其他計算框架由干硬件資源的限制(主要是內存限制)無法執(zhí)行的場景,可以將 MapReduce 作為首選框架。 SparK 及 Spark SQL 是在批處理方面擁有出色的性能技術方案,適合大部分的離線處理場景。Flink 是實時數(shù)據(jù)處理方面的首選,在處理的時效性、性能和易用性方面都有很大優(yōu)勢。

機器學習一般采用 Spark 家族的 Spark MLlib 為技術底座。 Spark MLlib 內置大量的常規(guī)算法包,如隨機森林、邏輯回歸、決策樹等,可以滿足大部分數(shù)據(jù)智能應用場景。同時,數(shù)據(jù)中臺不斷進化,也還新融人 AI 能力。如人臉識別、以圖搜圖、智能客服等能力的實現(xiàn)就需要 AI 平臺。目前較為成熟的 AI 平臺有 TensorFlow 及 PyTorch 。

3.3.數(shù)據(jù)存儲層

數(shù)據(jù)存儲層所有的存儲引擎都基于 Hadoop 的 HDFS 分布式存儲,從而達到數(shù)據(jù)多份冗余和充分利用物理層多磁盤的 I / O 性能。在 HDFS 上分別搭建 Hive 、 HBase 作為存儲數(shù)據(jù)庫,在這兩個數(shù)據(jù)庫的基礎上再搭建 Impala 、 Phoenix 、 Presto 引擎。

Hive 為大數(shù)據(jù)廣泛使用的離線數(shù)據(jù)存儲平臺,用于存儲數(shù)據(jù)中臺的全量數(shù)據(jù),在建模階段可以使用 Hive SQL 、 Spark SQL 進行數(shù)據(jù)處理和建模。 HBase 為主流的大數(shù)據(jù) NoSQL ,適合數(shù)據(jù)的快速實時讀寫。在實時數(shù)據(jù)處理時,可將數(shù)據(jù)實時保存到 HBase 中,并且可以從 HBase 中實時讀取數(shù)據(jù),從而滿足數(shù)據(jù)的時效性。 Impala 可以對 Hive 、 HBase 等大數(shù)據(jù)數(shù)據(jù)庫進行準實時的數(shù)據(jù)分析,能滿足對分析結果速度有一定要求的場景。

Phoenix 是構建在 HBase 上的一個 SQL 層,能讓我們用標準的 JDBC API 而不是 HBase 客戶端 API 來創(chuàng)建表、插人數(shù)據(jù)和對 HBase 數(shù)據(jù)進行查詢。 Presto 是一個開源的分布式 SQL 查詢引擎,適用于交互式分析查詢。 Presto 支持 Hive 、 HBase 、 MySQL 等多種關系型和大數(shù)據(jù)數(shù)據(jù)庫的查詢,并且文持 join 表。對于對接自助分析和統(tǒng)一數(shù)據(jù)服務的場景,可以通過 Presto 來統(tǒng)一訪問具體存儲的數(shù)據(jù)庫,從而達到語法統(tǒng)一和數(shù)據(jù)源統(tǒng)一。

3.4.數(shù)據(jù)服務層

數(shù)據(jù)服務層采用的技術與業(yè)務應用類似,主要基于開源 Spring Cloud 、 Spring Boot 等構建,使用統(tǒng)一的服務網(wǎng)關、低代碼平臺來構建。

分享到:
標簽:架構
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定