企業(yè)在大數(shù)據(jù)基建過程中,會遇到太多問題。
資產(chǎn)治理、數(shù)據(jù)服務(wù)、技術(shù)選型、安全合規(guī)、穩(wěn)定可用…解決完一個,又冒出另一個。
與此同時,企業(yè)對數(shù)據(jù)基建的要求也越來越高,既要快速敏捷地響應(yīng)業(yè)務(wù)需求,又要盡可能控制存算成本、提高利用率。
能否體系化地應(yīng)對這些難題,進(jìn)一步,能否在挑戰(zhàn)來臨前,就預(yù)先做好準(zhǔn)備?
從奇點(diǎn)云過去600+客戶的數(shù)據(jù)云建設(shè)實(shí)踐中,我們發(fā)現(xiàn),數(shù)據(jù)基建的挑戰(zhàn)并非“隨機(jī)刷怪”,而是有章可循。其中,以下7大場景最為常見,也最為典型:
傳統(tǒng)數(shù)倉升級;數(shù)據(jù)技術(shù)棧優(yōu)化;數(shù)據(jù)中臺建設(shè);數(shù)據(jù)資產(chǎn)治理;集團(tuán)數(shù)據(jù)云服務(wù);自主可控替代;數(shù)據(jù)安全合規(guī)。
我們將上述7大場景的常見痛點(diǎn)、關(guān)鍵問題及落地實(shí)踐必須關(guān)注的要點(diǎn),寫入了《數(shù)據(jù)云場景指南》,伴您在數(shù)據(jù)基建進(jìn)階路上“升級打怪”。
我們推薦這樣使用《數(shù)據(jù)云場景指南》:
從企業(yè)當(dāng)下遇到的痛點(diǎn)或關(guān)注的問題出發(fā),在索引頁找到目前所處的階段,進(jìn)而針對性了解該場景應(yīng)當(dāng)關(guān)注的要點(diǎn)與解法。
需要注意的是,挑戰(zhàn)不會一成不變。企業(yè)的數(shù)據(jù)基建既不能“一蹴而就”,也無法“一勞永逸”。
因此,這本“攻略”不僅介紹了多個問題的解法,也提供體系化的思路,以便為下個階段做好準(zhǔn)備,滿足進(jìn)階的數(shù)據(jù)應(yīng)用與未來的業(yè)務(wù)規(guī)劃需要。
篇幅有限,本文僅擇取每個場景的片段一覽,下載指南即可查閱詳情。
場景一:傳統(tǒng)數(shù)倉升級
以Teradata、Oracle等廠商為代表的傳統(tǒng)MPP(大規(guī)模并行處理,Massively Parallel Processing)數(shù)據(jù)倉庫,曾在眾多大中型企業(yè)的數(shù)字化轉(zhuǎn)型中發(fā)揮重要作用。而伴隨用數(shù)規(guī)模擴(kuò)大、需求加深,企業(yè)對分析時效要求越來越高,數(shù)據(jù)量越來越龐大,傳統(tǒng)數(shù)倉在成本、靈活性、開放性均顯露出諸多不足。
在該場景,企業(yè)需分離OLTP(On-Line Transaction Processing, 聯(lián) 機(jī) 事 務(wù) 處 理)和OLAP(On-Line Analytical Processing,聯(lián)機(jī)分析處理),并由以Hadoop為代表的分布式大數(shù)據(jù)平臺來面向OLAP場景。
相較MPP數(shù)倉,分布式大數(shù)據(jù)平臺具備吞吐量大、擴(kuò)展性和容錯性好、硬件成本相對低、可靈活處理多種類型數(shù)據(jù)等優(yōu)勢。
場景二:數(shù)據(jù)技術(shù)棧優(yōu)化
伴隨業(yè)務(wù)發(fā)展,數(shù)據(jù)分析需求日益復(fù)雜,數(shù)據(jù)平臺團(tuán)隊(duì)開始面臨多云部署、多引擎調(diào)度等更復(fù)雜的底層技術(shù)難題。
以多引擎問題為例,目前沒有一個OLAP數(shù)據(jù)庫引擎能完美適配所有場景(測評詳見《OLAP數(shù)據(jù)庫引擎選型白皮書》),企業(yè)需要綜合業(yè)務(wù)需求、性能、維護(hù)成本等多種維度進(jìn)行選型。隨之而來的,就是多引擎混合調(diào)度問題——在技術(shù)架構(gòu)上,不推薦采用煙囪式建設(shè),而應(yīng)當(dāng)同時確保引擎協(xié)調(diào)性(包括引擎間的任務(wù)調(diào)度和執(zhí)行、數(shù)據(jù)傳輸和協(xié)作等)、數(shù)據(jù)一致性,以及資源利用最大化。
以下數(shù)據(jù)場景,往往對多引擎混合調(diào)度有高要求:
· 多樣化數(shù)據(jù)源及復(fù)雜數(shù)據(jù)處理:以制造業(yè)的實(shí)時生產(chǎn)監(jiān)控為例,該場景數(shù)據(jù)量龐大,其中包括大量的機(jī)械設(shè)備傳感器數(shù)據(jù),因此底層需要離線、實(shí)時及時序計(jì)算引擎做支撐,針對性處理多樣化數(shù)據(jù)源和不同的計(jì)算操作。
· 流批一體:依托多引擎混合調(diào)度能力,充分利用流處理引擎、批處理引擎的優(yōu)勢,調(diào)度適當(dāng)?shù)囊鎭韴?zhí)行任務(wù),同時確保底層執(zhí)行邏輯一致性、數(shù)據(jù)一致性,解決延遲、順序、資源協(xié)調(diào)等挑戰(zhàn)。
場景三:數(shù)據(jù)中臺建設(shè)
數(shù)據(jù)中臺建設(shè)或是大數(shù)據(jù)從業(yè)者們最為熟悉的場景。在這個階段,企業(yè)往往已完成業(yè)務(wù)IT化,在許多系統(tǒng)內(nèi)沉淀了大量數(shù)據(jù),但各成“數(shù)據(jù)孤島”,導(dǎo)致數(shù)據(jù)用不起來。
數(shù)據(jù)中臺的核心任務(wù)就是打造互聯(lián)互通的大數(shù)據(jù)平臺,以O(shè)ne-ID為核心,通過數(shù)據(jù)匯集、清洗、指標(biāo)體系搭建等,沉淀數(shù)據(jù)資產(chǎn)。在統(tǒng)一的平臺基礎(chǔ)上,以需求驅(qū)動,培養(yǎng)數(shù)據(jù)應(yīng)用能力,讓數(shù)據(jù)逐步成為企業(yè)決策的核心支持。
該場景下,底層平臺還必須關(guān)注穩(wěn)定性,以規(guī)避因不可用、不可靠等問題造成的業(yè)務(wù)損失,確保數(shù)據(jù)價值持續(xù)產(chǎn)出。
場景四:數(shù)據(jù)資產(chǎn)治理
數(shù)據(jù)資產(chǎn)治理是每個企業(yè)想用好數(shù)據(jù)都繞不開的環(huán)節(jié)。我們需要進(jìn)一步明確的是:
其一,如果沒有體系化地進(jìn)行數(shù)據(jù)治理,缺少科學(xué)方法和架構(gòu)支持,大數(shù)據(jù)平臺就無法持續(xù)高效地支撐業(yè)務(wù)需要,出現(xiàn)不得不為單一場景定制、計(jì)算周期長等各種問題;
其二,即便經(jīng)過初階的治理,如果沒有形成合理的數(shù)據(jù)架構(gòu)和運(yùn)維體系,隨著業(yè)務(wù)迭代,數(shù)據(jù)資產(chǎn)管理仍會再次陷入混亂,導(dǎo)致資產(chǎn)無法有效復(fù)用。
在該場景,指南不僅介紹了數(shù)據(jù)治理方法論,也詳解了指標(biāo)、標(biāo)簽、算法模型、數(shù)據(jù)服務(wù)等資產(chǎn)的體系化建設(shè)與管理實(shí)踐,在建立規(guī)范的治理流程和標(biāo)準(zhǔn)的資產(chǎn)體系前提下,進(jìn)一步為上層使用數(shù)據(jù)資產(chǎn)提供便利。
場景五:集團(tuán)數(shù)據(jù)云服務(wù)
集團(tuán)型企業(yè)由于多品牌、多業(yè)態(tài)、多主體等特征,對數(shù)據(jù)基礎(chǔ)設(shè)施的能力要求往往更為多元。例如,既要支持子品牌獨(dú)立發(fā)展,又要全集團(tuán)統(tǒng)一管理;既要集團(tuán)資源合理利用,又要主體之間安全隔離。
該場景下,企業(yè)的數(shù)據(jù)基礎(chǔ)設(shè)施必須具備“既隔離又統(tǒng)一”的平臺型數(shù)據(jù)管理能力,從而實(shí)現(xiàn):既能滿足各業(yè)務(wù)單元的隔離需求,又能滿足集團(tuán)全局分析需求;既能支持多云戰(zhàn)略,又能支持跨云統(tǒng)一調(diào)度;既能保障各系統(tǒng)獨(dú)立穩(wěn)定的管理調(diào)度,也能統(tǒng)一存算資源,提高資源利用率。
*奇點(diǎn)云數(shù)據(jù)云平臺DataSimba提供跨云多域多租戶技術(shù)方案,支持通過創(chuàng)建新的Workspace(工作空間),來滿足企業(yè)業(yè)務(wù)擴(kuò)張、快速復(fù)制數(shù)據(jù)生產(chǎn)域、開辟創(chuàng)新業(yè)務(wù)或安全合規(guī)隔離等要求??刹殚啞稊?shù)據(jù)云場景指南》,了解獨(dú)立生產(chǎn)域規(guī)劃的詳細(xì)流程。
場景六:自主可控替代
2019年,CDH社區(qū)版(免費(fèi)版)宣布停止更新,因此無法再提供特性升級、bug修復(fù)等技術(shù)支持,還存在著較多安全漏洞;2022年,Teradata宣布將逐步結(jié)束在中國的直接運(yùn)營,并進(jìn)入中國公司關(guān)閉程序。
在政經(jīng)形勢及數(shù)據(jù)安全合規(guī)的雙重要求下,尋找穩(wěn)定可信的國產(chǎn)大數(shù)據(jù)產(chǎn)品已不僅僅是部分國央企的訴求,有越來越多企業(yè)主動考慮采用自主可控的國產(chǎn)替代。
該場景下,企業(yè)除了考察大數(shù)據(jù)產(chǎn)品的國產(chǎn)軟硬件互認(rèn)證、環(huán)境適配測評結(jié)果,也要求廠商提供平滑遷移的方案,確保“替代”過程安全可控、業(yè)務(wù)影響最小化。
場景七:數(shù)據(jù)安全合規(guī)
企業(yè)作為數(shù)據(jù)(尤其是用戶數(shù)據(jù))的收集者,有義務(wù)控制濫用和誤用數(shù)據(jù)等風(fēng)險的發(fā)生;作為數(shù)據(jù)資產(chǎn)的持有者,也應(yīng)采取必要措施,以預(yù)防并阻止違規(guī)操作、泄密、攻擊等事件,規(guī)避對企業(yè)數(shù)據(jù)資產(chǎn)保密性、完整性、可用性的損傷。
與數(shù)據(jù)資產(chǎn)治理類似,數(shù)據(jù)安全合規(guī)的治理與管理同樣需要持續(xù)進(jìn)行。其中,數(shù)據(jù)安全的分類分級管理規(guī)范及實(shí)施是核心環(huán)節(jié)。
此外,指南提供了數(shù)據(jù)安全管理的7大基本原則、6項(xiàng)必備內(nèi)容,供企業(yè)對照參考。