前言
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的來(lái)源有很多,但是我們不能直接拿來(lái)就用,我們需要深度挖掘數(shù)據(jù)潛在的價(jià)值和意義,下面是我在之前的學(xué)習(xí)中總結(jié)的一些概念和方法,現(xiàn)在分享給大家,供大家參考,如有不全之處,希望大家不吝賜教。
數(shù)據(jù)挖掘的含義
數(shù)據(jù)挖掘(Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(Knowledge-Discovery in Databases,簡(jiǎn)稱(chēng):KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線(xiàn)分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。
數(shù)據(jù)挖掘是一種從大量數(shù)據(jù)中發(fā)現(xiàn)信息的過(guò)程,其大量依賴(lài)自動(dòng)算法的特質(zhì),使得用戶(hù)難以對(duì)數(shù)據(jù)和算法過(guò)程本身直觀地進(jìn)行理解、探索和優(yōu)化。近年來(lái),隨著可視化領(lǐng)域的蓬勃發(fā)展,有很多工作開(kāi)始探究如何使用可視化方法輔助數(shù)據(jù)挖掘過(guò)程,使用戶(hù)更加直觀地理解數(shù)據(jù),并對(duì)數(shù)據(jù)和算法和進(jìn)行探索。
數(shù)據(jù)挖掘(data mining)又稱(chēng)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD),是指從存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中的大量數(shù)據(jù)中挖掘出有趣知識(shí)的過(guò)程。近年來(lái)為了推動(dòng)數(shù)據(jù)挖掘在實(shí)際中的應(yīng)用,許多研究者對(duì)數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)做了大量的研究工作. 一個(gè)結(jié)構(gòu)合理的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該具有以下幾個(gè)特點(diǎn):1)系統(tǒng)功能和輔助工具的完備性;2)系統(tǒng)的可擴(kuò)展性;3)支持多種數(shù)據(jù)源;4)對(duì)大數(shù)據(jù)量的處理能力;5)良好的用戶(hù)界面和結(jié)果展示能力。當(dāng)前出現(xiàn)的數(shù)據(jù)挖掘系統(tǒng)主要包括集中式的和分布式的數(shù)據(jù)挖掘系統(tǒng),而每種系統(tǒng)的具體結(jié)構(gòu)及其各個(gè)組成部分卻有多種不同的實(shí)現(xiàn)技術(shù)和實(shí)現(xiàn)方式。
數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘是通過(guò)仔細(xì)分析大量數(shù)據(jù)來(lái)揭示有意義的新的關(guān)系、趨勢(shì)和模式的過(guò)程+其出現(xiàn)于20世紀(jì)80年代后期,是數(shù)據(jù)庫(kù)研究中一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域,是一門(mén)交叉性學(xué)科,融合了人工智能、數(shù)據(jù)庫(kù)技術(shù)、模式識(shí)別、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)可視化等多個(gè)領(lǐng)域的理論和技術(shù)!數(shù)據(jù)挖掘作為一種技術(shù),它的生命周期正處于溝坎(chasm)階段,需要時(shí)間和精力去研究、開(kāi)發(fā)和逐步成熟,并最終為人們所接受。由于數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(knowledge discovery in databases,KDD)的核心步驟(如圖1所示),發(fā)現(xiàn)了隱藏的模式,所以從模式處理的角度,許多人認(rèn)為兩者是等同的。
數(shù)據(jù)挖掘綜述
數(shù)據(jù)挖掘的任務(wù)就是發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式!其可以發(fā)現(xiàn)的模式一般分為兩大類(lèi):描述型(descriptive)模式和預(yù)測(cè)型(predictive)模式,描述型模式是對(duì)當(dāng)前數(shù)據(jù)中存在的事實(shí)做規(guī)范描述,刻畫(huà)當(dāng)前數(shù)據(jù)的一般特性;預(yù)測(cè)型模式則是以時(shí)間為關(guān)鍵參數(shù),對(duì)于時(shí)間序列型數(shù)據(jù),根據(jù)其歷史和當(dāng)前的值去預(yù)測(cè)其未來(lái)的值。
聚類(lèi)分析
聚類(lèi)分析(Cluster Analysis)是研究“物以類(lèi)聚”的一種多元統(tǒng)計(jì)方法。
聚類(lèi)(簇):數(shù)據(jù)對(duì)象的集合
在同一個(gè)聚類(lèi)(簇)中的對(duì)象彼此相似,不同簇中的對(duì)象相異。
將物理或抽象對(duì)象的集合分組成為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的過(guò)程。聚類(lèi)是一種沒(méi)有指導(dǎo)的學(xué)習(xí):沒(méi)有預(yù)定義的編號(hào)。
聚類(lèi)分析的數(shù)據(jù)挖掘功能
作為一個(gè)獨(dú)立的工具來(lái)獲得數(shù)據(jù)分布的情況,作為其他算法(如:特征和分類(lèi))的預(yù)處理步驟。
聚類(lèi)分析的基本思想是認(rèn)為我們所研究的樣本或指標(biāo)(變量)之間存在著程度不同的相似性(親疏關(guān)系)。于是根據(jù)一批樣本的多個(gè)觀測(cè)指標(biāo),具體找出一些彼此之間相似程度較大的樣本(或指標(biāo))聚合為一類(lèi),把另外一些彼此之間相似程度較大的樣本(或指標(biāo))又聚合為另一類(lèi),關(guān)系密切的聚合到一個(gè)小的分類(lèi)單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類(lèi)單位,直到把所有樣本(或指標(biāo))都聚合完畢,把不同的類(lèi)型一一劃分出來(lái),形成一個(gè)由小到大的分類(lèi)系統(tǒng)。最后把整個(gè)分類(lèi)系統(tǒng)畫(huà)成一張譜系圖,用它把所有樣本(或指標(biāo))間的親疏關(guān)系表示出來(lái)。這種方法是最常用的、最基本的一種,稱(chēng)為系統(tǒng)聚類(lèi)分析。
歡迎關(guān)注公眾號(hào),訪(fǎng)問(wèn)更多精彩:數(shù)據(jù)之魅。






