前言
在大數據時代,數據的來源有很多,但是我們不能直接拿來就用,我們需要深度挖掘數據潛在的價值和意義,下面是我在之前的學習中總結的一些概念和方法,現在分享給大家,供大家參考,如有不全之處,希望大家不吝賜教。
數據挖掘的含義
數據挖掘(Data mining),又譯為資料探勘、數據采礦。它是數據庫知識發現(Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
數據挖掘是一種從大量數據中發現信息的過程,其大量依賴自動算法的特質,使得用戶難以對數據和算法過程本身直觀地進行理解、探索和優化。近年來,隨著可視化領域的蓬勃發展,有很多工作開始探究如何使用可視化方法輔助數據挖掘過程,使用戶更加直觀地理解數據,并對數據和算法和進行探索。
數據挖掘(data mining)又稱為數據庫中的知識發現(KDD),是指從存放在數據庫、數據倉庫或其他信息庫中的大量數據中挖掘出有趣知識的過程。近年來為了推動數據挖掘在實際中的應用,許多研究者對數據挖掘系統的體系結構做了大量的研究工作. 一個結構合理的數據挖掘系統應該具有以下幾個特點:1)系統功能和輔助工具的完備性;2)系統的可擴展性;3)支持多種數據源;4)對大數據量的處理能力;5)良好的用戶界面和結果展示能力。當前出現的數據挖掘系統主要包括集中式的和分布式的數據挖掘系統,而每種系統的具體結構及其各個組成部分卻有多種不同的實現技術和實現方式。
數據挖掘的概念
數據挖掘是通過仔細分析大量數據來揭示有意義的新的關系、趨勢和模式的過程+其出現于20世紀80年代后期,是數據庫研究中一個很有應用價值的新領域,是一門交叉性學科,融合了人工智能、數據庫技術、模式識別、機器學習、統計學和數據可視化等多個領域的理論和技術!數據挖掘作為一種技術,它的生命周期正處于溝坎(chasm)階段,需要時間和精力去研究、開發和逐步成熟,并最終為人們所接受。由于數據挖掘是數據庫中知識發現(knowledge discovery in databases,KDD)的核心步驟(如圖1所示),發現了隱藏的模式,所以從模式處理的角度,許多人認為兩者是等同的。

數據挖掘綜述
數據挖掘的任務就是發現隱藏在數據中的模式!其可以發現的模式一般分為兩大類:描述型(descriptive)模式和預測型(predictive)模式,描述型模式是對當前數據中存在的事實做規范描述,刻畫當前數據的一般特性;預測型模式則是以時間為關鍵參數,對于時間序列型數據,根據其歷史和當前的值去預測其未來的值。

聚類分析
聚類分析(Cluster Analysis)是研究“物以類聚”的一種多元統計方法。
聚類(簇):數據對象的集合
在同一個聚類(簇)中的對象彼此相似,不同簇中的對象相異。
將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。聚類是一種沒有指導的學習:沒有預定義的編號。
聚類分析的數據挖掘功能
作為一個獨立的工具來獲得數據分布的情況,作為其他算法(如:特征和分類)的預處理步驟。
聚類分析的基本思想是認為我們所研究的樣本或指標(變量)之間存在著程度不同的相似性(親疏關系)。于是根據一批樣本的多個觀測指標,具體找出一些彼此之間相似程度較大的樣本(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣本(或指標)又聚合為另一類,關系密切的聚合到一個小的分類單位,關系疏遠的聚合到一個大的分類單位,直到把所有樣本(或指標)都聚合完畢,把不同的類型一一劃分出來,形成一個由小到大的分類系統。最后把整個分類系統畫成一張譜系圖,用它把所有樣本(或指標)間的親疏關系表示出來。這種方法是最常用的、最基本的一種,稱為系統聚類分析。
歡迎關注公眾號,訪問更多精彩:數據之魅。