亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

數據預處理包括以下幾個方面:

  • 缺失值處理
  • 數據格式化
  • 數據規范化
  • 數據標準化
  • 數據分箱(分組)

標準化經常容易與規范化混淆,但它們指的是不同的東西。規范化涉及將不同比例的度量值調整到一個共同的比例,而標準化則是將特征值轉換為均值為零,標準差為1的分布。標準化也是通過 z-score 轉換來實現的,其中新值是用當前值與平均值之間的差,除以標準差計算得來的。

Z-score 是一種統計度量值,用于確定單個數據點與數據集其余部分的距離,它可以用來檢測數據集中的異常值。

在本教程中,我們將考慮兩種類型的標準化:

  • z 得分(z-score)
  • z 映射(z-map)

一、數據準備(Data Preparation)

本教程的示例數據集還是繼續沿用上一個教程(Part 3)中的新冠肺炎數據集,獲取方式見上一個教程的文末。

首先,我們需要導入 Python/ target=_blank class=infotextkey>Python pandas 庫,并通過 read_csv() 函數讀取數據集。然后我們可以刪除所有具有 NaN 值的列,通過 dropna() 函數來實現的。

import pandas  as pd


df = pd.read_csv('datasets/dpc-covid19-ita-regioni.csv')
df.dropna(axis=1, inplace=True)
df.tAIl(10)

Python Pandas數據預處理:你知道數據標準化嗎?圖片

二、z 得分(Z-Score)

前面說過,標準化是將數據集中的特征值轉換為具有均值為 0 和標準差為 1 的分布。Z-Score 標準化的公式為:

其中  是當前特征值, 是均值, 是標準差。

例如,我們可以計算列 deceduti 的 z 得分。我們可以使用 scipy.stats 庫的 zscore() 函數實現。

from scipy.stats import zscore


df['zscore-deceduti'] = zscore(df['deceduti'])
df['zscore-deceduti']

Python Pandas數據預處理:你知道數據標準化嗎?圖片

三、z 映射(Z-Map)

z 映射的值是用當前特征值與比較數組的平均值之差,除以比較數組的標準差計算得來的。例如,我們可以計算列 deceduti 的 z-map,使用列 terapia_intenva 作為比較數組。我們可以使用 scipy.stats 庫的 zmap() 函數實現。

from scipy.stats import zmap

df['zmap-deceduti'] = zmap(df['deceduti'], df['terapia_intensiva'])
df['zmap-deceduti']

Python Pandas數據預處理:你知道數據標準化嗎?圖片

四、異常值檢測(Detect Outliers)

標準化可以用來檢測和刪除異常值。例如,可以定義一個閾值來指定哪些值可以被視為異常值。在本例中,我們設置 threshold = 2。我們可以在原始數據框中添加一個新的列 outliers,如果特征值小于-2或大于2,則將異常標記列的值設置為 True,否則為 False。我們可以使用 numpy 庫的 where() 函數來執行比較。

import numpy as np

threshold = 2
df['outliers'] = np.where((df['zscore-deceduti'] - threshold > 0), True, 
                          np.where(df['zscore-deceduti'] + threshold < 0, True, False))
df['outliers']

Python Pandas數據預處理:你知道數據標準化嗎?圖片

現在,我們可以使用 drop() 函數刪除異常值。

df.drop(df[df['outliers'] == True].index, inplace=True)
df

Python Pandas數據預處理:你知道數據標準化嗎?圖片

五、總結(Summary)

在本教程中,我解釋了規范化和標準化之間的區別,規范化在某種程度上包括標準化。

數據標準化的方法有兩種:z-score 和 z-map。

標準化可用于檢測和刪除數據集中的異常值。此外,它還可以用于在不同的數據集之間進行比較。

分享到:
標簽:Pandas
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定