中文字幕在线一区二区在线,久久成人永久免费播放,日韩大片观看网址

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會(huì)員：747

首頁(yè) > 新聞資訊 > IT業(yè)界 >正文

Python Pandas數(shù)據(jù)預(yù)處理：你知道數(shù)據(jù)標(biāo)準(zhǔn)化嗎？

發(fā)布時(shí)間：2023-12-08 21:40:20 作者：網(wǎng)友整理

數(shù)據(jù)預(yù)處理包括以下幾個(gè)方面:

缺失值處理
數(shù)據(jù)格式化
數(shù)據(jù)規(guī)范化
數(shù)據(jù)標(biāo)準(zhǔn)化
數(shù)據(jù)分箱（分組）

標(biāo)準(zhǔn)化經(jīng)常容易與規(guī)范化混淆，但它們指的是不同的東西。規(guī)范化涉及將不同比例的度量值調(diào)整到一個(gè)共同的比例，而標(biāo)準(zhǔn)化則是將特征值轉(zhuǎn)換為均值為零，標(biāo)準(zhǔn)差為1的分布。標(biāo)準(zhǔn)化也是通過(guò) z-score 轉(zhuǎn)換來(lái)實(shí)現(xiàn)的，其中新值是用當(dāng)前值與平均值之間的差，除以標(biāo)準(zhǔn)差計(jì)算得來(lái)的。

Z-score 是一種統(tǒng)計(jì)度量值，用于確定單個(gè)數(shù)據(jù)點(diǎn)與數(shù)據(jù)集其余部分的距離，它可以用來(lái)檢測(cè)數(shù)據(jù)集中的異常值。

在本教程中，我們將考慮兩種類(lèi)型的標(biāo)準(zhǔn)化：

z 得分（z-score）
z 映射（z-map）

一、數(shù)據(jù)準(zhǔn)備（Data Preparation）

本教程的示例數(shù)據(jù)集還是繼續(xù)沿用上一個(gè)教程（Part 3）中的新冠肺炎數(shù)據(jù)集，獲取方式見(jiàn)上一個(gè)教程的文末。

首先，我們需要導(dǎo)入 Python/ target=_blank class=infotextkey>Python pandas 庫(kù)，并通過(guò) read_csv() 函數(shù)讀取數(shù)據(jù)集。然后我們可以刪除所有具有 NaN 值的列，通過(guò) dropna() 函數(shù)來(lái)實(shí)現(xiàn)的。

import pandas  as pd


df = pd.read_csv('datasets/dpc-covid19-ita-regioni.csv')
df.dropna(axis=1, inplace=True)
df.tAIl(10)

Python Pandas數(shù)據(jù)預(yù)處理：你知道數(shù)據(jù)標(biāo)準(zhǔn)化嗎？圖片

二、z 得分（Z-Score）

前面說(shuō)過(guò)，標(biāo)準(zhǔn)化是將數(shù)據(jù)集中的特征值轉(zhuǎn)換為具有均值為 0 和標(biāo)準(zhǔn)差為 1 的分布。Z-Score 標(biāo)準(zhǔn)化的公式為：

其中是當(dāng)前特征值，是均值，是標(biāo)準(zhǔn)差。

例如，我們可以計(jì)算列 deceduti 的 z 得分。我們可以使用 scipy.stats 庫(kù)的 zscore() 函數(shù)實(shí)現(xiàn)。

from scipy.stats import zscore


df['zscore-deceduti'] = zscore(df['deceduti'])
df['zscore-deceduti']

Python Pandas數(shù)據(jù)預(yù)處理：你知道數(shù)據(jù)標(biāo)準(zhǔn)化嗎？圖片

三、z 映射（Z-Map）

z 映射的值是用當(dāng)前特征值與比較數(shù)組的平均值之差，除以比較數(shù)組的標(biāo)準(zhǔn)差計(jì)算得來(lái)的。例如，我們可以計(jì)算列 deceduti 的 z-map，使用列 terapia_intenva 作為比較數(shù)組。我們可以使用 scipy.stats 庫(kù)的 zmap() 函數(shù)實(shí)現(xiàn)。

from scipy.stats import zmap

df['zmap-deceduti'] = zmap(df['deceduti'], df['terapia_intensiva'])
df['zmap-deceduti']

Python Pandas數(shù)據(jù)預(yù)處理：你知道數(shù)據(jù)標(biāo)準(zhǔn)化嗎？圖片

四、異常值檢測(cè)（Detect Outliers）

標(biāo)準(zhǔn)化可以用來(lái)檢測(cè)和刪除異常值。例如，可以定義一個(gè)閾值來(lái)指定哪些值可以被視為異常值。在本例中，我們?cè)O(shè)置 threshold = 2。我們可以在原始數(shù)據(jù)框中添加一個(gè)新的列 outliers，如果特征值小于-2或大于2，則將異常標(biāo)記列的值設(shè)置為 True，否則為 False。我們可以使用 numpy 庫(kù)的 where() 函數(shù)來(lái)執(zhí)行比較。

import numpy as np

threshold = 2
df['outliers'] = np.where((df['zscore-deceduti'] - threshold > 0), True, 
                          np.where(df['zscore-deceduti'] + threshold < 0, True, False))
df['outliers']

Python Pandas數(shù)據(jù)預(yù)處理：你知道數(shù)據(jù)標(biāo)準(zhǔn)化嗎？圖片

現(xiàn)在，我們可以使用 drop() 函數(shù)刪除異常值。

df.drop(df[df['outliers'] == True].index, inplace=True)
df

Python Pandas數(shù)據(jù)預(yù)處理：你知道數(shù)據(jù)標(biāo)準(zhǔn)化嗎？圖片

五、總結(jié)（Summary）

在本教程中，我解釋了規(guī)范化和標(biāo)準(zhǔn)化之間的區(qū)別，規(guī)范化在某種程度上包括標(biāo)準(zhǔn)化。

數(shù)據(jù)標(biāo)準(zhǔn)化的方法有兩種：z-score 和 z-map。

標(biāo)準(zhǔn)化可用于檢測(cè)和刪除數(shù)據(jù)集中的異常值。此外，它還可以用于在不同的數(shù)據(jù)集之間進(jìn)行比較。

分享到：

標(biāo)簽：Pandas

網(wǎng)友整理

注冊(cè)時(shí)間：

網(wǎng)站：5 個(gè) 小程序：0 個(gè) 文章：12 篇

51998
網(wǎng)站
12
小程序
1030137
文章
747
會(huì)員

趕快注冊(cè)賬號(hào)，推廣您的網(wǎng)站吧！

文章分類(lèi)

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲，玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題，題庫(kù)，初中，高中，大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù)，積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定