亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

點(diǎn)擊這里在線咨詢客服

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會(huì)員：747

首頁(yè) > 新聞資訊 > 互聯(lián)網(wǎng) >正文

手把手教你Python大數(shù)據(jù)分析：使用 PySpark 分析 Excel 文件要解決的問題：輸入文件：那么我們想統(tǒng)計(jì)什么呢？

發(fā)布時(shí)間：2023-07-02 20:41:45 作者：網(wǎng)友整理

Apache Spark是一個(gè)用于大規(guī)模數(shù)據(jù)分析處理的引擎。它支持JAVA、Scala、Python和R語(yǔ)言。

在數(shù)據(jù)分析人工智能領(lǐng)域 Python的使用已經(jīng)遠(yuǎn)超其它語(yǔ)言。

其中Spark還支持一組豐富的高級(jí)工具，包括用于SQL和結(jié)構(gòu)化數(shù)據(jù)處理的Spark SQL、用于機(jī)器學(xué)習(xí)的MLlib、用于圖形處理的GraphX以及用于增量計(jì)算和流處理的Spark Streaming。

本文使用PySpark的SQL module 來實(shí)現(xiàn)對(duì)CSV文件數(shù)據(jù)分析及處理。

雖然Spark擅長(zhǎng)的是大數(shù)據(jù)分析，但是通過這個(gè)例子我們可以看一下Spark數(shù)據(jù)分析是怎么做的，殺雞得用宰牛刀了?

要解決的問題：

新冠疫情到目前為止世界各國(guó)康復(fù)人數(shù)的Top統(tǒng)計(jì)，如下圖：

手把手教你Python大數(shù)據(jù)分析：使用 PySpark 分析 Excel 文件

結(jié)果展示

輸入文件：

我們現(xiàn)在有一份聯(lián)合國(guó)發(fā)布的關(guān)于新冠康復(fù)人數(shù)的統(tǒng)計(jì)信息，這里面包含國(guó)家，省份，還有每日更新的總康復(fù)人數(shù)

最后一列"2020年6月23號(hào)"就是我們需要的信息。

手把手教你Python大數(shù)據(jù)分析：使用 PySpark 分析 Excel 文件

輸入文件

那么我們想統(tǒng)計(jì)什么呢？

我們這次要統(tǒng)計(jì)的是，基于國(guó)家的康復(fù)的人數(shù)從大到小的排列。并且總數(shù)大于1萬(wàn)。

建立Context 讀入數(shù)據(jù)：

我們使用下面的函數(shù)建立Spark context。
Spark Local模式單機(jī)模式，并不是集群模式

手把手教你Python大數(shù)據(jù)分析：使用 PySpark 分析 Excel 文件

建立 spark context

調(diào)用函數(shù)打開文件，

這個(gè)文件是有頭的，就是第一行。

手把手教你Python大數(shù)據(jù)分析：使用 PySpark 分析 Excel 文件

打開文件

分析數(shù)據(jù)：

我們看這個(gè)表里面有省，國(guó)家，以及人數(shù)的信息，
我們需要的一個(gè)是國(guó)家（包括所有省），另外一個(gè)是人數(shù)

手把手教你Python大數(shù)據(jù)分析：使用 PySpark 分析 Excel 文件

按國(guó)家名統(tǒng)計(jì)人數(shù)

輸出結(jié)果：

手把手教你Python大數(shù)據(jù)分析：使用 PySpark 分析 Excel 文件

國(guó)家級(jí)人數(shù)總和

然后再把它做一個(gè)排序。

手把手教你Python大數(shù)據(jù)分析：使用 PySpark 分析 Excel 文件

按人數(shù)從大到小排序

結(jié)果如下

手把手教你Python大數(shù)據(jù)分析：使用 PySpark 分析 Excel 文件

排序后結(jié)果

我們看到排序之后，列名不是我們想要的，再重新整理一下

手把手教你Python大數(shù)據(jù)分析：使用 PySpark 分析 Excel 文件

總數(shù)大于10000并重命名列

查看下目前數(shù)據(jù)的格式：我們可以看到國(guó)家和康復(fù)數(shù)字的排名了。

手把手教你Python大數(shù)據(jù)分析：使用 PySpark 分析 Excel 文件

最后數(shù)據(jù)輸出結(jié)果

下面我們還需要把它寫到文件里，后續(xù)畫圖用。然后寫的文件的模式是覆蓋，并且文件帶頭。

手把手教你Python大數(shù)據(jù)分析：使用 PySpark 分析 Excel 文件

寫入CSV文件

這里面有個(gè)分區(qū)合并的動(dòng)作（coalesce），為什么這里頭加一個(gè)這個(gè)重分區(qū)呢？因?yàn)镾park是分布式計(jì)算，如果不加這個(gè)重分區(qū)的話，它會(huì)按照默認(rèn)的分區(qū)數(shù)來生成多個(gè)Excel文件。

最終結(jié)果：

查看一下生成文件Excel表：第1列是國(guó)家，第2列是人數(shù)的統(tǒng)計(jì)之和，然后數(shù)字從大到小，所有康復(fù)數(shù)量大于1萬(wàn)的國(guó)家統(tǒng)計(jì)出來目前是50個(gè)。

手把手教你Python大數(shù)據(jù)分析：使用 PySpark 分析 Excel 文件

最終結(jié)果數(shù)據(jù)

最后以圖形的形式展示就是文章開頭的圖表了！

分享到：

標(biāo)簽：數(shù)據(jù)

網(wǎng)友整理

注冊(cè)時(shí)間：

網(wǎng)站：5 個(gè) 小程序：0 個(gè) 文章：12 篇

51998
網(wǎng)站
12
小程序
1030137
文章
747
會(huì)員

趕快注冊(cè)賬號(hào)，推廣您的網(wǎng)站吧！

文章分類

熱門網(wǎng)站

各百科-專業(yè)百科問答知識(shí)名網(wǎng)站 m.geelcn.com
免費(fèi)軟件,綠色軟件園,手機(jī)軟件下載,熱門游戲下載中心-中當(dāng)網(wǎng) m.deelcn.com
魔扣科技 www.430618.com
體育新聞_國(guó)際體育資訊_全球體育賽事-中名網(wǎng) www.feelcn.com/tiyu/tiyuxinwen/
食品安全_健康飲食_舌尖上的安全-中名網(wǎng) www.feelcn.com/shenghuo/shipinanquan/
中合網(wǎng) www.heelcn.com
中當(dāng)網(wǎng) www.deelcn.com
魔扣網(wǎng)站維護(hù)代運(yùn)營(yíng) www.430618.com/tg
中合網(wǎng)-健康養(yǎng)生知識(shí)科普名站 m.heelcn.com
各百科 www.geelcn.com

最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲，玩家需要根據(jù)9

答題星

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試

全階人生考試2018-06-03

各種考試題，題庫(kù)，初中，高中，大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù)，積累氧氣值。還可偷

每日養(yǎng)生app

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定

熱門文章