亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.430618.com 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

Apache Spark是一個(gè)用于大規(guī)模數(shù)據(jù)分析處理的引擎。它支持JAVA、Scala、Python和R語(yǔ)言。

在數(shù)據(jù)分析人工智能領(lǐng)域 Python的使用已經(jīng)遠(yuǎn)超其它語(yǔ)言。

其中Spark還支持一組豐富的高級(jí)工具,包括用于SQL和結(jié)構(gòu)化數(shù)據(jù)處理的Spark SQL、用于機(jī)器學(xué)習(xí)的MLlib、用于圖形處理的GraphX以及用于增量計(jì)算和流處理的Spark Streaming。

本文使用PySpark的SQL module 來實(shí)現(xiàn)對(duì)CSV文件數(shù)據(jù)分析及處理。

雖然Spark擅長(zhǎng)的是大數(shù)據(jù)分析,但是通過這個(gè)例子我們可以看一下Spark數(shù)據(jù)分析是怎么做的,殺雞得用宰牛刀了?

要解決的問題:

新冠疫情到目前為止世界各國(guó)康復(fù)人數(shù)的Top統(tǒng)計(jì),如下圖:

手把手教你Python大數(shù)據(jù)分析:使用 PySpark 分析 Excel 文件

結(jié)果展示

輸入文件:

我們現(xiàn)在有一份聯(lián)合國(guó)發(fā)布的關(guān)于新冠康復(fù)人數(shù)的統(tǒng)計(jì)信息,這里面包含國(guó)家,省份,還有每日更新的總康復(fù)人數(shù)

最后一列"2020年6月23號(hào)"就是我們需要的信息。

手把手教你Python大數(shù)據(jù)分析:使用 PySpark 分析 Excel 文件

輸入文件

那么我們想統(tǒng)計(jì)什么呢?

我們這次要統(tǒng)計(jì)的是,基于國(guó)家的康復(fù)的人數(shù)從大到小的排列。并且總數(shù)大于1萬(wàn)。

  1. 建立Context 讀入數(shù)據(jù):
  • 我們使用下面的函數(shù)建立Spark context。
  • Spark Local模式單機(jī)模式,并不是集群模式
手把手教你Python大數(shù)據(jù)分析:使用 PySpark 分析 Excel 文件

建立 spark context

  1. 調(diào)用函數(shù)打開文件,
  • 這個(gè)文件是有頭的,就是第一行。
手把手教你Python大數(shù)據(jù)分析:使用 PySpark 分析 Excel 文件

打開文件

  1. 分析數(shù)據(jù):
  • 我們看這個(gè)表里面有省,國(guó)家,以及人數(shù)的信息,
  • 我們需要的一個(gè)是國(guó)家(包括所有省),另外一個(gè)是人數(shù)
手把手教你Python大數(shù)據(jù)分析:使用 PySpark 分析 Excel 文件

按國(guó)家名統(tǒng)計(jì)人數(shù)

  • 輸出結(jié)果:
手把手教你Python大數(shù)據(jù)分析:使用 PySpark 分析 Excel 文件

國(guó)家級(jí)人數(shù)總和

  • 然后再把它做一個(gè)排序。
手把手教你Python大數(shù)據(jù)分析:使用 PySpark 分析 Excel 文件

按人數(shù)從大到小排序

  • 結(jié)果如下
手把手教你Python大數(shù)據(jù)分析:使用 PySpark 分析 Excel 文件

排序后結(jié)果

  • 我們看到排序之后,列名不是我們想要的,再重新整理一下
手把手教你Python大數(shù)據(jù)分析:使用 PySpark 分析 Excel 文件

總數(shù)大于10000并重命名列

  • 查看下目前數(shù)據(jù)的格式:我們可以看到國(guó)家和康復(fù)數(shù)字的排名了。
手把手教你Python大數(shù)據(jù)分析:使用 PySpark 分析 Excel 文件

最后數(shù)據(jù)輸出結(jié)果

  • 下面我們還需要把它寫到文件里,后續(xù)畫圖用。然后寫的文件的模式是覆蓋,并且文件帶頭。
手把手教你Python大數(shù)據(jù)分析:使用 PySpark 分析 Excel 文件

寫入CSV文件

  • 這里面有個(gè)分區(qū)合并的動(dòng)作(coalesce),為什么這里頭加一個(gè)這個(gè)重分區(qū)呢?因?yàn)镾park是分布式計(jì)算,如果不加這個(gè)重分區(qū)的話,它會(huì)按照默認(rèn)的分區(qū)數(shù)來生成多個(gè)Excel文件。
  1. 最終結(jié)果:
  • 查看一下生成文件Excel表:第1列是國(guó)家,第2列是人數(shù)的統(tǒng)計(jì)之和,然后數(shù)字從大到小,所有康復(fù)數(shù)量大于1萬(wàn)的國(guó)家統(tǒng)計(jì)出來目前是50個(gè)。
手把手教你Python大數(shù)據(jù)分析:使用 PySpark 分析 Excel 文件

最終結(jié)果數(shù)據(jù)

  • 最后以圖形的形式展示就是文章開頭的圖表了!

 

分享到:
標(biāo)簽:數(shù)據(jù)
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定