本文介紹了運(yùn)行Spark作業(yè)時(shí)CPU使用率較低的處理方法,對(duì)大家解決問(wèn)題具有一定的參考價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)吧!
問(wèn)題描述
我正在運(yùn)行Spark作業(yè)。我有4個(gè)內(nèi)核和設(shè)置為5G的工作內(nèi)存。應(yīng)用程序主機(jī)位于同一網(wǎng)絡(luò)中的另一臺(tái)計(jì)算機(jī)上,不承載任何工作進(jìn)程。這是我的代碼:
private void myClass() {
// configuration of the spark context
SparkConf conf = new SparkConf().setAppName("myWork").setMaster("spark://myHostIp:7077").set("spark.driver.allowMultipleContexts", "true");
// creation of the spark context in wich we will run the algorithm
JavaSparkContext sc = new JavaSparkContext(conf);
// algorithm
for(int i = 0; i<200; i++) {
System.out.println("===============================================================");
System.out.println("iteration : " + i);
System.out.println("===============================================================");
ArrayList<Boolean> list = new ArrayList<Boolean>();
for(int j = 0; j < 1900; j++){
list.add(true);
}
JavaRDD<Ant> ratings = sc.parallelize(list, 100)
.map(bool -> new myObj())
.map(obj -> this.setupObj(obj))
.map(obj -> this.moveObj(obj))
.cache();
int[] stuff = ratings
.map(obj -> obj.getStuff())
.reduce((obj1,obj2)->this.mergeStuff(obj1,obj2));
this.setStuff(tour);
ArrayList<TabObj> tabObj = ratings
.map(obj -> this.objToTabObjAsTab(obj))
.reduce((obj1,obj2)->this.mergeTabObj(obj1,obj2));
ratings.unpersist(false);
this.setTabObj(tabObj);
}
sc.close();
}
當(dāng)我啟動(dòng)它時(shí),我可以在Spark UI上看到進(jìn)度,但它真的很慢(我必須將Parrallize設(shè)置得相當(dāng)高,否則我會(huì)出現(xiàn)超時(shí)問(wèn)題)。我認(rèn)為這是一個(gè)CPU瓶頸,但實(shí)際上JVM的CPU消耗非常低(大多數(shù)時(shí)候是0%,有時(shí)略高于5%…)。
根據(jù)監(jiān)視器顯示,JVM使用了大約3G的內(nèi)存,只緩存了19M。
主主機(jī)有4個(gè)核心,內(nèi)存更少(4G)。那臺(tái)機(jī)器顯示100%的CPU消耗(一個(gè)完整的核心),我不明白為什么它那么高……它只需將分區(qū)發(fā)送給另一臺(tái)計(jì)算機(jī)上的Worker,對(duì)嗎?
為什么工作進(jìn)程的CPU消耗低,主進(jìn)程的CPU消耗高?
推薦答案
確保您已在群集中按Yarn或Mesos提交Spark作業(yè),否則它可能只在您的主節(jié)點(diǎn)上運(yùn)行。
因?yàn)槟拇a非常簡(jiǎn)單,所以完成計(jì)算應(yīng)該非常快,但我建議使用wordcount示例,嘗試讀取幾GB的輸入源,以測(cè)試CPU消耗情況。
請(qǐng)使用”local[*]”。*表示使用您的所有核心進(jìn)行計(jì)算
SparkConf SparkConf=new SparkConf().Set(“Spark.driver.host”,”localhost”).setAppName(“unit-testing”).setMaster(“local[*]”);
參考文獻(xiàn):https://spark.apache.org/docs/latest/configuration.html
在Spark中,有很多東西可能會(huì)影響CPU和內(nèi)存的使用,例如,執(zhí)行器和您想要分配的每個(gè).Executor.Memory。
這篇關(guān)于運(yùn)行Spark作業(yè)時(shí)CPU使用率較低的文章就介紹到這了,希望我們推薦的答案對(duì)大家有所幫助,