問題現(xiàn)象描述
部署了組播業(yè)務(wù)的交換機(jī)CPU占用率高,同時發(fā)現(xiàn)交換機(jī)上存在大量239.255.255.250的組播組的轉(zhuǎn)發(fā)表項(xiàng),占用了較多的轉(zhuǎn)發(fā)表項(xiàng)資源,而實(shí)際組播業(yè)務(wù)中并沒有規(guī)劃該組播組地址。
例如:某局點(diǎn)的一個用戶子網(wǎng)啟用IPTV業(yè)務(wù)后,交換機(jī)CPU占用率高,同時發(fā)現(xiàn)交換機(jī)上出現(xiàn)大量源IP地址為某品牌機(jī)頂盒的IP地址,組IP地址為239.255.255.250的組播路由表項(xiàng),并且這些組播表項(xiàng)擴(kuò)散到其他用戶子網(wǎng)絡(luò),設(shè)備上都可以查看到大量該組播組地址的轉(zhuǎn)發(fā)表項(xiàng)。
問題根因說明
239.255.255.250地址屬于SSDP(Simple Service Discovery Protocol)簡單服務(wù)發(fā)現(xiàn)協(xié)議使用的組播地址,因此當(dāng)網(wǎng)絡(luò)中存在服務(wù)器或者終端PC默認(rèn)啟用SSDP服務(wù)時,便會發(fā)送對應(yīng)組播報文到交換機(jī)上。
由于239.255.255.250地址不屬于組播地址的永久組地址(永久組地址也稱為保留組地址,用于標(biāo)識一組特定的網(wǎng)絡(luò)設(shè)備,供路由協(xié)議、拓?fù)洳檎业仁褂茫挥糜诮M播轉(zhuǎn)發(fā))224.0.0.X范圍之內(nèi),交換機(jī)將該組播組地址作為一個正常普通的組播組來處理,因此會生成對應(yīng)的組播轉(zhuǎn)發(fā)表項(xiàng)。
本案例中,初步分析是這種品牌的機(jī)頂盒默認(rèn)啟用了SSDP服務(wù),會發(fā)送對應(yīng)“ssdp:discover”消息報文到源DR交換機(jī)觸發(fā)組播轉(zhuǎn)發(fā)表項(xiàng),同時向RP注冊成功后,其他用戶子網(wǎng)中的終端設(shè)備發(fā)送該組播組的Report報文,導(dǎo)致各子網(wǎng)交換機(jī)均出現(xiàn)大量不同源IP,相同組IP的組播轉(zhuǎn)發(fā)表項(xiàng)。
問題判斷方法
1.執(zhí)行display cpu-usage命令,查看交換機(jī)CPU占用率,發(fā)現(xiàn)CPU占用率在80%以上,并且查看CPU占用率較高的任務(wù),發(fā)現(xiàn)收包任務(wù)“bcmRx/FTS/VPR/SOCK”占用率最高。
2.使用display cpu-defend statistics命令查看上送CPU報文的統(tǒng)計信息,判斷是否存在過多IGMP協(xié)議報文。
a.執(zhí)行reset cpu-defend statistics命令,清除上送CPU報文的統(tǒng)計信息。
b.執(zhí)行display cpu-defend statistics packet-type igmp all命令,查看上送CPU的IGMP報文統(tǒng)計信息。
3.找出組播攻擊源。
可以通過以下三種方式來找出組播攻擊源:
−端口鏡像獲取報文信息
端口鏡像獲取報文信息是最直接的獲取報文詳細(xì)特征的方式,且對設(shè)備的CPU不會造成任何影響,建議在上送CPU的報文的入方向端口進(jìn)行鏡像。交換機(jī)端口鏡像配置方式請參考產(chǎn)品文檔的“配置指南-網(wǎng)絡(luò)管理與監(jiān)控配置-鏡像配置”章節(jié)。
−查看組播表項(xiàng)
n如果配置的二層組播,執(zhí)行display igmp-snooping port-info命令,會發(fā)現(xiàn)有不同主機(jī)端口都收到了239.255.255.250組播組的Report請求。
如果配置的三層組播,執(zhí)行display multicast forwarding-table命令,會發(fā)現(xiàn)存在較多不同源地址、相同組播地址239.255.255.250的組播轉(zhuǎn)發(fā)表項(xiàng)。
−配置基于攻擊溯源的本機(jī)防攻擊策略
執(zhí)行display auto-defend attack-source和display auto-defend attack-source slot slot-id命令,查看主控板和接口板的攻擊源信息。
4.通過以上方法,同時結(jié)合實(shí)際組播業(yè)務(wù)部署中沒有規(guī)劃239.255.255.250的組播組地址,確定設(shè)備受到239.255.255.250組播組報文攻擊。
解決方案
有兩種解法方法,一種是在交換機(jī)上過濾該組播組報文(推薦使用該方法),一種是在存在攻擊源的服務(wù)器或終端PC上關(guān)閉SSDP服務(wù)。
l在交換機(jī)上過濾該組播組報文。
a.過濾239.255.255.250的IGMP協(xié)議報文。
b.過濾239.255.255.250數(shù)據(jù)報文。
l在服務(wù)器或終端PC上關(guān)閉SSDP服務(wù)。
a.進(jìn)入“控制面板”,選擇“管理工具”,進(jìn)入后再選擇“服務(wù)”。
b.在列表中找到“SSDP Discovery Service”服務(wù),選擇并停止該項(xiàng)服務(wù)。
經(jīng)驗(yàn)總結(jié)
239.255.255.250組地址屬SSDP服務(wù)所有,一般windows服務(wù)器默認(rèn)會開啟該服務(wù),因此網(wǎng)絡(luò)中出現(xiàn)該組地址的表項(xiàng)是較為常見的。
對于交換機(jī)而言,這只是一個普通的組播組,如果發(fā)現(xiàn)CPU占用率高,并且判斷是受到未在業(yè)務(wù)規(guī)劃內(nèi)的239.255.255.250的報文攻擊,可以在交換機(jī)上進(jìn)行相關(guān)的過濾配置或者在服務(wù)器或終端設(shè)備上關(guān)閉該服務(wù),避免交換機(jī)上大量生成該組播組的轉(zhuǎn)發(fā)表項(xiàng)。
相關(guān)介紹
簡單服務(wù)發(fā)現(xiàn)協(xié)議SSDP(Simple Service Discovery Protocol)是一種應(yīng)用層協(xié)議,其構(gòu)成UPnP(通用即插即用)技術(shù)的核心協(xié)議之一。它為網(wǎng)絡(luò)客戶端(network client)提供了一種發(fā)現(xiàn)網(wǎng)絡(luò)服務(wù)(network services)的機(jī)制,采用基于通知和發(fā)現(xiàn)路由的組播方式實(shí)現(xiàn)。
SSDP協(xié)議一般使用組播地址239.255.255.250:1900(IPv4),F(xiàn)F0x::C(IPv6)來傳送相關(guān)消息。
按照協(xié)議的規(guī)定,當(dāng)一個控制點(diǎn)(客戶端)接入網(wǎng)絡(luò)的時候,它可以向一個特定的組播地址的SSDP端口使用M-SEARCH方法發(fā)送“ssdp:discover”消息。當(dāng)設(shè)備監(jiān)聽到這個保留的組播地址上由控制點(diǎn)發(fā)送的消息的時候,設(shè)備會分析控制點(diǎn)請求的服務(wù),如果自身提供了控制點(diǎn)請求的服務(wù),設(shè)備將通過單播的方式直接響應(yīng)控制點(diǎn)的請求。
SSDP的UDP數(shù)據(jù)報文和IGMP Report報文分別如圖6-1和圖6-2所示。
圖6-1 SSDP的UDP數(shù)據(jù)報文
圖6-2 SSDP的IGMP Report報文
6.2 交換機(jī)受到ARP報文攻擊
問題現(xiàn)象描述
如圖6-3所示,Switch為網(wǎng)關(guān),Switch_1(框式交換機(jī))經(jīng)常脫管,且Switch_1下用戶存在上網(wǎng)掉線,Ping網(wǎng)關(guān)存在時延、不通等現(xiàn)象,而Switch_2下聯(lián)業(yè)務(wù)正常,Ping網(wǎng)關(guān)正常。
圖6-3 故障組網(wǎng)圖
問題根因說明
Switch_1上存在源mac固定的ARP攻擊導(dǎo)致用戶無法進(jìn)行正常ARP交互。
問題判斷方法
在Switch_1上執(zhí)行以下操作:
步驟 1查看設(shè)備CPU占用率,判斷CPU占用率較高。
發(fā)現(xiàn)CPU占用率達(dá)到82%。
步驟 2查看存在臨時ARP表項(xiàng),初步判斷設(shè)備的ARP表項(xiàng)學(xué)習(xí)存在問題。
發(fā)現(xiàn)有兩條ARP表項(xiàng)的“MAC ADDRESS”字段為“Incomplete”即為臨時表項(xiàng),表示有ARP表項(xiàng)學(xué)習(xí)不到。
步驟 3判斷設(shè)備正遭受ARP攻擊。
1.由于有未學(xué)習(xí)到的ARP表項(xiàng),查看上送CPU的ARP-Request報文統(tǒng)計信息。
發(fā)現(xiàn)交換機(jī)的4號單板上存在大量ARP-Request報文丟包。
2.配置攻擊溯源識別攻擊源。
3.查看攻擊源信息。
發(fā)現(xiàn)攻擊源的MAC地址為0000-0000-00db,位于GigabitEthernet2/0/22端口。
如果該MAC有對應(yīng)ARP,還可以執(zhí)行命令display arp | include 0000-0000-00db查詢對應(yīng)的IP。
----結(jié)束
解決方案
l配置黑名單。
l配置攻擊溯源的懲罰功能。
6.3 STP震蕩引起CPU占用率高
問題現(xiàn)象描述
一臺盒式交換機(jī)的CPU占用率過高,交換機(jī)輸出大量的ARP報文超過CPCAR后丟棄的日志,同時采集端口信息時,發(fā)現(xiàn)所有使能STP的端口接收的TC報文計數(shù)均在增長。
問題根因說明
端口收到大量的TC報文引起STP震蕩,觸發(fā)大量MAC表項(xiàng)刪除、ARP表項(xiàng)刷新,使交換機(jī)需要處理大量ARP-Miss、ARP-Request和ARP-Reply報文,導(dǎo)致CPU占用率升高。
問題判斷方法
1.查看日志,設(shè)備上出現(xiàn)CPU占用率過高的日志信息。
2.查看日志,設(shè)備上還有大量的ARP報文超過CPCAR后丟棄的日志記錄。
3.采集端口TC(Topology Change)報文收***況。
隔幾秒執(zhí)行一次display stp tc-bpdu statistics命令,查看端口TC/TCN報文收發(fā)計數(shù),發(fā)現(xiàn)所有使能STP的端口,接收的TC報文計數(shù)均在增長。
解決方案
1.系統(tǒng)視圖下執(zhí)行stp tc-protection命令,打開TC保護(hù)的告警開關(guān)。
打開TC保護(hù)告警開關(guān)后,可以保證設(shè)備頻繁收到TC報文時,每2秒周期內(nèi)最多只處理1次表項(xiàng)刷新,從而減少M(fèi)AC、ARP表項(xiàng)頻繁刷新對設(shè)備造成的CPU處理任務(wù)過多。
同時設(shè)備會觸發(fā)MSTP_1.3.6.1.4.1.2011.5.25.42.4.2.15 hwMstpiTcGuarded和MSTP_1.3.6.1.4.1.2011.5.25.42.4.2.16 hwMstpProTcGuarded兩個告警。
2.系統(tǒng)視圖下執(zhí)行arp topology-change disable命令,去使能設(shè)備響應(yīng)TC報文的功能。
當(dāng)設(shè)備收到TC報文后,默認(rèn)會對ARP表項(xiàng)進(jìn)行老化。執(zhí)行該命令后,當(dāng)設(shè)備收到TC報文時,不對ARP表項(xiàng)進(jìn)行老化或刪除,避免網(wǎng)絡(luò)拓?fù)渥兓l繁時,設(shè)備重新的學(xué)習(xí)ARP表項(xiàng)造成網(wǎng)絡(luò)中ARP報文過多,導(dǎo)致設(shè)備的CPU占用率過高。
3.系統(tǒng)視圖下執(zhí)行mac-address update arp命令,使能MAC刷新ARP功能。
當(dāng)設(shè)備收到TC報文后,默認(rèn)會清除MAC表項(xiàng)。執(zhí)行該命令后,在MAC地址表項(xiàng)出接口刷新時,設(shè)備將直接刷新ARP表項(xiàng)的出接口,可以減少大量不必要的ARP表項(xiàng)刷新。
經(jīng)驗(yàn)總結(jié)
在處理CPU高的問題時,需要多關(guān)注CPCAR丟包情況。
在部署STP時,建議配置TC保護(hù)功能,并將所有連接終端的接口配置成邊緣端口,這樣可以避免某些端口的狀態(tài)變化引起整個STP網(wǎng)絡(luò)震蕩而重新收斂。
6.4 OSPF震蕩引起CPU占用率高
問題現(xiàn)象描述
如圖6-4所示,Switch_1、Switch_2、Switch_3和Switch_4配置了OSPF協(xié)議,發(fā)現(xiàn)Switch_1設(shè)備的CPU占用率高,ROUT任務(wù)占用率明顯高于其他任務(wù)并且產(chǎn)生路由震蕩。
圖6-4 故障組網(wǎng)圖
問題根因說明
網(wǎng)絡(luò)中IP地址沖突導(dǎo)致路由震蕩。
問題判斷方法
步驟 1在各交換機(jī)上每隔一秒執(zhí)行一次display ospf lsdb命令,查看每臺交換機(jī)的OSPF的LSDB鏈路狀態(tài)數(shù)據(jù)庫信息。
步驟 2根據(jù)各交換機(jī)的回顯信息,判斷故障點(diǎn)。
l如果同時出現(xiàn)以下情況,說明LSA老化異常。
−一臺交換機(jī)上發(fā)現(xiàn)網(wǎng)段LSA的老化時間(Age)為3600或者沒有這條LSA,且Sequence字段增加很快。
−其他交換機(jī)的相同網(wǎng)段LSA的Age不斷在3600和其他較小值之間切換,而且Sequence字段增加很快。
a.在各交換機(jī)上每隔一秒執(zhí)行一次display ospf routing,如果看到有路由振蕩且沒有鄰居振蕩,則可以判斷為IP地址沖突或Router ID沖突。結(jié)合display ospf lsdb的回顯信息,可以判斷為DR和非DR的IP地址沖突。
b.根據(jù)AdvRouter字段找到其中的一臺設(shè)備進(jìn)而定位出是哪個接口,與其沖突的設(shè)備只能夠通過網(wǎng)絡(luò)IP地址規(guī)劃找到,很難通過OSPF自身攜帶的信息找到?jīng)_突設(shè)備。
如本例中,可以首先判斷出沖突的IP地址為112.1.1.2,其中一臺沖突設(shè)備的Router ID為1.1.1.1,與其沖突的另外一臺設(shè)備(3.3.3.3)無法通過OSPF自身攜帶的信息找到。
l如果任一臺交換機(jī)上出現(xiàn)兩個LinkState ID為112.1.1.2的Network LSA,并且這兩個LSA的Age字段一直都很小,Sequence字段增加比較快。說明IP地址沖突發(fā)生在DR和BDR上。
----結(jié)束
解決方案
根據(jù)規(guī)劃修改沖突一方的IP地址。
經(jīng)驗(yàn)總結(jié)
l網(wǎng)絡(luò)中時常會出現(xiàn)由于接口IP地址配置沖突而導(dǎo)致的路由問題。出現(xiàn)此問題時,設(shè)備通常伴隨下面兩個現(xiàn)象:
−設(shè)備CPU占用率高,執(zhí)行命令display cpu-usage查看CPU使用狀態(tài)時,ROUT任務(wù)占用率明顯高于其他任務(wù)。
−發(fā)生路由振蕩。
l在OSPF網(wǎng)絡(luò)中,接口IP地址配置沖突時可能導(dǎo)致OSPF的LSA頻繁的老化和產(chǎn)生,進(jìn)而導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定,引起路由振蕩,消耗CPU處理資源。
因此,網(wǎng)絡(luò)中接口IP地址需要根據(jù)規(guī)劃配置,不要隨意改動網(wǎng)絡(luò)規(guī)劃參數(shù)。
6.5 交換機(jī)出現(xiàn)環(huán)路引起大量組播報文上送,導(dǎo)致CPU占用率高
問題現(xiàn)象描述
一臺框式交換機(jī)為下掛用戶提供HSI(High Seed Internet)業(yè)務(wù)、VOIP業(yè)務(wù)和IPTV業(yè)務(wù),其中HSI和VOIP均為PPPoE業(yè)務(wù),IPTV業(yè)務(wù)為IGMP Snooping二層組播業(yè)務(wù)。
管理用戶發(fā)現(xiàn)交換機(jī)入方向流量帶寬超過90%,同時主控板和接口板的CPU占用率達(dá)到80%以上。
問題根因說明
交換機(jī)下掛新增的接入設(shè)備未使能STP,從而出現(xiàn)環(huán)路,大量IGMP協(xié)議報文上送交換機(jī)CPU,引起CPU占用率過高,使EFM報文交互延時,從而出現(xiàn)交換機(jī)與其他交換機(jī)之間出現(xiàn)互聯(lián)端口EFM(Ethernet in the First Mile)閃斷,導(dǎo)致端口的MSTP重新計算,影響了正常業(yè)務(wù)。
問題判斷方法
在框式交換機(jī)上執(zhí)行以下操作:
1.執(zhí)行命令display cpu-usage命令,查看CPU占用率,發(fā)現(xiàn)主、備設(shè)備的主控板的CPU占用率達(dá)到87%,接口板CPU占用率達(dá)到93%。
2.查看設(shè)備輸出告警。
a.設(shè)備出現(xiàn)端口超過帶寬閾值的告警。
b.設(shè)備出現(xiàn)EFM震蕩,根橋丟失。
3.執(zhí)行命令display interface,發(fā)現(xiàn)端口處理組播報文過多。
4.執(zhí)行命令display cpu-defend statistics all,發(fā)現(xiàn)“Packet Type”為“igmp”的報文過多,說明大量IGMP組播協(xié)議報文上送交換機(jī)CPU。
5.在處理組播報文較多的端口進(jìn)行鏡像報文獲取,定位發(fā)現(xiàn)是某地址的組播報文上送。
解決方案
1.在交換機(jī)上配置基于黑名單的本機(jī)防攻擊策略,過濾IGMP協(xié)議報文,減少下面網(wǎng)絡(luò)出現(xiàn)環(huán)路后組播協(xié)議報文對CPU的沖擊。
排查現(xiàn)網(wǎng)網(wǎng)絡(luò)部署,對構(gòu)成環(huán)路的線路進(jìn)行破環(huán)處理






