當(dāng)oracle rac出問題時(shí),很多人往往不知道從何查起,我根據(jù)自己在生產(chǎn)上排查的經(jīng)驗(yàn),說一下自己的排查思路。
一、查看系統(tǒng)時(shí)間是否同步
1、date
2、不同步的進(jìn)行同步,在兩個(gè)節(jié)點(diǎn)上執(zhí)行:
ntpdate -u 1.cn.pool.ntp.org
3、重啟有問題的節(jié)點(diǎn)
【時(shí)間不同步,斷電后數(shù)據(jù)庫啟動(dòng)時(shí)crs啟動(dòng)失敗導(dǎo)致asm啟動(dòng)失敗,最后數(shù)據(jù)庫啟動(dòng)失敗,asm日志信息報(bào)i/o錯(cuò)誤、找不到磁盤組等,可能會(huì)誤導(dǎo)問題的定位,其實(shí)只是時(shí)間不同步導(dǎo)致的問題,找到問題的根源,重啟即可】
二、查看防火墻是否關(guān)閉
ping 私有ip,vip,如果不通,先按下面步驟操作:
1、 查看防火墻狀態(tài):service iptables status
2、 如果防火墻是開的,就關(guān)閉:service iptables stop
3、 設(shè)置防火墻不要開機(jī)啟動(dòng):chkconfig iptables off
4、 檢查上一步是否設(shè)置成功:chkconfig --list iptables
關(guān)閉防火墻
重啟有問題節(jié)點(diǎn)數(shù)據(jù)庫即可。
三、查看歸檔日志空間情況
歸檔日志滿的話會(huì)導(dǎo)致數(shù)據(jù)庫異常,刪除過期日志可解決。
1、 進(jìn)入grid 用戶,asmcmd,輸入lsdg查看磁盤情況,刪除前和刪除后做個(gè)對(duì)比,就知道騰出多少空間了:
su – grid
asmcmd
lsdg
2、 用rman來刪除,不要手動(dòng)刪除
su – oracle
rman target /
crosscheck archivelog all;//檢查控制文件和實(shí)際物理文件的差別。
//刪除7天前日志
delete noprompt archivelog all completed before 'sysdate-7';
//將過期的日志刪除:
delete noprompt expired archivelog all;
delete noprompt obsolete【或者delete noprompt obsolete until time 'sysdate-7' ;
】
到這里,歸檔刪除完了
3、 查看騰出多少空間,如果騰出的空間還不夠,在ASM管理模式下手工刪除方法:【有雙實(shí)例的,每個(gè)實(shí)例都進(jìn)去檢查一下是否有過期歸檔日志】
ASMCMD>cd archivelog
ASMCMD>ls
(ASMCMD>rm -f +data/zgdb/archivelog/2013_10_31/t* 刪除2013年10月31日的歸檔日志)
ASMCMD>rm –rf ./2016* 刪除所有2016年文件夾及文件夾下的歸檔日志文件
手動(dòng)刪除日志
把歸檔日志物理文件刪除后,但是還沒完全把歸檔日志刪除干凈,需要檢驗(yàn)同步。登錄rman,執(zhí)行如命令:
su - oracle
rman target /
RMAN> crosscheck archivelog all;
RMAN>delete expired archivelog all;
【補(bǔ)充】
查詢每天的歸檔產(chǎn)生的情況:
SELECT TRUNC(FIRST_TIME) "TIME",SUM(BLOCK_SIZE * BLOCKS) / 1024 / 1024 / 1024 "SIZE(GB)"FROM V$ARCHIVED_LOG GROUP BY TRUNC(FIRST_TIME);
查詢每天的歸檔產(chǎn)生的情況
查詢最近7天每天歸檔產(chǎn)生情況,在上條sql中加過濾條件:
SELECT TRUNC(FIRST_TIME) "TIME",SUM(BLOCK_SIZE * BLOCKS) / 1024 / 1024 / 1024 "SIZE(GB)"FROM V$ARCHIVED_LOG GROUP BY TRUNC(FIRST_TIME) having TRUNC(FIRST_TIME) >= TRUNC(sysdate -7);
四、查看crs狀態(tài)及日志
1、使用系統(tǒng)命令查看相關(guān)進(jìn)程
ps –ef | grep d.bin
2、使用oracle命令查看集群狀態(tài)
進(jìn)入oracle 的bin目錄下:
cd /u01/App/11.2.0/grid/bin/
執(zhí)行:
./crsctl stat res -t
或者,進(jìn)入grid用戶,直接執(zhí)行crsctl stat res -t
3、在每個(gè)節(jié)點(diǎn)上檢查crs狀態(tài)
[grid@rac1 ~]$ crsctl check cluster
節(jié)點(diǎn)1
節(jié)點(diǎn)2
crsctl check crs //只檢查本節(jié)點(diǎn)
4、crs日志路徑
Grid相關(guān)日志:
/u01/app/11.2.0/grid/log/node1
5、啟動(dòng)某個(gè)節(jié)點(diǎn)crs【使用root用戶執(zhí)行】
./crsctl start cluster -n db1 //-n后是節(jié)點(diǎn)名
五、查看asm狀態(tài)及日志
1、檢查 ASM狀態(tài)及配置
[oracle@rac1 ~]$ srvctl status asm
ASM is running on rac1,rac2
2、asm日志路徑
Asm相關(guān)日志路徑:
/u01/app/grid/diag/asm/+asm/+ASM1/trace
重要的日志文件:alert_+ASM1.log
3、查詢asm配置
srvctl config asm -a
4、啟動(dòng)asm實(shí)例【最好在grid用戶下執(zhí)行】
srvctl start asm -n db1 // -n后是節(jié)點(diǎn)名字
還有其他檢查,像檢查節(jié)點(diǎn)應(yīng)用狀態(tài)及配置、查看數(shù)據(jù)庫配置、檢查scan ip、檢查 VIP的狀態(tài)及配置等,篇幅原因就先不再介紹了。可以關(guān)注我,如果以后遇到oracle rac故障需要排查,我們可以進(jìn)行溝通交流。






