什么是蜘蛛日志?
所謂的蜘蛛日志就是當搜索引擎向服務器發送請求時產生的訪問記錄文件。
每個網站都會有日志文件,但是很多時候,日志文件只有在網站出現問題的時候才會被查閱。在seo方面,日志文件是更容易被忽略的一塊,但是日志文件對于seo來說事非常重要的,我們可以在日志文件中獲取各種信息并發現網站存在的一些問題。
日志可以去哪里拿到?
日志文件一般是在wwwlog或者log這樣的文件夾里面可以下載。
分析主要用什么工具?
Python和loghao


在日志中可以查看哪些數據?
1.客戶端的IP地址
2.訪問時間
3.查看http狀態碼
4.請求方式等等
查看蜘蛛日志常用的一些命令
1.cat access.log | grep Baiduspider 命令來獲取百度蜘蛛的詳細爬取記錄
2.cat access.log | grep Baiduspider | wc -l 命令來統計百度蜘蛛的爬取次數
3.cat access.log | grep Baiduspider | grep "GET url" 來統計百度蜘蛛爬取某個頁面的記錄,命令中的url為頁面的相對地址。
grep指令用于查找內容包含指定的范本樣式的文件,如果發現某文件的內容符合所指定的范本樣式,預設grep指令會把含有范本樣式的那一列顯示出來。若不指定任何文件名稱,或是所給予的文件名為-,則grep指令會從標準輸入設備讀取數據。在分析日志的時候使用該工具,可以精確找出我們想看的日志內容,減少篩選時間,提升自身的工作效率。可以根據我們實際的場景,輸入關鍵詞來過濾日志。
蜘蛛日志有何作用?
1.通過對蜘蛛日志的分析,我們可以知道蜘蛛是否對站點進行了抓取,以及抓取是否成功,判斷抓取資源是否被浪費,也可以判斷我們的網站是否符合搜索引擎的抓取規范,找到抓取失敗的原因。
2.如果某個頁面被蜘蛛頻繁地抓取,我們可以對這個頁面做一些調整(比如布局),可以在頁面中添加一些鏈接。但有些頻繁地抓取是蜘蛛惡意的抓取,如果蜘蛛的訪問頻率過高,很可能會影響正常服務的運行,通過對蜘蛛日志的分析,可以發現惡意蜘蛛的足跡,然后可以限制蜘蛛的訪問頻率來保證服務器的穩定。
3.通過分析日志文件,我們可以發現蜘蛛的訪問路徑,有次我們可以優化我們的站點結構。
總結:利用日志我們可以挖掘到很多的信息,我們可以通過日志中的狀態碼來分析網站是否存在問題,如是否存在死鏈,頁面失效等錯誤。我們通過日志可以發現用戶對整站頁面的訪問次數、訪問時間以及訪問路徑,通過這些可以分析用戶的行為習慣。通過日志我們甚至可以防范惡意攻擊,因此,日志分析在做網站的過程中是必不可少的。