久久国产亚洲,天天操天天操天天,亚洲成人免费在线观看

日志文件分析應(yīng)該成為每個seo專業(yè)人士工具的一部分，但是大多數(shù)SEO從未進行過。這意味著大多數(shù)SEO都缺少常規(guī)爬網(wǎng)工具無法產(chǎn)生的獨特而寶貴的見解。

讓我們揭開Log File Analysis的神秘面紗，讓它不再那么令人生畏。如果您對日志文件的美好世界以及它們可以帶給您的站點審核感興趣，則本指南絕對適合您。

什么是日志文件？

日志文件是包含有關(guān)誰和什么向您的網(wǎng)站服務(wù)器發(fā)出請求的詳細日志的文件。每次漫游器向您的站點發(fā)出請求時，數(shù)據(jù)（例如時間，日期IP地址，用戶代理等）都會存儲在此日志中。這些寶貴的數(shù)據(jù)可讓任何SEO找出googlebot和其他抓取工具在您的網(wǎng)站上正在做什么。與常規(guī)的爬網(wǎng)（例如，Screaming Frog SEO Spider）不同，這是真實的數(shù)據(jù)，而不是對網(wǎng)站爬網(wǎng)方式的估計。它是網(wǎng)站爬網(wǎng)的準確概述。

擁有這些準確的數(shù)據(jù)可以幫助您確定爬網(wǎng)預(yù)算浪費的領(lǐng)域，輕松查找訪問錯誤，了解您的SEO努力如何影響爬網(wǎng)等等。最好的部分是，在大多數(shù)情況下，您可以使用簡單的電子表格軟件來完成此操作。

在本指南中，我們將重點放在Excel上以執(zhí)行日志文件分析，但是我還將討論其他工具，例如Screaming Frog鮮為人知的Log File Analyzer，它可以通過幫助您管理而使工作變得更加輕松和快捷。更大的數(shù)據(jù)集。

注意：擁有Excel以外的任何其他軟件都無需遵循本指南，也可以避免使用Log Files。

如何打開日志文件

將.log重命名為.csv

當您獲得擴展名為.log的日志文件時，實際上就像重命名文件擴展名為.csv并在電子表格軟件中打開文件一樣容易。如果要編輯擴展名，請記住將操作系統(tǒng)設(shè)置為顯示文件擴展名。

如何打開拆分日志文件

日志文件可以是一個大日志，也可以是多個文件，具體取決于站點的服務(wù)器配置。某些服務(wù)器將使用服務(wù)器負載平衡在服務(wù)器池或服務(wù)器場中分配流量，從而導(dǎo)致日志文件被拆分。好消息是它真的很容易組合，您可以使用以下三種方法之一來組合它們，然后按常規(guī)打開它們：

在windows中使用命令行，方法是Shift +右鍵單擊包含日志文件的文件夾，然后選擇“從此處運行Powershell”

然后運行以下命令：

復(fù)制* .log mylogfiles.csv

現(xiàn)在，您可以打開mylogfile.csv，它將包含您的所有日志數(shù)據(jù)。
或者，如果您是mac用戶，請首先使用cd命令轉(zhuǎn)到日志文件的目錄：

cd文件/ MyLogFiles /

然后，使用cat或concatenate命令合并文件：

貓* .log> mylogfiles.csv

2）使用免費工具“ 日志文件合并”，合并所有日志文件，然后將文件擴展名編輯為.csv并正常打開。

3）使用Screaming Frog日志文件分析器打開日志文件，就像拖放日志文件一樣簡單：

分割字符串

（請注意：如果您使用Screaming Frog的日志文件分析器，則不需要此步驟）

打開日志文件后，您需要將每個單元格中的繁瑣文本分成幾列，以便以后進行排序。

Excel的“文本到列”功能在這里派上用場，就像選擇所有填充的單元格（Ctrl / Cmd + A）并轉(zhuǎn)到Excel>“數(shù)據(jù)”>“文本到列”并選擇“定界”選項一樣簡單，定界符是空格字符。

分離出來之后，您可能還想按時間和日期進行排序-您可以在“時間和日期”戳記列中進行排序，通常使用“：”冒號分隔符來分隔數(shù)據(jù)。

您的文件應(yīng)類似于以下文件：

如前所述，請不要擔心您的日志文件看起來并不完全相同-不同的日志文件具有不同的格式。只要那里有基本數(shù)據(jù)（時間和日期，URL，用戶代理等），您就可以使用它！

了解日志文件

現(xiàn)在您的日志文件已準備好進行分析，我們可以深入了解并開始了解我們的數(shù)據(jù)。日志文件可以采用多種格式處理多個不同的數(shù)據(jù)點，但是它們通常包括以下內(nèi)容：

服務(wù)器IP
日期和時間
服務(wù)器請求方法（例如GET / POST）
要求的網(wǎng)址
HTTP狀態(tài)碼
用戶代理

如果您對具體細節(jié)感興趣，可以在下面找到有關(guān)常見格式的更多詳細信息：

WC3
Apache和Nginx
Amazon Elastic Load Balancing
HA代理
JSON格式

如何快速揭示抓取預(yù)算浪費

快速回顧一下，抓取預(yù)算是指搜索引擎在您每次訪問網(wǎng)站時抓取的頁面數(shù)。許多因素會影響爬網(wǎng)預(yù)算，包括鏈接資產(chǎn)或域權(quán)限，站點速度等。借助日志文件分析，我們將能夠查看您的網(wǎng)站具有哪種爬網(wǎng)預(yù)算，以及在哪里會導(dǎo)致浪費爬網(wǎng)預(yù)算的問題。

理想情況下，我們希望為爬蟲提供最有效的爬蟲體驗。爬網(wǎng)不應(yīng)浪費在低價值的頁面和URL上，優(yōu)先級頁面（例如產(chǎn)品頁面）的索引編制和爬網(wǎng)速度也不應(yīng)慢，因為網(wǎng)站的自重頁面太多。游戲的名稱是抓取預(yù)算節(jié)省，并且具有良好的抓取預(yù)算轉(zhuǎn)換，可以帶來更好的自然搜索性能。

查看按用戶代理搜尋的URL

了解網(wǎng)站的URL進行爬網(wǎng)的頻率可以快速揭示搜索引擎將其時間投入爬網(wǎng)的位置。

如果您有興趣查看單個用戶代理的行為，這很容易，因為可以過濾掉excel中的相關(guān)列。在這種情況下，使用WC3格式的日志文件，我通過Googlebot過濾了cs（User-Agent）列：

然后過濾URI列，以顯示Googlebot抓取該示例網(wǎng)站首頁的次數(shù)：

這是通過URI詞干查看單個用戶代理是否存在任何問題區(qū)域的快速方法。您可以通過查看URI stem列的過濾選項來更進一步，在本例中為cs-uri-stem：

從這個基本菜單中，我們可以看到正在爬網(wǎng)的URL（包括資源文件）以快速識別任何問題URL（例如，不應(yīng)被爬網(wǎng)的參數(shù)化URL）。

您還可以使用數(shù)據(jù)透視表進行更廣泛的分析。要獲取特定用戶代理對特定URL進行爬網(wǎng)的次數(shù)，請選擇整個表（Ctrl / cmd + A），轉(zhuǎn)到“插入”>“數(shù)據(jù)透視表”，然后使用以下選項：

我們要做的只是通過用戶代理進行過濾，將URL干作為行，然后計算每個用戶代理發(fā)生的次數(shù)。

通過示例日志文件，我得到了以下內(nèi)容：

然后，要按特定的User-Agent進行過濾，我點擊了包含“（全部）”的單元格上的下拉圖標，然后選擇了Googlebot：

了解哪些不同的漫游器正在爬網(wǎng)，移動漫游器如何以與桌面不同的方式爬網(wǎng)以及發(fā)生爬網(wǎng)最多的位置，可以幫助您立即了解哪些地方存在爬網(wǎng)預(yù)算浪費以及需要改進的站點區(qū)域。

查找低價值添加網(wǎng)址

爬網(wǎng)預(yù)算不應(yīng)浪費在低附加值URL上，這些URL通常是由會話ID，無限的爬網(wǎng)空間和多面導(dǎo)航引起的。

為此，請返回您的日志文件，并根據(jù)URL列中包含“？”或問號符號的URL（包含URL詞干）進行過濾。要在Excel中執(zhí)行此操作，請記住使用“?？”或代字號問號，如下所示：

如自動過濾器窗口中所述，單個“？”或問號表示任何單個字符，因此添加代字號就像一個轉(zhuǎn)義字符，并確保過濾出問號符號本身。

那不容易嗎？

查找重復(fù)的URL

重復(fù)的URL可能會浪費抓取預(yù)算并造成很大的SEO問題，但是找到它們可能會很麻煩。有時，URL可能會有一些細微的變化（例如URL的斜杠與非斜杠版本）。

最終，查找重復(fù)URL的最佳方法也是最不有趣的方法-您必須按字母順序?qū)φ军cURL進行排序，然后手動對其進行關(guān)注。

查找相同URL的尾隨和非尾隨斜杠版本的一種方法是，在另一列中使用SUBSTITUTE函數(shù)，并使用該函數(shù)刪除所有正斜杠：

= SUBSTITUTE（C2，“ /”，“”）

在我的情況下，目標細胞為C2，因為莖數(shù)據(jù)位于第三列。

然后，使用條件格式識別重復(fù)的值并突出顯示它們。

但是，不幸的是，眼球是目前最好的方法。

查看子目錄的爬網(wǎng)頻率

找出哪些子目錄最常被爬網(wǎng)是揭示爬網(wǎng)預(yù)算浪費的另一種快速方法。盡管要牢記，只是因為客戶的博客從未獲得過一個反向鏈接，并且每年僅從企業(yè)主的祖母那里獲得3次瀏覽，但這并不意味著您應(yīng)該認為它浪費了預(yù)算，整個網(wǎng)站的內(nèi)部鏈接結(jié)構(gòu)應(yīng)該始終保持良好狀態(tài)從客戶的角度來看，可能很可能需要該內(nèi)容。

要按子目錄級別查找爬網(wǎng)頻率，您需要主要關(guān)注它，但是以下公式可以幫助您：

= IF（RIGHT（C2,1）=“ /”，SUM（LEN（C2）-LEN（SUBSTITUTE（C2，“ /”，“”）））/ LEN（“ /”）+ SUM（LEN（C2） -LEN（SUBSTITUTE（C2，“ =”，“”）））/ LEN（“ =”）-2，SUM（LEN（C2）-LEN（SUBSTITUTE（C2，“ /”，“”）））/ LEN （“ /”）+ SUM（LEN（C2）-LEN（SUBSTITUTE（C2，“ =”，“”））））/ LEN（“ =”）-1）

上面的公式看起來有點笨拙，但是它所做的只是檢查是否有斜杠，并根據(jù)答案計算斜杠的數(shù)目并從該數(shù)目中減去2或1。如果使用RIGHT公式從URL列表中刪除所有結(jié)尾的斜杠，則可以縮短此公式-但是誰有時間。剩下的就是子目錄計數(shù)（從第一個子目錄從0開始）。

將C2替換為第一個URL詞干/ URL單元格，然后將公式復(fù)制到整個列表中以使其起作用。

確保使用適當?shù)钠鹗紗卧裉鎿Q所有C2，然后按最小到最大的順序?qū)π碌淖幽夸浻嫈?shù)列進行排序，以按邏輯順序獲得良好的文件夾列表，或者輕松地按子目錄級別進行過濾。例如，如以下屏幕截圖所示：

上圖是按級別排序的子目錄。

上圖是按深度排序的子目錄。

如果您不處理大量URL，則可以簡單地按字母順序?qū)RL進行排序，但是您將無法獲得子目錄計數(shù)過濾功能，這對于大型站點可能要快得多。

按內(nèi)容類型查看抓取頻率

找出要爬網(wǎng)的內(nèi)容，或者是否有任何內(nèi)容類型在限制爬網(wǎng)預(yù)算，這是發(fā)現(xiàn)爬網(wǎng)預(yù)算浪費的絕佳選擇。使用這種策略可以很容易地發(fā)現(xiàn)對不必要的或低優(yōu)先級的css和JS文件的頻繁爬網(wǎng)，或者如果您正在嘗試針對圖像搜索進行優(yōu)化，則會在圖像上進行爬網(wǎng)。

在Excel中，按內(nèi)容類型查看爬網(wǎng)頻率就像使用“結(jié)尾為”過濾選項按URL或URI莖進行過濾一樣容易。

快速提示：您還可以使用“不以...結(jié)尾”過濾器，并使用.html擴展名查看非HTML頁面文件的爬網(wǎng)方式-始終值得檢查，以防不必要的js或css文件浪費爬網(wǎng)預(yù)算，或者甚至圖像和圖像變體（看著您的wordPress/ target=_blank class=infotextkey>WordPress）。另外，請記住，如果您的站點具有尾隨和非尾隨的斜杠URL，則使用帶有過濾功能的“或”運算符將其考慮在內(nèi)。

監(jiān)視機器人：了解網(wǎng)站爬網(wǎng)行為

日志文件分析使我們能夠了解機器人的優(yōu)先級，從而了解它們的行為方式。不同的機器人在不同情況下的表現(xiàn)如何？有了這些知識，您不僅可以加深對SEO和爬網(wǎng)的理解，還可以使您在了解網(wǎng)站架構(gòu)的有效性方面取得巨大飛躍。

查看最多和最少爬行的URL

以前，通過查看用戶代理抓取的URL可以完善此策略，但是它甚至更快。

在Excel中，選擇表中的單元格，然后單擊“插入”>“數(shù)據(jù)透視表”，確保所選內(nèi)容包含必要的列（在這種情況下，URL或URI詞干以及用戶代理），然后單擊“確定”。

創(chuàng)建數(shù)據(jù)透視表后，將行設(shè)置為URL或URI詞干，并將總和設(shè)置為用戶代理。

在此處，您可以右鍵單擊“用戶代理”列，然后按爬網(wǎng)計數(shù)將URL從最大到最小排序：

現(xiàn)在，您將擁有一張不錯的桌子，可以根據(jù)它制作圖表或快速查看并查找任何有問題的區(qū)域：

在查看此數(shù)據(jù)時要問自己的一個問題是：您或客戶想要爬網(wǎng)的頁面嗎？多常？頻繁爬網(wǎng)并不一定意味著會有更好的結(jié)果，但這可能表明Google和其他內(nèi)容用戶代理將哪些內(nèi)容放在了優(yōu)先位置。

每天，每周或每月的抓取頻率

在Google更新或緊急情況下，檢查爬網(wǎng)活動以識別一段時間內(nèi)可見性下降的問題，可以通知您問題可能出在哪里。這就像選擇“日期”列，確保該列為“日期”格式類型，然后使用日期列上的日期過濾選項一樣簡單。如果您要分析整個星期，只需選擇具有可用過濾選項的相應(yīng)日期即可。

通過指令抓取頻率

了解Google遵循的是什么指令（例如，如果您在robots.txt中使用的是不允許甚至無索引的指令），對于任何SEO審核或廣告系列來說都是至關(guān)重要的。舉例來說，如果網(wǎng)站使用的導(dǎo)航URL多面，則您需要確保遵守這些URL。如果不是，則推薦更好的解決方案，例如頁面指令（如meta robots標簽）。

要按指令查看抓取頻率，您需要將抓取報告與日志文件分析結(jié)合起來。

（警告：我們將使用VLOOKUP，但實際上并沒有人們想象的那么復(fù)雜）

要獲取合并的數(shù)據(jù)，請執(zhí)行以下操作：

使用您喜歡的爬網(wǎng)軟件從您的站點進行爬網(wǎng)。我可能有偏見，但我是Screaming Frog SEO Spider的忠實擁護者，所以我將使用它。
如果您還使用蜘蛛，請按原樣執(zhí)行步驟，否則，請致電以獲取相同的結(jié)果。
從SEO Spider導(dǎo)出內(nèi)部HTML報告（“內(nèi)部標簽”>“過濾器：HTML”），然后打開“ internal_all.xlsx”文件。

在此處，您可以過濾“可索引性狀態(tài)”列，并刪除所有空白單元格。為此，請使用“不包含”過濾器，并將其保留為空白。您還可以添加“和”運算符，并通過使過濾器值等于“不包含”→“重定向”來過濾重定向的URL，如下所示：

這將顯示元機器人的規(guī)范化，無索引和規(guī)范化URL。

復(fù)制該新表（僅包含“地址”和“可索引性狀態(tài)”列），并將其粘貼到日志文件分析導(dǎo)出的另一張表中。
現(xiàn)在來看一些VLOOKUP魔術(shù)。首先，我們需要確保URI或URL列數(shù)據(jù)的格式與抓取數(shù)據(jù)的格式相同。
日志文件通常在URL中沒有根域或協(xié)議，因此我們需要使用新制作的工作表中的“查找和替換”來刪除URL的開頭，或者在日志文件分析表中添加新列將協(xié)議和根域附加到URI干。我更喜歡這種方法，因為這樣您就可以快速復(fù)制并粘貼遇到問題的URL并進行查看。但是，如果您有大量的日志文件，則使用“查找和替換”方法可能會大大減少CPU占用的資源。
要獲取完整的URL，請使用以下公式，但將URL字段更改為您要分析的任何站點（并確保協(xié)議也正確）。您還需要將D2更改為URL列
=“ https://www.example.com”＆D2的第一個單元格，將公式向下拖動到Log文件表的末尾，并獲得完整URL的漂亮列表：

現(xiàn)在，創(chuàng)建另一列，并將其稱為“可索引性狀態(tài)”。在第一個單元格中，使用類似于以下內(nèi)容的VLOOKUP：= VLOOKUP（E2，CrawlSheet！A $ 1：B $ 1128,2，F(xiàn)ALSE）。將E2替換為“完整URL”列的第一個單元格，然后將查找表添加到新的表中。檢索表。請記住要起訴美元符號，以使查詢表不會隨您而改變。將公式應(yīng)用于其他角色。然后，選擇正確的列（1將是索引表的第一列，因此數(shù)字2是我們后面的列）。使用FALSE范圍查找模式進行精確匹配。現(xiàn)在，您有了一個整潔的URL列表，它們的可索引性狀態(tài)與爬網(wǎng)數(shù)據(jù)匹配：

按深度和內(nèi)部鏈接抓取頻率

通過此分析，我們可以查看網(wǎng)站的體系結(jié)構(gòu)在爬網(wǎng)預(yù)算和爬網(wǎng)能力方面的表現(xiàn)。主要目的是查看URL是否比請求的數(shù)量多得多-如果存在，那么您就會遇到問題。僵尸程序不應(yīng)該“放棄”對整個站點的爬網(wǎng)，不要發(fā)現(xiàn)重要的內(nèi)容，也不應(yīng)該在不重要的內(nèi)容上浪費爬網(wǎng)預(yù)算。

提示：還值得在此分析中使用爬網(wǎng)可視化工具來查看網(wǎng)站的總體架構(gòu)，并查看哪里有“分支”或內(nèi)部鏈接不佳的頁面。

要獲取所有重要數(shù)據(jù)，請執(zhí)行以下操作：

使用首選的抓取工具抓取您的網(wǎng)站，并導(dǎo)出每個報告的點擊深度和內(nèi)部鏈接數(shù)以及每個URL。
就我而言，我使用的是Screaming Frog SEO Spider，將導(dǎo)出內(nèi)部報告：

使用VLOOKUP將您的網(wǎng)址與“抓取深度”列和“鏈接數(shù)”進行匹配，這將為您提供以下信息：
根據(jù)您要查看的數(shù)據(jù)類型，您可能希望僅過濾掉此時返回200響應(yīng)代碼的URL，或者在以后創(chuàng)建的數(shù)據(jù)透視表中將其設(shè)為可過濾的選項。如果要檢查電子商務(wù)網(wǎng)站，則可能只希望關(guān)注產(chǎn)品網(wǎng)址，或者如果要優(yōu)化圖像的爬網(wǎng)，則可以通過使用“內(nèi)容”過濾日志文件的URI列來按文件類型過濾-“類型”列以進行抓取導(dǎo)出，并選擇使用數(shù)據(jù)透視表進行過濾。與所有這些檢查一樣，您有很多選擇！

使用數(shù)據(jù)透視表，您現(xiàn)在可以使用以下選項按爬網(wǎng)深度（在這種情況下，通過特定的漫游器進行過濾）來分析爬網(wǎng)速率：

要獲得如下內(nèi)容：

比Search Console更好的數(shù)據(jù)？識別爬網(wǎng)問題

Search Console可能是每個SEO的首選，但它肯定有缺陷。歷史數(shù)據(jù)很難獲得，并且可以查看的行數(shù)有限制（在撰寫本文時為1000）。但是，借助日志文件分析，才是極限。通過以下檢查，我們將發(fā)現(xiàn)爬網(wǎng)和響應(yīng)錯誤，以對您的網(wǎng)站進行全面的運行狀況檢查。

發(fā)現(xiàn)抓取錯誤

一個顯而易見且快速的檢查是添加到您的軍械庫，您要做的就是過濾日志文件的狀態(tài)列（在我的情況下為W3C日志文件類型的“ sc-status”），以查找4xx和5xx錯誤：

查找不一致的服務(wù)器響應(yīng)

特定的URL隨時間變化的服務(wù)器響應(yīng)可能會有所不同，這可能是正常現(xiàn)象，例如修復(fù)了斷開的鏈接或出現(xiàn)嚴重的服務(wù)器問題的跡象（例如，網(wǎng)站訪問量過大導(dǎo)致更多內(nèi)部問題）。服務(wù)器錯誤，并正在影響您網(wǎng)站的可抓取性。

分析服務(wù)器響應(yīng)就像通過URL和日期進行過濾一樣容易：

另外，如果您想快速查看URL在響應(yīng)代碼中的變化，則可以使用數(shù)據(jù)透視表，其中將行設(shè)置為URL，將列設(shè)置為響應(yīng)代碼，并計算URL產(chǎn)生響應(yīng)的次數(shù)碼。要實現(xiàn)此設(shè)置，請使用以下設(shè)置創(chuàng)建數(shù)據(jù)透視表：

這將產(chǎn)生以下結(jié)果：

如上表所示，您可以清楚地看到“ /inconcistent.html”（紅色框中突出顯示）具有不同的響應(yīng)代碼。

按子目錄查看錯誤

要查找哪些子目錄產(chǎn)生最多的問題，我們只需要執(zhí)行一些簡單的URL過濾即可。過濾掉URI列（在我的情況下為“ cs-uri-stem”），并使用“包含”過濾選項選擇一個特定的子目錄以及該子目錄中的任何頁面（使用通配符*）：

對我來說，我簽出了blog子目錄，這產(chǎn)生了以下內(nèi)容：

按用戶代理查看錯誤

出于各種原因，找出哪些機器人在掙扎中可能很有用，包括查看移動和桌面機器人在網(wǎng)站性能方面的差異，或者哪些搜索引擎最能夠抓取您的更多網(wǎng)站。

您可能想查看哪些特定的URL導(dǎo)致特定的漫游器出現(xiàn)問題。最簡單的方法是使用數(shù)據(jù)透視表，該數(shù)據(jù)透視表可以過濾每個URI出現(xiàn)特定響應(yīng)代碼的次數(shù)。為此，請使用以下設(shè)置制作數(shù)據(jù)透視表：

在這里，您可以按所選的漫游器和響應(yīng)代碼類型進行過濾，如下圖所示，其中我正在過濾Googlebot桌面以找出404錯誤：

另外，您還可以使用數(shù)據(jù)透視表通過創(chuàng)建一個數(shù)據(jù)透視表來查看特定漫游器在整體上產(chǎn)生不同響應(yīng)代碼的次數(shù)，該數(shù)據(jù)透視表按漫游器進行過濾，按URI發(fā)生計數(shù)并將響應(yīng)代碼用作行。為此，請使用以下設(shè)置：