網(wǎng)站建立早期,頁里數(shù)目有限,團隊人數(shù)有限,網(wǎng)站各種頁里元素變更沒有年夜。但到了網(wǎng)站建立中期,網(wǎng)站需供圓需供變多,網(wǎng)站變動比擬于之前愈加頻仍,XX部分提的XX需供能夠會影響SEO流量,若已實時發(fā)明,工夫推少,能夠形成較為嚴峻,以至不成順轉的結果。那個鍋,誰去背呢?
那面能夠經(jīng)由過程完美需供上線流程去處理一部門,好比:任何觸及頁里變更的需供(新刪頁里 & 已有頁里元素變動)正在提交RD前,需供評審階段均需求SEO部分參與,確認該需供對SEO渠講的用戶推新無影響后,正在正式提交RD。
為難的是,有相稱比例的公司,SEO果為汗青結果各種不成控,大概 SEO并不是用戶推新的次要渠講,SEO較易弄定正在PM戰(zhàn)RD里前話語權的成績,他們能夠沒有怎樣care,老遺忘評審的時分叫上SEO一同游玩。那種狀況需求具有八卦特性的SEO,出事跟RD、PM扯扯皮,問問近來上了甚么新需供…
可是,即使正在流程上可以弄定,也是會呈現(xiàn)頁里元素的竄改,卻已實時告訴到SEO的狀況,好比新進職的產(chǎn)物提需供,沒有曉得有那個流程。
別的,因為SEO部分人事情動,呈現(xiàn)老員工離任、新員工進職的狀況。新進職的SEO不克不及快速理解網(wǎng)站汗青布景,老員工取新員工交代,許多細節(jié)會漏掉,招致新進職的SEO,往后會踩到本可制止的一些坑。
一些下層SEO針對爬蟲日記,也出有充足的闡發(fā)才能,大概需求天天腳動拿硬件或shell平分析一次數(shù)據(jù),然后正在施行的SEO行動,操縱龐大且服從低下。
為處理以上兩面成績,需求有一套“實時行益機造”,用于實時發(fā)明潛伏風險,并進步一樣平常SEO服從。
“實時行益機造”,需求野生設定N個會影響SEO的特性,法式24小時監(jiān)控那些特性,如呈現(xiàn)契合特性的元素,則實時告訴SEO,并提醒響應倡議,法式每次查抄皆做一次數(shù)據(jù)備份。并按照網(wǎng)站開展狀況,不竭增加、刪除監(jiān)控特性。
我把“實時行益機造”分為兩部門:“爬蟲日記監(jiān)控”戰(zhàn)“頁里特性監(jiān)控”
爬蟲日記監(jiān)控

上圖為“爬蟲日記監(jiān)控模塊”的邏輯,分“查抄字段”、“觸收前提”、“施行行動”三個步調(diào)。以下是幾面能夠需求闡明的:
爬蟲IP的口角名單
按照UA為百度spider的爬蟲,檢測IP能否為實在的Baiduspider,若為假spider,則參加烏名單,若為實spider,則參加百度spider的黑名單。
其他支流搜刮引擎,則將呈現(xiàn)的ip通通減到對應的黑名單,前期按照ip段停止解除。
搜集黑名單IP,可做為往后SEO之用,好比某個SEO的小需供產(chǎn)物沒有讓上,SEO退而供其次,只針對黑名單的IP顯現(xiàn)該元素,對一般用戶會見沒有顯現(xiàn)等。
提早收拾整頓站內(nèi)已知頁里
提早統(tǒng)計站內(nèi)一切URL范例,并收拾整頓對應URL范例的正則表達式,那些正則均是統(tǒng)計站內(nèi)已知頁里的爬蟲狀況。
果為年夜部門SEO包羅產(chǎn)物司理,能夠皆沒有肅清站內(nèi)到底有幾套URL,以是也有須要經(jīng)由過程日記,找到已知的URL,并停止響應的SEO行動。
返回內(nèi)容巨細字段統(tǒng)計
為啥要統(tǒng)計“$body_bytes_sent(收給去訪者的文件巨細)”那個字段呢?
果為之前閱歷過幾回相似狀況:某類頁里流量逐削減,經(jīng)排查爬蟲日記,360Spider會見部門該頁里,返回的文件巨細為54k,其實不是該頁里html文件的一般巨細,訊問手藝,發(fā)明沒有暫上線的新反爬蟲戰(zhàn)略,已把360Spider參加黑名單,招致觸收反爬蟲戰(zhàn)略,返回空缺頁里。
頁里特性監(jiān)控

針對模板監(jiān)控頁里,是果為網(wǎng)站能夠存正在一套URL有N套模板的狀況,其他需供圓能夠只變動了此中一個模板。