亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.430618.com 】，免友鏈快審服務（50元/站），

網站：51998
待審：31
小程序：12
文章：1030137
會員：747

首頁 > 新聞資訊 > IT業界 >正文

5分鐘帶你深入了解Python爬蟲，你會發現爬蟲其實沒有那么難抓取

發布時間：2023-07-03 15:26:50 作者：網友整理

Python學習網絡爬蟲主要分3個大的版塊：抓取，分析，存儲。

另外，比較常用的爬蟲框架Scrapy，這里最后也詳細介紹一下。

當我們在瀏覽器中輸入一個url后回車，后臺會發生什么？比如說你輸入：http://www.baidu.com/，你就會看到百度首頁。

簡單來說這段過程發生了以下4個步驟：

查找域名對應的IP地址。
向IP對應的服務器發送請求。
服務器響應請求，發回網頁內容。
瀏覽器解析網頁內容。

網絡爬蟲要做的，簡單來說，就是實現瀏覽器的功能。通過指定url，直接返回給用戶所需要的數據，而不需要一步步人工去操縱瀏覽器獲取。

抓取

這一步，你要明確要得到的內容是什么？是html源碼，還是Json格式的字符串等。

最基本的抓取

抓取大多數情況屬于get請求，即直接從對方服務器上獲取數據。

首先，Python中自帶urllib及urllib2這兩個模塊，基本上能滿足一般的頁面抓取。另外，requests也是非常有用的包，與此類似的，還有httplib2等等。

此外，對于帶有查詢字段的url，get請求一般會將來請求的數據附在url之后，以?分割url和傳輸數據，多個參數用&連接。

對于登陸情況的處理

1、使用表單登陸

這種情況屬于post請求，即先向服務器發送表單數據，服務器再將返回的cookie存入本地。

2、使用cookie登陸

使用cookie登陸，服務器會認為你是一個已登陸的用戶，所以就會返回給你一個已登陸的內容。因此，需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。

若存在驗證碼，此時采用response = requests_session.post(url=url_login, data=data)是不行的，做法應該如下：

對于反爬蟲機制的處理

1、使用代理

適用情況：限制IP地址情況，也可解決由于“頻繁點擊”而需要輸入驗證碼登陸的情況。

這種情況最好的辦法就是維護一個代理IP池，網上有很多免費的代理IP，良莠不齊，可以通過篩選找到能用的。對于“頻繁點擊”的情況，我們還可以通過限制爬蟲訪問網站的頻率來避免被網站禁掉。

2、時間設置

適用情況：限制頻率情況。

Requests，Urllib2都可以使用time庫的sleep()函數：

import time
time.sleep(1)

3、偽裝成瀏覽器，或者反“反盜鏈”

有些網站會檢查你是不是真的瀏覽器訪問，還是機器自動訪問的。這種情況，加上User-Agent，表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer信息還會檢查你的Referer是否合法，一般再加上Referer。

對于斷線重連

不多說

或者

這樣我們就可以使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。

多進程抓取

這里針對華爾街見聞進行并行抓取的實驗對比：Python多進程抓取與 JAVA單線程和多線程抓取。

對于Ajax請求的處理

對于“加載更多”情況，使用Ajax來傳輸很多數據。

它的工作原理是：從網頁的url加載網頁的源代碼之后，會在瀏覽器里執行JavaScript程序。這些程序會加載更多的內容，“填充”到網頁里。這就是為什么如果你直接去爬網頁本身的url，你會找不到頁面的實際內容。

這里，若使用google Chrome分析”請求“對應的鏈接(方法：右鍵→審查元素→Network→清空，點擊”加載更多“，出現對應的GET鏈接尋找Type為text/html的，點擊，查看get參數或者復制Request URL)，循環過程。

如果“請求”之前有頁面，依據上一步的網址進行分析推導第1頁。以此類推，抓取抓Ajax地址的數據。
對返回的json格式數據(str)進行正則匹配。json格式數據中，需從'\uxxxx'形式的unicode_escape編碼轉換成u'\uxxxx'的unicode編碼。

自動化測試工具Selenium

Selenium是一款自動化測試工具。它能實現操縱瀏覽器，包括字符填充、鼠標點擊、獲取元素、頁面切換等一系列操作。總之，凡是瀏覽器能做的事，Selenium都能夠做到。

這里列出在給定城市列表后，使用selenium來動態抓取去哪兒網的票價信息的代碼。

驗證碼識別

對于網站有驗證碼的情況，我們有三種辦法：

使用代理，更新IP。
使用cookie登陸。
驗證碼識別。

使用代理和使用cookie登陸之前已經講過，下面講一下驗證碼識別。

可以利用開源的Tesseract-OCR系統進行驗證碼圖片的下載及識別，將識別的字符傳到爬蟲系統進行模擬登陸。當然也可以將驗證碼圖片上傳到打碼平臺上進行識別。如果不成功，可以再次更新驗證碼識別，直到成功為止。

爬取有兩個需要注意的問題：

如何監控一系列網站的更新情況，也就是說，如何進行增量式爬取？
對于海量數據，如何實現分布式爬取？

分析

抓取之后就是對抓取的內容進行分析，你需要什么內容，就從中提煉出相關的內容來。

常見的分析工具有正則表達式，BeautifulSoup，lxml等等。

存儲

分析出我們需要的內容之后，接下來就是存儲了。

我們可以選擇存入文本文件，也可以選擇存入MySQL或MongoDB數據庫等。

存儲有兩個需要注意的問題：

如何進行網頁去重？
內容以什么形式存儲？

Scrapy

Scrapy是一個基于Twisted的開源的Python爬蟲框架，在工業中應用非常廣泛。

相關內容可以參考基于Scrapy網絡爬蟲的搭建，同時給出這篇文章介紹的微信搜索爬取的項目代碼，給大家作為學習參考。

Robots協議

好的網絡爬蟲，首先需要遵守Robots協議。Robots協議（也稱為爬蟲協議、機器人協議等）的全稱是“網絡爬蟲排除標準”（Robots Exclusion Protocol），網站通過Robots協議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。

在網站根目錄下放一個robots.txt文本文件（如 https://www.taobao.com/robots.txt ），里面可以指定不同的網絡爬蟲能訪問的頁面和禁止訪問的頁面，指定的頁面由正則表達式表示。網絡爬蟲在采集這個網站之前，首先獲取到這個robots.txt文本文件，然后解析到其中的規則，然后根據規則來采集網站的數據。

1、Robots協議規則