此教程需要有一定的html基礎,了解HTML結構和標簽即可,
先寫一個簡單的 HTML
通過編寫和修改 HTML,可以更好地理解 HTML。首先打開一個記事本,然后輸入下面的內容:
<html>
<head>
<title> Python 爬蟲入門</title>
</head>
<body>
<div>
<p>Python 3爬蟲與數據清洗入門</p>
</div>
<div>
<ul>
<li><a href="http://c.biancheng.net">爬蟲</a></li>
<li>數據清洗</li>
</ul>
</div>
</body>
輸入代碼后,保存記事本,然后修改文件名和后綴名為"HTML.html";
Version:1.0 StartHTML:000000200 EndHTML:000028810 StartFragment:000000664 EndFragment:000028766 StartSelection:000000668 EndSelection:000028738 SourceURL:http://c.biancheng.net/view/2011.html
使用 requests 庫請求網站
安裝 requests 庫
首先在 PyCharm 中安裝 requests 庫,為此打開 PyCharm,單擊“File”(文件)菜單,選擇“Setting for New Projects...”命令,如圖 1 所示。
圖1
選擇“Project Interpreter”(項目編譯器)命令,確認當前選擇的編譯器,然后單擊右上角的加號,如圖 2所示。
圖2
在搜索框輸入:requests(注意,一定要輸入完整,不然容易出錯),然后單擊左下角的“Install Package”(安裝庫)按鈕。如圖 3 所示:
圖3
安裝完成后,會在 Install Package 上顯示“Package‘requests’ installed successfully”(庫的請求已成功安裝),如圖 4 所示;如果安裝不成功將會顯示提示信息。
圖4
安裝成功
爬蟲的基本原理
網頁請求的過程分為兩個環節:
- Request (請求):每一個展示在用戶面前的網頁都必須經過這一步,也就是向服務器發送訪問請求。
- Response(響應):服務器在接收到用戶的請求后,會驗證請求的有效性,然后向用戶(客戶端)發送響應的內容,客戶端接收服務器響應的內容,將內容展示出來,就是我們所熟悉的網頁請求,如圖 5 所示。
圖5
Response相應
網頁請求的方式也分為兩種:
- GET:最常見的方式,一般用于獲取或者查詢資源信息,也是大多數網站使用的方式,響應速度快。
- POST:相比 GET 方式,多了以表單形式上傳參數的功能,因此除查詢信息外,還可以修改信息。
所以,在寫爬蟲前要先確定向誰發送請求,用什么方式發送。
使用 GET 方式抓取數據
復制任意一條首頁首條新聞的標題,在源碼頁面按【Ctrl+F】組合鍵調出搜索框,將標題粘貼在搜索框中,然后按【Enter】鍵。
標題可以在源碼中搜索到,請求對象是地址,請求方式是GET(所有在源碼中的數據請求方式都是GET),如圖 6 所示。
圖6
確定好請求對象和方式后,在 PyCharm 中輸入以下代碼:
import requests #導入requests包url = 'http://www.cntour.cn/'strhtml = requests.get(url) #Get方式獲取網頁數據print(strhtml.text)
import requests #導入requests包
url = 'http://www.cntour.cn/'
strhtml = requests.get(url) #Get方式獲取網頁數據
print(strhtml.text)
運行結果如圖 7所示:
圖7
運行結果效果圖
加載庫使用的語句是 import+庫的名字。在上述過程中,加載 requests 庫的語句是:import requests。
用 GET 方式獲取數據需要調用 requests 庫中的 get 方法,使用方法是在 requests 后輸入英文點號,如下所示:
requests.get
將獲取到的數據存到 strhtml 變量中,代碼如下:
strhtml = request.get(url)
這個時候 strhtml 是一個 URL 對象,它代表整個網頁,但此時只需要網頁中的源碼,下面的語句表示網頁源碼:
strhtml.text
使用 POST 方式抓取數據
首先輸入有道翻譯的網址:http://fanyi.youdao.com/,進入有道翻譯頁面。
按快捷鍵 F12,進入開發者模式,單擊 Network,此時內容為空,如圖 8 所示:
圖8
在有道翻譯中輸入“我愛中國”,單擊“翻譯”按鈕,如圖 9 所示:
圖9
在開發者模式中,依次單擊“Network”按鈕和“XHR”按鈕,找到翻譯數據,如圖 10 所示:
圖10
單擊 Headers,發現請求數據的方式為 POST。如圖 11 所示:
圖11
找到數據所在之處并且明確請求方式之后,接下來開始撰寫爬蟲。
首先,將 Headers 中的 URL 復制出來,并賦值給 url,代碼如下:
url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
POST 的請求獲取數據的方式不同于 GET,POST 請求數據必須構建請求頭才可以。
Form Data 中的請求參數如圖所示:
圖12
將其復制并構建一個新字典:
From_data={'i':'我愛中國','from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
接下來使用 requests.post 方法請求表單數據,代碼如下:
import requests #導入requests包response = requests.post(url,data=payload)
將字符串格式的數據轉換成 JSON 格式數據,并根據數據結構,提取數據,并將翻譯結果打印出來,代碼如下:
import jsoncontent = json.loads(response.text)print(content['translateResult'][0][0]['tgt'])
import json
content = json.loads(response.text)
print(content['translateResult'][0][0]['tgt'])
使用 requests.post 方法抓取有道翻譯結果的完整代碼如下:
import requests #導入requests包import jsondef get_translate_date(word=None): url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule' From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'} #請求表單數據 response = requests.post(url,data=From_data) #將Json格式字符串轉字典 content = json.loads(response.text) print(content) #打印翻譯后的數據 #print(content['translateResult'][0][0]['tgt'])if __name__=='__main__': get_translate_date('我愛中國')
import requests #導入requests包
import json
def get_translate_date(word=None):
url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
#請求表單數據
response = requests.post(url,data=From_data)
#將Json格式字符串轉字典
content = json.loads(response.text)
print(content)
#打印翻譯后的數據
#print(content['translateResult'][0][0]['tgt'])
if __name__=='__main__':
get_translate_date('我愛中國')
使用 Beautiful Soup 解析網頁
通過 requests 庫已經可以抓到網頁源碼,接下來要從源碼中找到并提取數據。Beautiful Soup 是 python 的一個庫,其最主要的功能是從網頁中抓取數據。Beautiful Soup 目前已經被移植到 bs4 庫中,也就是說在導入 Beautiful Soup 時需要先安裝 bs4 庫。
安裝 bs4 庫的方式如圖 13 所示:
圖13
安裝好 bs4 庫以后,還需安裝 lxml 庫。如果我們不安裝 lxml 庫,就會使用 Python 默認的解析器。盡管 Beautiful Soup 既支持 Python 標準庫中的 HTML 解析器又支持一些第三方解析器,但是 lxml 庫具有功能更加強大、速度更快的特點,因此筆者推薦安裝 lxml 庫。
安裝 Python 第三方庫后,輸入下面的代碼,即可開啟 Beautiful Soup 之旅:
import requests #導入requests包from bs4 import BeautifulSoupurl='http://www.cntour.cn/'strhtml=requests.get(url)soup=BeautifulSoup(strhtml.text,'lxml')data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')print(data)
import requests #導入requests包
from bs4 import BeautifulSoup
url='http://www.cntour.cn/'
strhtml=requests.get(url)
soup=BeautifulSoup(strhtml.text,'lxml')
data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
print(data)
代碼運行結果如圖 14 所示。
圖14
Beautiful Soup 庫能夠輕松解析網頁信息,它被集成在 bs4 庫中,需要時可以從 bs4 庫中調用。其表達語句如下:
from bs4 import BeautifulSoup
首先,HTML 文檔將被轉換成 Unicode 編碼格式,然后 Beautiful Soup 選擇最合適的解析器來解析這段文檔,此處指定 lxml 解析器進行解析。解析后便將復雜的 HTML 文檔轉換成樹形結構,并且每個節點都是 Python 對象。這里將解析后的文檔存儲到新建的變量 soup 中,代碼如下:
soup=BeautifulSoup(strhtml.text,'lxml')
接下來用 select(選擇器)定位數據,定位數據時需要使用瀏覽器的開發者模式,將鼠標光標停留在對應的數據位置并右擊,然后在快捷菜單中選擇“檢查”命令,
隨后在瀏覽器右側會彈出開發者界面,右側高亮的代碼(參見圖 15(b))對應著左側高亮的數據文本(參見圖 15(a))。右擊右側高亮數據,在彈出的快捷菜單中選擇“Copy”?“Copy Selector”命令,便可以自動復制路徑。
圖15
圖 15 復制路徑將路徑粘貼在文檔中,代碼如下:
#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a
由于這條路徑是選中的第一條的路徑,而我們需要獲取所有的頭條新聞,因此將 li:nth-child(1)中冒號(包含冒號)后面的部分刪掉,代碼如下:
#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a
使用 soup.select 引用這個路徑,代碼如下:
data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a')
爬蟲攻防戰
爬蟲是模擬人的瀏覽訪問行為,進行數據的批量抓取。當抓取的數據量逐漸增大時,會給被訪問的服務器造成很大的壓力,甚至有可能崩潰。換句話就是說,服務器是不喜歡有人抓取自己的數據的。那么,網站方面就會針對這些爬蟲者,采取一些反爬策略。
服務器第一種識別爬蟲的方式就是通過檢查連接的 useragent 來識別到底是瀏覽器訪問,還是代碼訪問的。如果是代碼訪問的話,訪問量增大時,服務器會直接封掉來訪 IP。
那么應對這種初級的反爬機制,我們應該采取何種舉措?
還是以前面創建好的爬蟲為例。在進行訪問時,我們在開發者環境下不僅可以找到 URL、Form Data,還可以在 Request headers 中構造瀏覽器的請求頭,封裝自己。服務器識別瀏覽器訪問的方法就是判斷 keyword 是否為 Request headers 下的 User-Agent,如圖16所示。
因此,我們只需要構造這個請求頭的參數。創建請求頭部信息即可,代碼如下:
headers={'User-Agent':'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}response = request.get(url,headers=headers)
寫到這里,很多讀者會認為修改 User-Agent 很太簡單。確實很簡單,但是正常人1秒看一個圖,而個爬蟲1秒可以抓取好多張圖,比如 1 秒抓取上百張圖,那么服務器的壓力必然會增大。也就是說,如果在一個 IP 下批量訪問下載圖片,這個行為不符合正常人類的行為,肯定要被封 IP。
其原理也很簡單,就是統計每個IP的訪問頻率,該頻率超過閾值,就會返回一個驗證碼,如果真的是用戶訪問的話,用戶就會填寫,然后繼續訪問,如果是代碼訪問的話,就會被封 IP。
這個問題的解決方案有兩個,第一個就是常用的增設延時,每 3 秒鐘抓取一次,代碼如下:
import timetime.sleep(3)
但是,我們寫爬蟲的目的是為了高效批量抓取數據,這里設置 3 秒鐘抓取一次,效率未免太低。其實,還有一個更重要的解決辦法,那就是從本質上解決問題。
不管如何訪問,服務器的目的就是查出哪些為代碼訪問,然后封鎖 IP。解決辦法:為避免被封 IP,在數據采集時經常會使用代理。當然,requests 也有相應的 proxies 屬性。
首先,構建自己的代理 IP 池,將其以字典的形式賦值給 proxies,然后傳輸給 requests,代碼如下:
proxies={ "http":"http://10.10.1.10:3128", "https":"http://10.10.1.10:1080",}response = requests.get(url, proxies=proxies)






