此教程需要有一定的html基礎，了解HTML結構和標簽即可，

先寫一個簡單的 HTML

通過編寫和修改 HTML，可以更好地理解 HTML。首先打開一個記事本，然后輸入下面的內容：

<html>

<head>

<title> Python 爬蟲入門</title>

</head>

<body>

<div>

<p>Python 3爬蟲與數據清洗入門</p>

</div>

<div>

<ul>

</ul>

</div>

</body>

輸入代碼后，保存記事本，然后修改文件名和后綴名為"HTML.html"；
Version:1.0 StartHTML:000000200 EndHTML:000028810 StartFragment:000000664 EndFragment:000028766 StartSelection:000000668 EndSelection:000028738 SourceURL:http://c.biancheng.net/view/2011.html

使用 requests 庫請求網站

安裝 requests 庫

首先在 PyCharm 中安裝 requests 庫，為此打開 PyCharm，單擊“File”（文件）菜單，選擇“Setting for New Projects...”命令，如圖 1 所示。

圖1

選擇“Project Interpreter”（項目編譯器）命令，確認當前選擇的編譯器，然后單擊右上角的加號，如圖 2所示。

圖2

在搜索框輸入：requests（注意，一定要輸入完整，不然容易出錯），然后單擊左下角的“Install Package”（安裝庫）按鈕。如圖 3 所示：

圖3

安裝完成后，會在 Install Package 上顯示“Package‘requests’ installed successfully”（庫的請求已成功安裝），如圖 4 所示；如果安裝不成功將會顯示提示信息。

圖4

安裝成功

爬蟲的基本原理

網頁請求的過程分為兩個環節：

Request （請求）：每一個展示在用戶面前的網頁都必須經過這一步，也就是向服務器發送訪問請求。
Response（響應）：服務器在接收到用戶的請求后，會驗證請求的有效性，然后向用戶（客戶端）發送響應的內容，客戶端接收服務器響應的內容，將內容展示出來，就是我們所熟悉的網頁請求，如圖 5 所示。

圖5

Response相應

網頁請求的方式也分為兩種：

GET：最常見的方式，一般用于獲取或者查詢資源信息，也是大多數網站使用的方式，響應速度快。
POST：相比 GET 方式，多了以表單形式上傳參數的功能，因此除查詢信息外，還可以修改信息。

所以，在寫爬蟲前要先確定向誰發送請求，用什么方式發送。

使用 GET 方式抓取數據

復制任意一條首頁首條新聞的標題，在源碼頁面按【Ctrl+F】組合鍵調出搜索框，將標題粘貼在搜索框中，然后按【Enter】鍵。
標題可以在源碼中搜索到，請求對象是地址，請求方式是GET（所有在源碼中的數據請求方式都是GET），如圖 6 所示。

圖6

確定好請求對象和方式后，在 PyCharm 中輸入以下代碼：

import requests        #導入requests包url = 'http://www.cntour.cn/'strhtml = requests.get(url)        #Get方式獲取網頁數據print(strhtml.text)

import requests        #導入requests包
url = 'http://www.cntour.cn/'
strhtml = requests.get(url)        #Get方式獲取網頁數據
print(strhtml.text)

運行結果如圖 7所示：

圖7

運行結果效果圖
加載庫使用的語句是 import+庫的名字。在上述過程中，加載 requests 庫的語句是：import requests。
用 GET 方式獲取數據需要調用 requests 庫中的 get 方法，使用方法是在 requests 后輸入英文點號，如下所示：

requests.get

將獲取到的數據存到 strhtml 變量中，代碼如下：

strhtml = request.get(url)

這個時候 strhtml 是一個 URL 對象，它代表整個網頁，但此時只需要網頁中的源碼，下面的語句表示網頁源碼：

strhtml.text

使用 POST 方式抓取數據

首先輸入有道翻譯的網址：http://fanyi.youdao.com/，進入有道翻譯頁面。
按快捷鍵 F12，進入開發者模式，單擊 Network，此時內容為空，如圖 8 所示：

圖8

在有道翻譯中輸入“我愛中國”，單擊“翻譯”按鈕，如圖 9 所示：

圖9

在開發者模式中，依次單擊“Network”按鈕和“XHR”按鈕，找到翻譯數據，如圖 10 所示：

圖10

單擊 Headers，發現請求數據的方式為 POST。如圖 11 所示：

圖11

找到數據所在之處并且明確請求方式之后，接下來開始撰寫爬蟲。
首先，將 Headers 中的 URL 復制出來，并賦值給 url，代碼如下：

url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

POST 的請求獲取數據的方式不同于 GET，POST 請求數據必須構建請求頭才可以。
Form Data 中的請求參數如圖所示：

圖12

將其復制并構建一個新字典：

From_data={'i':'我愛中國','from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}

接下來使用 requests.post 方法請求表單數據，代碼如下：

import requests #導入requests包response = requests.post(url,data=payload)

將字符串格式的數據轉換成 JSON 格式數據，并根據數據結構，提取數據，并將翻譯結果打印出來，代碼如下：

import jsoncontent = json.loads(response.text)print(content['translateResult'][0][0]['tgt'])

import json
content = json.loads(response.text)
print(content['translateResult'][0][0]['tgt'])

使用 requests.post 方法抓取有道翻譯結果的完整代碼如下：

import requests        #導入requests包import jsondef get_translate_date(word=None):    url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'    From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}    #請求表單數據    response = requests.post(url,data=From_data)    #將Json格式字符串轉字典    content = json.loads(response.text)    print(content)    #打印翻譯后的數據    #print(content['translateResult'][0][0]['tgt'])if __name__=='__main__':    get_translate_date('我愛中國')

import requests        #導入requests包
import json
def get_translate_date(word=None):
    url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
    From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
    #請求表單數據
    response = requests.post(url,data=From_data)
    #將Json格式字符串轉字典
    content = json.loads(response.text)
    print(content)
    #打印翻譯后的數據
    #print(content['translateResult'][0][0]['tgt'])
if __name__=='__main__':
    get_translate_date('我愛中國')

使用 Beautiful Soup 解析網頁

通過 requests 庫已經可以抓到網頁源碼，接下來要從源碼中找到并提取數據。Beautiful Soup 是 python 的一個庫，其最主要的功能是從網頁中抓取數據。Beautiful Soup 目前已經被移植到 bs4 庫中，也就是說在導入 Beautiful Soup 時需要先安裝 bs4 庫。
安裝 bs4 庫的方式如圖 13 所示:

圖13

安裝好 bs4 庫以后，還需安裝 lxml 庫。如果我們不安裝 lxml 庫，就會使用 Python 默認的解析器。盡管 Beautiful Soup 既支持 Python 標準庫中的 HTML 解析器又支持一些第三方解析器，但是 lxml 庫具有功能更加強大、速度更快的特點，因此筆者推薦安裝 lxml 庫。
安裝 Python 第三方庫后，輸入下面的代碼，即可開啟 Beautiful Soup 之旅：

import requests        #導入requests包from bs4 import    BeautifulSoupurl='http://www.cntour.cn/'strhtml=requests.get(url)soup=BeautifulSoup(strhtml.text,'lxml')data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')print(data)

import requests        #導入requests包
from bs4 import    BeautifulSoup
url='http://www.cntour.cn/'
strhtml=requests.get(url)
soup=BeautifulSoup(strhtml.text,'lxml')
data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
print(data)

代碼運行結果如圖 14 所示。

圖14

Beautiful Soup 庫能夠輕松解析網頁信息，它被集成在 bs4 庫中，需要時可以從 bs4 庫中調用。其表達語句如下：

from bs4 import BeautifulSoup

首先，HTML 文檔將被轉換成 Unicode 編碼格式，然后 Beautiful Soup 選擇最合適的解析器來解析這段文檔，此處指定 lxml 解析器進行解析。解析后便將復雜的 HTML 文檔轉換成樹形結構，并且每個節點都是 Python 對象。這里將解析后的文檔存儲到新建的變量 soup 中，代碼如下：

soup=BeautifulSoup(strhtml.text,'lxml')

接下來用 select（選擇器）定位數據，定位數據時需要使用瀏覽器的開發者模式，將鼠標光標停留在對應的數據位置并右擊，然后在快捷菜單中選擇“檢查”命令，

隨后在瀏覽器右側會彈出開發者界面，右側高亮的代碼（參見圖 15(b)）對應著左側高亮的數據文本（參見圖 15(a)）。右擊右側高亮數據，在彈出的快捷菜單中選擇“Copy”?“Copy Selector”命令，便可以自動復制路徑。

圖15

圖 15 復制路徑將路徑粘貼在文檔中，代碼如下:

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a

由于這條路徑是選中的第一條的路徑，而我們需要獲取所有的頭條新聞，因此將 li：nth-child（1）中冒號（包含冒號）后面的部分刪掉，代碼如下：

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a

使用 soup.select 引用這個路徑，代碼如下：

data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a')

爬蟲攻防戰

爬蟲是模擬人的瀏覽訪問行為，進行數據的批量抓取。當抓取的數據量逐漸增大時，會給被訪問的服務器造成很大的壓力，甚至有可能崩潰。換句話就是說，服務器是不喜歡有人抓取自己的數據的。那么，網站方面就會針對這些爬蟲者，采取一些反爬策略。
服務器第一種識別爬蟲的方式就是通過檢查連接的 useragent 來識別到底是瀏覽器訪問，還是代碼訪問的。如果是代碼訪問的話，訪問量增大時，服務器會直接封掉來訪 IP。
那么應對這種初級的反爬機制，我們應該采取何種舉措？
還是以前面創建好的爬蟲為例。在進行訪問時，我們在開發者環境下不僅可以找到 URL、Form Data，還可以在 Request headers 中構造瀏覽器的請求頭，封裝自己。服務器識別瀏覽器訪問的方法就是判斷 keyword 是否為 Request headers 下的 User-Agent，如圖16所示。

因此，我們只需要構造這個請求頭的參數。創建請求頭部信息即可，代碼如下：

headers={'User-Agent':'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}response = request.get(url,headers=headers)

寫到這里，很多讀者會認為修改 User-Agent 很太簡單。確實很簡單，但是正常人1秒看一個圖，而個爬蟲1秒可以抓取好多張圖，比如 1 秒抓取上百張圖，那么服務器的壓力必然會增大。也就是說，如果在一個 IP 下批量訪問下載圖片，這個行為不符合正常人類的行為，肯定要被封 IP。
其原理也很簡單，就是統計每個IP的訪問頻率，該頻率超過閾值，就會返回一個驗證碼，如果真的是用戶訪問的話，用戶就會填寫，然后繼續訪問，如果是代碼訪問的話，就會被封 IP。
這個問題的解決方案有兩個，第一個就是常用的增設延時，每 3 秒鐘抓取一次，代碼如下：

import timetime.sleep(3)

但是，我們寫爬蟲的目的是為了高效批量抓取數據，這里設置 3 秒鐘抓取一次，效率未免太低。其實，還有一個更重要的解決辦法，那就是從本質上解決問題。
不管如何訪問，服務器的目的就是查出哪些為代碼訪問，然后封鎖 IP。解決辦法：為避免被封 IP，在數據采集時經常會使用代理。當然，requests 也有相應的 proxies 屬性。
首先，構建自己的代理 IP 池，將其以字典的形式賦值給 proxies，然后傳輸給 requests，代碼如下：

proxies={    "http":"http://10.10.1.10:3128",    "https":"http://10.10.1.10:1080",}response = requests.get(url, proxies=proxies)

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

Python之爬蟲入門教程先寫一個簡單的 HTML使用 requests 庫請求網站安裝 requests 庫爬蟲的基本原理使用 GET 方式抓取數據使用 POST 方式抓取數據使用 Beautifu

先寫一個簡單的 HTML

使用 requests 庫請求網站

安裝 requests 庫

爬蟲的基本原理

使用 GET 方式抓取數據

使用 POST 方式抓取數據

使用 Beautiful Soup 解析網頁

爬蟲攻防戰

數獨大挑戰2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養生app2018-06-03

體育訓練成績評定2018-06-03