今天我們仍舊利用scrapy框架實現自動翻頁爬取數據,爬取詩詞胖排行榜(
https://www.shicimingju.com/paiming)中的標題。
1.新建文件夾
scrapy starproject 文件名(wallpaper)
2.新建爬蟲文件
scrapy genspider 文件名(landscape)www.xxx.com
3.發送請求并解析數據
上兩節課有詳細的講解,所以這部分不再贅述。
4.建立翻頁鏈接
上面我們放的鏈接為第一頁的地址,根據翻頁網頁的地址我們可以發現,“p”對應的值為變量,因此我們拼接網址:
5.對翻頁鏈接發送請求
基本格式為:yield scrapy.Request(url地址,callback=self.parse),當遇到第二頁的時候,會根據上面的拼接地址填入,并解析數據
6.總結
要實現翻頁自動發送請求,需要先建立好第一頁的請求并解析,然后寫入翻頁的網址之后,通過調用yield關鍵字實現翻頁自動發送請求






