大家都知道“網(wǎng)絡(luò)爬蟲”這個詞,知道的朋友都聽過一句話”爬蟲學(xué)的好,監(jiān)獄進(jìn)的早“,其實(shí)任何工具如果合理利用,會大大幫助使用者提高效率,而使用過度了,就會造成負(fù)面影響,在這里。本身“網(wǎng)絡(luò)爬蟲”實(shí)際意思是“代替人們自動地在互聯(lián)網(wǎng)中進(jìn)行數(shù)據(jù)信息的采集與整理”,說白了“網(wǎng)絡(luò)爬蟲”的核心其實(shí)就是“數(shù)據(jù)收集自動化”技術(shù),如果說我們認(rèn)識中的“爬蟲”是一個不好的詞的話,在這里,我希望通過“數(shù)據(jù)收集自動化”來代替,通過簡單的方式實(shí)現(xiàn)大家在工作生活中根據(jù)自身的需求收集網(wǎng)絡(luò)公開數(shù)據(jù),并實(shí)現(xiàn)自動化收集的技術(shù)。
今天給大家?guī)淼氖俏艺J(rèn)為全網(wǎng)最簡單的爬蟲工具——Instant Data Scraper
這是一個瀏覽器插件,主要運(yùn)行環(huán)境是有Chome內(nèi)核的瀏覽器,比如Chrome瀏覽器、
Edge瀏覽器、360極速瀏覽器等,之所以說這個工具是最簡單的數(shù)據(jù)采集自動化工具,它有以下幾個優(yōu)點(diǎn):
- 不需要任何代碼
- 可視化選擇想要的數(shù)據(jù)
- 無需重開窗口,不用登錄操作
- 多種分頁采集方式選擇
- 表格實(shí)現(xiàn)顯示采集結(jié)果
- 后臺操作,不影響前臺操作其他動作
- 延遲和最大等待時間自定義所需的抓取速度
- 數(shù)據(jù)導(dǎo)出保存方式可選擇XLSX、XLS、CSV格式文檔,適用不同場景
- 免費(fèi)!免費(fèi)!免費(fèi)!
以Edge瀏覽器為例,教大家如何安裝Instant Data Scraper
- 打開Microsoft Edge瀏覽器擴(kuò)展市場Microsoft Edge Addons
- 搜索Instant Data Scraper
![]()
Edge瀏覽器擴(kuò)展搜索Instant Data Scraper結(jié)果
3.獲取Instant Data Scraper 并添加擴(kuò)展
通過Instant Data Scraper在Edge擴(kuò)展市場的網(wǎng)頁也可以直接安裝,省區(qū)上面兩個搜索步驟,鏈接如下:Microsoft Edge Addons安裝方式二:crx擴(kuò)展文件離線安裝
- 最新版的Instant Data Scraper我已經(jīng)上傳到了藍(lán)奏網(wǎng)盤,大家可以通過Instant_Data_Scraper_v1.0.8.crx - 藍(lán)奏云獲取到
- 打開Edge瀏覽器管理擴(kuò)展頁面(本地鏈接edge://extentsions)
- 打開開發(fā)人員模式
![]()
打開edge瀏覽器開發(fā)人員模式
4.將Instant_Data_Scraper_v1.0.8.crx文件拖放到Edge瀏覽器管理擴(kuò)展頁面并進(jìn)行安裝擴(kuò)展即可
以上方式不僅僅適用于Edge瀏覽器,Chrome瀏覽器以及國產(chǎn)其他Chrome內(nèi)核的瀏覽器均適用,不過關(guān)于擴(kuò)展應(yīng)用市場是否能搜索到?jīng)]有確定,特別是Chrome瀏覽器需要特殊方式才能訪問擴(kuò)展應(yīng)用市場,所以建議無法在應(yīng)用市場安裝的通過方式二進(jìn)行安裝。
最終安裝后的效果,會在瀏覽器擴(kuò)展管理頁面看到,有的瀏覽器默認(rèn)會顯示在擴(kuò)展欄處,有如下標(biāo)志顯示
Instant Data Scraper擴(kuò)展欄展示
Instant Data Scraper使用方法
關(guān)于Instant Data Scraper 的使用方法,我會通過幾個不同的使用場景來去介紹,不僅僅是教會大家如果使用Instant Data Scraper,同時通過不同場景的使用,可以融會貫通與類似的數(shù)據(jù)獲取方法。
通過Instant Data Scraper采集【豆瓣電影 Top250】數(shù)據(jù)并保存本地表格
學(xué)過Python/ target=_blank class=infotextkey>Python爬蟲的小伙伴都知道,初學(xué)python爬蟲技術(shù),基本上都會拿豆瓣電影 Top250作為實(shí)例測試,而python要獲取豆瓣電影 Top250的數(shù)據(jù)可能對于初學(xué)者是一個敲門磚,我們看看通過Instant Data Scraper獲取豆瓣電影 Top250會有多么的簡單。
- 打開豆瓣定影Top250頁面「鏈接」
2.點(diǎn)擊Instant Data Scraper擴(kuò)展程序,自動識別并以表格實(shí)時展現(xiàn)當(dāng)前頁面的數(shù)據(jù),同時可以直接進(jìn)行相關(guān)編輯,比如修改首行標(biāo)題、刪除不想要的數(shù)據(jù)列等等,由此獲取豆瓣電影Top250的第一頁內(nèi)容已經(jīng)完美得到
![]()
Instant Data Scraper獲取豆瓣電影250數(shù)據(jù)
第一次打開Instant Data Scraper頁面,由于界面都是英文的,其實(shí)頁沒什么內(nèi)容,在此我通過一個截圖翻譯一下整個Instant Data Scraper界面的大致意思和功能。
![]()
Instant Data Scraper頁面介紹
3.定位“下一頁”元素進(jìn)行分頁獲取數(shù)據(jù)操作:點(diǎn)擊“Locate 'Next' button", 進(jìn)入元素選擇模式(鼠標(biāo)所在會顯示綠色陰影),鼠標(biāo)選擇“后頁”元素(這個網(wǎng)頁是選擇“后頁”,但其他的網(wǎng)站不一定,通過觀察看點(diǎn)擊那個會自動跳到下一頁即可)
![]()
Instant Data Scraper選擇下一頁
4.當(dāng)選擇“下一頁”元素之后原來的"Location 'Next' button"會顯示成"Start crawling"標(biāo)志,代表已選擇分頁選擇模式,點(diǎn)擊"Start crawling"即可開始爬取。如果“下一頁”元素選擇錯誤可以直接再重新點(diǎn)擊“下一頁”元素標(biāo)記即可。
![]()
Instant Data Scraper開始獲取數(shù)據(jù)
不同網(wǎng)站會設(shè)定連續(xù)翻頁時間間隔限制防爬,Instant Data Scraper默認(rèn)的時間間隔是1-20秒隨機(jī)時間延遲,針對于后期使用過程中,可根據(jù)需求自定義,沒有時間限制的可以減少最大延遲時間,以加快獲取數(shù)據(jù)速度。
5.當(dāng)出現(xiàn)上面截圖顯示時代表了爬取數(shù)據(jù)結(jié)束,選擇合適的格式下載結(jié)果,如沒有特殊需求建議下載XLSX的常用office表格格式,方便進(jìn)行進(jìn)一步數(shù)據(jù)篩選編輯等操作。
![]()
Instant Data Scraper數(shù)據(jù)獲取結(jié)束頁面
數(shù)據(jù)下載完成打開即可看到全部250條影視信息詳情列表了,可以進(jìn)行相關(guān)的其他操作,比如設(shè)定第一行改為需要的標(biāo)題,刪除不需要的內(nèi)容等,同時有其他需求的還可以進(jìn)行數(shù)據(jù)篩查、數(shù)據(jù)透視表等操作。
通過實(shí)際操作,小伙伴應(yīng)該會發(fā)現(xiàn),通過Instant Data Scraper 進(jìn)行數(shù)據(jù)獲取時多么簡單的一個事情,拿獲取豆瓣250數(shù)據(jù)為例,及時通過Python寫爬蟲腳本,也需要不斷時間,而通過Instant Data Scraper 獲取數(shù)據(jù),僅需要點(diǎn)擊幾下就可以,是不是最簡單的數(shù)據(jù)獲取工具呢?
當(dāng)然,Instant Data Scraper一定不是萬能的,面對于有更高要求的用戶,或者獲取到的內(nèi)容不一定是自己需要的,Instant Data Scraper暫時就做不到了,最大的局限性應(yīng)該就在于不可自定義,純傻瓜式操作,而Instant Data Scraper最大的優(yōu)點(diǎn)也同樣是傻瓜式操作,即可自動化獲取數(shù)據(jù),基本滿足大部分人日常辦公生活等場景需要。
關(guān)注我,下一期帶你去看Instant Data Scraper在其他場景下的使用方法,比如電商平臺,比如圖片網(wǎng)站等,同時后期我也會帶來更多其他“數(shù)據(jù)收集自動化”技術(shù),針對人群是廣大沒有編程基礎(chǔ)或者僅在日常工作場景使用的簡單的數(shù)據(jù)收集的人。






