亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.430618.com 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

一、爬蟲與數據

(一)為什么要做爬蟲

都說現在是大數據時代,但是與之相對應的問題是,大數據中的數據從何而來。可以人工收集數據,但是人工收集數據的效率卻免不了太過低下。也可以找一些專門從事數據服務的公司進行購買,但會花費不菲的代價。下面是經常用到的一些數據類的網站。

1、 企業產生的用戶數據:

百度指數: http://index.baidu.com/

阿里指數: https://alizs.taobao.com/

TBI 騰訊瀏覽指數: http://tbi.tencent.com/

新浪微博指數: http://data.weibo.com/index

2、 數據平臺購買數據:

數據堂: http://www.datatang.com/about/about-us.html

國內數據市場: http://www.moojnn.com/data-market/

貴陽大數據交易所: http://trade.gbdex.com/trade.web/index.jsp

3、 政府/機構公開的數據:

中華人民共和國國家統計局數據: http://data.stats.gov.cn/index.htm

世界銀行公開數據: http://data.worldbank.org.cn/

聯合國數據: http://data.un.org/

納斯達克: http://www.nasdaq.com/zh

4、 數據管理咨詢公司:

INS(500 人, 一年產值 300 億)

麥肯錫: http://www.mckinsey.com.cn/

埃森哲: https://www.accenture.com/cn-zh/

艾瑞咨詢: http://www.iresearch.com.cn/

或者可以選擇招聘/做一名爬蟲工程,自己動手尋找數據。

(二)爬蟲是什么

通俗理解:爬蟲是一個模擬人類請求網站行為的程序。可以自動請求網頁、并數據抓取下來,然后使用一定的規則提取有價值的數據。

專業解釋:網絡爬蟲

(三)我們需要學習什么來使用爬蟲

Python 基礎語法學習(基礎知識)

HTML 頁面的內容抓取(數據抓取)

HTML 頁面的數據提取(數據清洗)

Scrapy 框架以及 scrapy-redis 分布式策略(第三方框架)

爬蟲(Spider)、 反爬蟲(Anti-Spider)、 反反爬蟲(Anti-Anti-Spider)之間的斗爭…

爬蟲的原理及介紹

 

三、爬蟲的種類

網絡爬蟲按照系統結構和實現技術,大致可以分為以下幾種類型:通用網絡爬蟲(General Purpose Web Crawler)、聚焦網絡爬蟲(Focused Web Crawler)、增量式網絡爬蟲(Incremental Web Crawler)、深層網絡爬蟲(Deep Web Crawler)。 實際的網絡爬蟲系統通常是幾種爬蟲技術相結合實現的。

(一) 通用爬蟲

通用網絡爬蟲是搜索引擎抓取系統(Baidu、 google、 Yahoo 等) 的重要組成部分。 主要目的是將互聯網上的網頁下載到本地, 形成一個互聯網內容的鏡像備份。

(二) 通用搜索引擎(Search Engine) 工作原理

通用網絡爬蟲 從互聯網中搜集網頁, 采集信息, 這些網頁信息用于為搜索引擎建立索引從而提供支持, 它決定著整個引擎系統的內容是否豐富, 信息是否及時, 因此其性能的優劣直接影響著搜索引擎的效果。

第一步: 抓取網頁

搜索引擎網絡爬蟲的基本工作流程如下:

首先選取一部分的種子 URL, 將這些 URL 放入待抓取 URL 隊列;

取出待抓取 URL, 解析 DNS 得到主機的 IP, 并將 URL 對應的網頁下載下來, 存儲進已下載網頁庫中, 并且將這些 URL 放進已抓取 URL 隊列。

分析已抓取 URL 隊列中的 URL, 分析其中的其他 URL, 并且將 URL 放入待抓取 URL隊列, 從而進入下一個循環…

那么, 搜索引擎如何獲取一個新網站的 URL:

(1) 新網站向搜索引擎主動提交網址:(如百度 http://zhanzhang.baidu.com/linksubmit/url)

(2) 在其他網站上設置新網站外鏈(盡可能處于搜索引擎爬蟲爬取范圍)

(3) 搜索引擎和 DNS 解析服務商(如 DNSPod 等) 合作, 新網站域名將被迅速抓取。

但是搜索引擎蜘蛛的爬行是被輸入了一定的規則的, 它需要遵從一些命令或文件的內

容, 如標注為 nofollow 的鏈接, 或者是 Robots 協議。

Robots 協議(也叫爬蟲協議、 機器人協議等) , 全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol) , 網站通過 Robots 協議告訴搜索引擎哪些頁面可以抓取, 哪些頁面不能抓取, 例如:

淘寶網: https://www.taobao.com/robots.txt

騰訊網: http://www.qq.com/robots.txt

第二步: 數據存儲

搜索引擎通過爬蟲爬取到的網頁, 將數據存入原始頁面數據庫。 其中的頁面數據與用戶瀏覽器得到的 HTML 是完全一樣的。

搜索引擎蜘蛛在抓取頁面時, 也做一定的重復內容檢測, 一旦遇到訪問權重很低的網站上有大量抄襲、 采集或者復制的內容, 很可能就不再爬行。

第三步: 預處理

搜索引擎將爬蟲抓取回來的頁面, 進行各種步驟的預處理。

提取文字

中文分詞

消除噪音(比如版權聲明文字、 導航條、 廣告等……)

索引處理

鏈接關系計算

特殊文件處理

···

爬蟲的原理及介紹

 

除了 HTML 文件外, 搜索引擎通常還能抓取和索引以文字為基礎的多種文件類型, 如

PDF、 word、 wps、 XLS、 PPT、 TXT 文件等。 我們在搜索結果中也經常會看到這些文件類型。

但搜索引擎還不能處理圖片、 視頻、 Flash 這類非文字內容, 也不能執行腳本和程序。

第四步: 提供檢索服務, 網站排名

搜索引擎在對信息進行組織和處理后, 為用戶提供關鍵字檢索服務, 將用戶檢索相關的信息展示給用戶。

同時會根據頁面的 PageRank 值(鏈接的訪問量排名) 來進行網站排名, 這樣 Rank 值高的網站在搜索結果中會排名較前, 當然也可以直接使用 Money 購買搜索引擎網站排名,簡單粗暴。

(三) 通用性搜索引擎存在一定的局限性:

通用搜索引擎所返回的結果都是網頁, 而大多情況下, 網頁里 90%的內容對用戶來說

都是無用的。不同領域、 不同背景的用戶往往具有不同的檢索目的和需求, 搜索引擎無法提供針對具體某個用戶的搜索結果。

萬維網數據形式的豐富和網絡技術的不斷發展, 圖片、 數據庫、 音頻、 視頻多媒體等不同數據大量出現, 通用搜索引擎對這些文件無能為力, 不能很好地發現和獲取。

通用搜索引擎大多提供基于關鍵字的檢索, 難以支持根據語義信息提出的查詢, 無法準確理解用戶的具體需求。

針對這些情況, 聚焦爬蟲技術得以廣泛使用。

(四) 聚焦爬蟲

聚焦爬蟲, 是"面向特定主題需求"的一種網絡爬蟲程序, 它與通用搜索引擎爬蟲的區別在于: 聚焦爬蟲在實施網頁抓取時會對內容進行處理篩選, 盡量保證只抓取與需求相關的網頁信息。

分享到:
標簽:爬蟲
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定