開發人員時不時地需要抓取網頁以從網站獲取一些信息。例如,假設您正在開發一個個人項目,您必須從維基百科獲取有關不同國家首都的地理信息。手動輸入會花費很多時間。不過,您可以借助 PHP 抓取維基百科頁面,非常快速地完成此操作。您還可以自動解析 HTML 以獲取特定信息,而無需手動瀏覽整個標記。
在本教程中,我們將了解一種名為 DiDOM 的快速且易于使用的 HTML 解析器。我們將從安裝過程開始,然后學習如何使用不同類型的選擇器(如標簽、類等)從網頁上的不同元素中提取信息。
安裝與使用
您可以通過運行以下命令輕松在項目目錄中安裝 DiDOM:
composer require imangazaliev/didom
登錄后復制
運行上述命令后,您將能夠從字符串、本地文件或網頁加載 HTML。這是一個例子:
require_once('vendor/autoload.php'); use DiDom\Document; $document = new Document($washington_dc_html_string); $document = new Document('washington_dc.html', true); $url = 'https://en.wikipedia.org/wiki/Washington,_D.C.'; $document = new Document($url, true);
登錄后復制
當您決定從文檔中解析 HTML 時,它可能已經被加載并存儲在變量中。在這種情況下,您只需將該變量傳遞給 Document()
,DiDOM 將準備要解析的字符串。
如果必須從文件或 URL 加載 HTML,您可以將其作為第一個參數傳遞給 Document()
并將第二個參數設置為 true
。
您還可以使用不帶任何參數的 new Document()
創建一個新的 Document
對象。在這種情況下,您可以調用方法 loadHtml()
從字符串加載 HTML,并調用 loadHtmlFile()
從文件或網頁加載 HTML。
查找 HTML 元素
從元素獲取 HTML 或文本之前要做的第一件事是找到元素本身。最簡單的方法是使用 find()
方法并將所需元素的 CSS 選擇器作為第一個參數傳遞。
您還可以將元素的 XPath 作為 find()
方法的第一個參數傳遞。但是,這需要您傳遞 Query::TYPE_XPATH
作為第二個參數。
如果您只想使用 XPath 值來查找 HTML 元素,則可以簡單地使用 xpath()
方法,而不是傳遞 Query::TYPE_XPATH
每次作為 find()
的第二個參數。
如果 DiDOM 可以找到與傳遞的 CSS 選擇器或 XPATH 表達式匹配的元素,它將返回 DiDom\Element
實例的數組。如果沒有找到這樣的元素,它將返回一個空數組。
由于這些方法返回一個數組,因此您可以使用 find()[n-1]
直接訪問第 n 個匹配元素。
一個例子
在下面的示例中,我們將從有關華盛頓特區的維基百科文章中的所有一級和二級標題中獲取內部 HTML
require_once('vendor/autoload.php'); use DiDom\Document; $document = new Document('https://en.wikipedia.org/wiki/Washington,_D.C.', true); $main_heading = $document->find('h1.firstHeading')[0]; echo $main_heading->html(); $sub_headings = $document->find('h2'); foreach($sub_headings as $sub_heading) { if($sub_heading->text() !== 'See also') { echo $sub_heading->html(); } else { break; } }
登錄后復制
我們首先通過傳遞有關華盛頓特區的維基百科文章的 URL 來創建一個新的 Document 對象。之后,我們使用 find()
方法獲取主標題元素并將其存儲在名為 $main_heading
的變量內。我們現在可以在此元素上調用不同的方法,例如 text()
、innerHtml()
、html()
等
對于主標題,我們只需調用 html()
方法即可返回整個標題元素的 HTML。同樣,我們可以使用 innerHtml()
方法獲取特定元素內的 HTML。有時,您會對元素的純文本內容而不是其 HTML 更感興趣。在這種情況下,您只需使用 text()
方法即可完成。
二級標題將我們的維基百科頁面劃分為定義明確的部分。但是,您可能希望刪除其中一些副標題,例如“另請參閱”、“注釋”等。
一種方法是循環遍歷所有二級標題并檢查 text()
方法返回的值。如果返回的標題文本是“另請參閱”,我們將跳出循環。
使用 $document->find('h2')[3]
和 $document- 可以直接到達第四或第六級二級標題>find('h2')[5]
分別。
上下遍歷 DOM
一旦您可以訪問特定元素,該庫就可以讓您上下遍歷 DOM 樹以輕松訪問其他元素。
您可以使用 parent()
方法轉到 HTML 元素的父元素。同樣,您可以使用 nextSibling()
和 previousSibling()
方法獲取元素的下一個或上一個同級元素。
還有很多方法可用于訪問 DOM 元素的子元素。例如,您可以使用 child(n)
方法獲取特定的子元素。同樣,您可以使用 firstChild()
和 lastChild()
方法訪問特定元素的第一個或最后一個子元素。您可以使用 children()
方法循環遍歷特定 DOM 元素的所有子元素。
一旦到達特定元素,您將能夠使用 html()
、innerHtml()
和text()
方法。
在下面的示例中,我們從二級標題元素開始,并繼續檢查下一個同級元素是否包含一些文本。一旦我們找到帶有一些文本的同級元素,我們就會將其輸出到瀏覽器。
require_once('vendor/autoload.php'); use DiDom\Document; $document = new Document('https://en.wikipedia.org/wiki/Washington,_D.C.', true); $sub_headings = $document->find('h2'); for($i = 1; $i < count($sub_headings); $i++) { if($sub_headings[$i]->text() !== 'See also') { $next_sibling = $sub_headings[$i]->nextSibling(); while(!$next_elem->html()) { $next_sibling = $next_sibling->nextSibling(); } echo $next_elem->html()."<br>"; } else { break; } }
登錄后復制
您可以使用類似的技術循環遍歷所有同級元素,并且僅在文本包含特定字符串或同級元素是段落標記等時輸出文本。一旦您了解了基礎知識,找到正確的信息就是簡單的。
操作元素屬性
在某些情況下,獲取或設置不同元素的屬性值的能力非常有用。例如,我們可以使用 $image_elem->attr( 'src')
.以類似的方式,您可以獲得文檔中所有 a 標記的 href 屬性的值。
可以通過三種方法獲取 HTML 元素的給定屬性的值。您可以使用 getAttribute('attrName')
方法并將您感興趣的屬性名稱作為參數傳遞。您還可以使用 attr(‘attrName’) 方法,其工作方式與 getAttribute() 類似。最后,該庫還允許您使用 $elem->attrName
直接獲取屬性值。這意味著您可以使用 $imageElem->src
直接獲取圖像元素的 src 屬性值。
require_once('vendor/autoload.php'); use DiDom\Document; $document = new Document('https://en.wikipedia.org/wiki/Washington,_D.C.', true); $images = $document->find('img'); foreach($images as $image) { echo $image->src."<br>"; }
登錄后復制
一旦您有權訪問src屬性,您就可以編寫代碼來自動下載所有圖像文件。這樣,您將能夠節省大量時間。
您還可以使用三種不同的技術來設置給定屬性的值。首先,您可以使用 setAttribute(‘attrName’, ‘attrValue’) 方法來設置屬性值。您還可以使用 attr(‘attrName’, ‘attrValue’) 方法來設置屬性值。最后,您可以使用 $Elem->attrName = 'attrValue'
設置給定元素的屬性值。
添加、刪除和替換元素
您還可以使用庫提供的不同方法對加載的 HTML 文檔進行更改。例如,您可以使用 appendChild()
、replace()
和 從 DOM 樹添加、替換或刪除元素">刪除()
方法。
該庫還允許您創建自己的 HTML 元素,以便將它們附加到原始 HTML 文檔中。您可以使用 new Element('tagName', 'tagContent')
創建新的 Element 對象。
請記住,如果您的程序在實例化之前不包含行 use DiDom\Element
,您將收到未捕獲錯誤:未找到“Element”類錯誤元素對象。
獲得該元素后,您可以使用 appendChild()
方法將其附加到 DOM 中的其他元素,也可以使用 replace( )
方法使用新實例化的元素來替換文檔中某些舊的 HTML 元素。下面的例子應該有助于進一步闡明這個概念。
require_once('vendor/autoload.php'); use DiDom\Document; use DiDom\Element; $document = new Document('https://en.wikipedia.org/wiki/Washington,_D.C.', true); // This will result in error. echo $document->find('h2.test-heading')[0]->html()."\n"; $test_heading = new Element('h2', 'This is test heading.'); $test_heading->class = 'test-heading'; $document->find('h1')[0]->replace($test_heading); echo $document->find('h2.test-heading')[0]->html()."\n";
登錄后復制
最初,我們的文檔中沒有 test-heading 類的 h2 元素。因此,如果我們嘗試訪問這樣的元素,我們將不斷收到錯誤。
驗證不存在這樣的元素后,我們創建一個新的h2元素,并將其class屬性的值更改為test-heading >.
之后,我們將文檔中的第一個 h1 元素替換為新創建的 h2 元素。再次在我們的文檔中使用 find()
方法查找帶有 test-heading 類的 h2 標題,現在將返回一個元素。
最終想法
本教程介紹了 PHP DiDOM HTML 解析器的基礎知識。我們從安裝開始,然后學習如何從字符串、文件或 URL 加載 HTML。之后,我們討論了如何根據 CSS 選擇器或 XPath 查找特定元素。我們還學習了如何獲取元素的兄弟元素、父元素或子元素。其余部分介紹了如何操作特定元素的屬性或在 HTML 文檔中添加、刪除和替換元素。
如果您希望我在教程中澄清任何內容,請隨時在評論中告訴我。
以上就是使用DiDOM解析HTML的PHP代碼的詳細內容,更多請關注www.92cms.cn其它相關文章!