要讀取 html 文件中的文字內(nèi)容,請(qǐng)執(zhí)行以下步驟:加載 html 文件解析 html使用 text 屬性或 get_text() 方法提取文本可選:清理文本(刪除空白、特殊字符和轉(zhuǎn)換小寫(xiě))輸出文本(打印、寫(xiě)入文件等)
如何讀取 HTML 文件中的文字內(nèi)容
要從 HTML 文件中提取文字內(nèi)容,可以使用以下步驟:
1. 加載 HTML 文件
<code class="<a style='color:#f60; text-decoration:underline;' href=" https: target="_blank">python">import requests url = 'https://example.com' response = requests.get(url)</code>
登錄后復(fù)制
2. 解析 HTML
<code class="python">from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser')</code>
登錄后復(fù)制
3. 提取文字內(nèi)容
有兩種方法可以提取文字內(nèi)容:
使用 text
屬性:提取 HTML 標(biāo)簽內(nèi)的所有文本,包括標(biāo)簽本身。
<code class="python">text = soup.text</code>
登錄后復(fù)制
使用 get_text()
方法:提取 HTML 標(biāo)簽內(nèi)的文本,但會(huì)忽略標(biāo)簽本身。
<code class="python">text = soup.get_text()</code>
登錄后復(fù)制
4. 清理文本內(nèi)容(可選)
如果需要進(jìn)一步清理文本內(nèi)容,可以執(zhí)行以下操作:
刪除空白字符:
<code class="python">text = text.replace(' ', '')</code>
登錄后復(fù)制
刪除特殊字符:
<code class="python">import string text = text.translate(str.maketrans('', '', string.punctuation))</code>
登錄后復(fù)制
轉(zhuǎn)換為小寫(xiě):
<code class="python">text = text.lower()</code>
登錄后復(fù)制
5. 輸出文本內(nèi)容
可以通過(guò)多種方式輸出文本內(nèi)容:
打印到控制臺(tái):
<code class="python">print(text)</code>
登錄后復(fù)制
寫(xiě)入文件:
<code class="python">with open('output.txt', 'w') as f: f.write(text)</code>
登錄后復(fù)制