亚洲精品久久久久电影网,一区二区三区四区视频在线观看,日本高清久久

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.430618.com 】，免友鏈快審服務（50元/站），

網站：51998
待審：31
小程序：12
文章：1030137
會員：747

首頁 > 新聞資訊 > IT業界 >正文

別再問如何用python提取PDF內容了

發布時間：2023-07-03 11:57:55 作者：網友整理

作者：陳熹

來源：早起Python/ target=_blank class=infotextkey>Python

大家好，在之前的辦公自動化系列文章中我們已經詳細介紹了如何使用python批量處理PDF文件，包括合并、拆分、水印、加密等操作。

今天我們再次回到PDF，詳細講解如何使用python從PDF提取指定的信息。我們將以一份年度報告PDF為例進行介紹，內含大量文字、表格、圖片，具體如下

模塊安裝

首先需要安裝兩個模塊，第一個是pdfplumber，在命令行使用pip安裝即可

pip install pdfplumber

第二個是fitz, 它是pymupdf中的一個模塊，同樣可以使用pip輕松安裝

pip install pymupdf

文字信息提取

使用python提取PDF中文字代碼思路如下

利用pdfplumber打開一個 PDF 文件
獲取指定的頁，或者遍歷每一頁
利用.extract_text()方法提取當前頁的文字

現在讓我們用上述代碼嘗試提取示例數據中第12頁的文字

import pdfplumber
file_path = r'C:xxxxpractice.PDF'

with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[11]
    print(page.extract_text())

結果如下圖所示

接著可以將內容通過導入python-docx并借助wordfile.add_paragraph()寫入Word文件中，而這個模塊我們已經講解很多次，此處就不再贅述。

表格信息提取

使用Python提取單個表格和提取單頁文字的代碼非常類似，用的是.extract_table()

但需要注意的是.extract_table()默認提取指定頁面的第一個表格，如果當前頁面有多個表格都需要提取，則要直接使用.extract_tables()

例如示例文件中第 13 頁有 2 個表格，我們分別利用.extract_table()和.extract_tables()觀察輸出結果

import pdfplumber
file_path = r'C:xxxxpractice.PDF'

with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[12]
    print(page.extract_table())

結果如下

可以看到是一個嵌套列表，熟悉這種格式的人會理解想到可以pandas或者遍歷該嵌套列表后借助openpyxl的sheet.Append(list)寫入Excel文件中，

import pdfplumber
file_path = r'C:xxxxpractice.PDF'

with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[12]
    print(page.extract_tables())

而.extract_tables()提取當前頁所有表格會產生了一個三級嵌套列表，第一層的列表就代表每一個表格，之后也可以利用其他庫寫入Excel。

圖片提取

對于圖片提取，現在沒有任何一個模塊可以做到百分之百的提取。本文只介紹基于fitz模塊的代碼，基本思路是通過正則查找圖片并將其輸出

例如提取示例文件中的圖片，代碼可以這么寫

import fitz
import re
import os

file_path = r'C:xxxpractice.PDF'
dir_path = r'C:xxx' # 存放圖片的文件夾

def pdf2pic(path, pic_path):
    checkXO = r"/Type(?= */XObject)"
    checkIM = r"/Subtype(?= */Image)"
    pdf = fitz.open(path)
    lenXREF = pdf._getXrefLength()
    imgcount = 0
    for i in range(1, lenXREF):
        text = pdf._getXrefString(i)
        isXObject = re.search(checkXO, text)
        isImage = re.search(checkIM, text)
        if not isXObject or not isImage:
            continue
        imgcount += 1
        pix = fitz.Pixmap(pdf, i)
        new_name = f"img_{imgcount}.png"
        if pix.n < 5:
            pix.writePNG(os.path.join(pic_path, new_name))
        else:
            pix0 = fitz.Pixmap(fitz.csRGB, pix)
            pix0.writePNG(os.path.join(pic_path, new_name))
            pix0 = None
        pix = None

pdf2pic(file_path, dir_path)

結果如下