1種方法:
掃描儀掃出的PDF文件是圖像格式,想得到文本或word文檔,可以使用尚書等OCR軟件轉換。
什么是OCR?
OCR是英文Optical Character Recognition的縮寫,意思為光學字符識別,通稱為文字識別,它的工作原理為通過掃描儀或數碼相機等光學輸入設備獲取紙張上的文字圖片信息,利用各種模式識別算法分析文字形態(tài)特征,判斷出漢字的標準編碼,并按通用格式存儲在文本文件中,由此可以看出,OCR實際上是讓計算機認字,實現文字自動輸入。它是一種快捷、省力、高效的文字輸入方法。
常用OCR軟件(即能識別圖片中文字的軟件)有哪些?
有清華文通、漢王文豪、ABBYY FineReader OCR Professional 7.0、慧視小靈鼠、尚書OCR、漢王OCR、蒙怡OCR、丹青OCR等。
注意事項:轉換后還需要手工對其進行排版和校對工作,因為現在市面上這類軟件還沒有達到完全智能化,轉換率還沒有真正達到100%。有些OCR軟件可能不支持中文。
2種方法:
如果不想安裝OCR類軟件,那就安裝CAJ瀏覽器7.0版,這個軟件可以打開PDF文件,最主要的是此瀏覽器有OCR(光學字符識別)功能,可以使用這一功能轉出圖片中的文字。
3種方法:
使用Pdf2all軟件轉換。Pdf2all 是一款PDF文件轉換工具,使用此軟件必須安裝Ghostscript和Postscript,運行 pdf2all 安裝包,啟動 pdf2all 主程序。
Pdf2all軟件的下載地址:http://www.onlinedown.net/softdown/42274_2.htm
4種方法:
利用Office 2003中自帶的Microsoft Office Document Imaging工具。
使用方法: 第一步:首先使用Adobe Reader打開待轉換的PDF文件,接下來選擇“文件→打印”菜單,在打開的“打印”設置窗口中將“打印機”欄中的“名稱”設置為“Microsoft Office Document Image Writer”,確認后將該PDF文件輸出為MDI格式的虛擬打印文件。
編輯提示:如果你在“名稱”設置的下拉列表中沒有找到“Microsoft Office Document Image Writer”項,那證明你在安裝Office 2003的時候沒有安裝該組件,請使用Office 2003安裝光盤中的“添加/刪除組件”更新安裝該組件。第二步:運行Microsoft Office Document Imaging,并利用它來打開剛才保存的MDI文件,選擇“工具→將文本發(fā)送到Word”菜單,并在彈出的窗口中勾選“在輸出時保持圖片版式不變”,確認后系統提示“必須在執(zhí)行此操作前重新運行OCR。這可能需要一些時間”,不管它,確認即可。