吉米再來說清楚一點好了
一般來說PDF有兩種產生方式
1.用專用軟體【製作編輯】出來的原生檔案,例如使用Acrobat等軟體,製作出來的,所以理論上,他是最完整的,有圖片、有可選取的文字內容,以方便使用搜尋的方式搜尋裡面的資料
2.利用其他軟體所【產生】的可供眼睛觀看的檔案,例如很多檔案現在可以把格式save as成pdf檔,但多半這種格式,只能讓你用眼睛看,不能去動裡面的資料,也不能去選擇其中幾段文字,讓你拉到word裡面去編輯
3.掃描出來的pdf檔,依照掃描器所付的軟體,現在幾乎都可以直接將掃描的結果作成多頁掃描檔案而從下面吉米畫的簡單圖示可以知道
在之前,掃描出來的是一個圖檔可以是JPG、BMP、TIFF,頂多透過OCR的辨識技術再將文字內容的部份轉成txt檔
現在的掃描軟體,例如readiris,他就可以將你的原稿,掃描成與原始layout一模一樣的圖文並茂word檔(當然文字可以編輯)或是像圖例一般,掃描成多層次的pdf檔,讓你只要攜帶一個檔案,就可以得到所有東西,而原稿在最底層的目的,除了讓原有的圖片可以一起出現之外,若OCR有辨識錯誤的結果,你還可以看原始稿來判斷到底不清楚的是哪個字