附加PDF文件檔: 200604/mobile01-0004b44a32c8ea47965750c970cd8670.pdf
附加PDF文件檔: 200604/mobile01-872ba4a1c5a9cca5eec08ee4e7019527.pdf
吉米再來說清楚一點好了
一般來說PDF有兩種產生方式
1.用專用軟體【製作編輯】出來的原生檔案,例如使用Acrobat等軟體,製作出來的,所以理論上,他是最完整的,有圖片、有可選取的文字內容,以方便使用搜尋的方式搜尋裡面的資料
2.利用其他軟體所【產生】的可供眼睛觀看的檔案,例如很多檔案現在可以把格式save as成pdf檔,但多半這種格式,只能讓你用眼睛看,不能去動裡面的資料,也不能去選擇其中幾段文字,讓你拉到word裡面去編輯
3.掃描出來的pdf檔,依照掃描器所付的軟體,現在幾乎都可以直接將掃描的結果作成多頁掃描檔案而從下面吉米畫的簡單圖示可以知道
在之前,掃描出來的是一個圖檔可以是JPG、BMP、TIFF,頂多透過OCR的辨識技術再將文字內容的部份轉成txt檔

現在的掃描軟體,例如readiris,他就可以將你的原稿,掃描成與原始layout一模一樣的圖文並茂word檔(當然文字可以編輯)或是像圖例一般,掃描成多層次的pdf檔,讓你只要攜帶一個檔案,就可以得到所有東西,而原稿在最底層的目的,除了讓原有的圖片可以一起出現之外,若OCR有辨識錯誤的結果,你還可以看原始稿來判斷到底不清楚的是哪個字
【擇你所愛,愛你所選】,吉米丘上的海盜樂園,吉米丘上的部落格,吉米丘上的金銀島、VAG.TW
直接給個範例最清楚

假設這是我們要掃的文稿,有圖片還有文字
一般來說,大家掃出來的是下面這種只有圖檔的pdf,只有圖而已,沒有文字可以用
附加PDF文件檔: 200604/mobile01-13d8603e34dcc1e5251363495e1ec72f.pdf
但是若你有OCR辨識軟體,例如吉米這個範例是用readiris9掃出來的,夥伴打開這些pdf檔,然後去mark裡面的文字看看,對~這就是差別
附加PDF文件檔: 200604/mobile01-da246b7a0a34e701456dee5fd2888c58.pdf
【擇你所愛,愛你所選】,吉米丘上的海盜樂園,吉米丘上的部落格,吉米丘上的金銀島、VAG.TW
內文搜尋

X