• 2

[新知]天價級的書本掃描器

大家暌違已久的電子報又來啦~

為甚麼等這麼久?

因為有幾個新的【新知】,吉米暗槓起來留給那天有來現場參加【海盜團隊分享課程第二彈】的夥伴

而且透過吉米親自的解釋、夥伴的解釋、還有【影片】的實際展現,相信看過的人,今天在看電子報,會有完全不一樣的感受吧~

嘿嘿~

今天的主角,不是幾千元的普通消費形掃描器

也不是吉米介紹過的[新知]下個世紀的螢光筆IrisPen

也不是幾萬元的專業級掃描器

更不是百萬級的專業滾筒掃描器

而是

[新知]天價級的書本掃描器
一台價值七百萬的掃描器!!

或許夥伴會問,吉米,平平都是掃描器,掃描一張紙上面的東西,為甚麼價錢如同從腳踏車、國產車、進口車、甚至進入了夢幻級跑車的差異等級呢?

讓吉米娓娓道來吧~

首先,我們要先看一下,我們要掃的東西,是甚麼樣的source?

是很輕易可以獲得的資料?

還是很寶貴,全世界謹此一份的資料文獻?

接著,這些資料,是一張一張的紙張?可以讓你一張一張掃描,或是搭配APF自動餽紙器,可以讓你自動批次作業?

甚至,他是一本裝訂成冊的書籍,你不可能拆開來用APF來掃描,更不可能花費人力一頁一頁的掃吧?

所以囉,今天的主角,之所以貴,就是因為交付給他的任務,是如此的【神聖】、【偉大】

[新知]天價級的書本掃描器
首先,光源問題,就是非常講究的了,若你今天要掃描的是一本比你年紀還大的文獻史料,而全世界,只剩下這一本,那你還隨便用一個鹵素燈這樣照嗎?會把這種珍貴書籍給搞壞的啦~

而且這個光源還計算過他長時間下來的【工作溫度】必須在安定,安全的範圍內,而不會因為時間增加,反而溫度越來越高,造成來源的破壞

我們夥伴告訴吉米,在開始之前,都會先將要掃描的書本,先送去防潮箱裡面的VIP總統套房住上幾天,等他全身的溼寒氣,都被驅走的差不多的時候,這時候才可以進入下一個階段

[新知]天價級的書本掃描器
先將書本的基本資料給測量出來

[新知]天價級的書本掃描器
然後輸入專屬的dell工作站裡面去

[新知]天價級的書本掃描器
這就是今天要上場的model,民國四十三年度的水產資料,這個恐怕都比我們夥伴家長的年紀還大囉~這還是手寫的哩~你看人家寫的多工整!

[新知]天價級的書本掃描器
我們在這裡可以看到左邊跟右邊兩塊經過設計的冷光燈管,均勻的照射在我們要掃描的主體上,這個的角度也是經過精密計算過的喔

[新知]天價級的書本掃描器
這個托盤,就是厲害的地方,讓你放書用的~

[新知]天價級的書本掃描器
他們研究發現,對於書本最佳保護的狀態,是翻頁之後呈現110度的角度,而不是你我送進影印機、scanner的180度,也因為這樣,隨著頁數的翻動,他那兩片支撐版,會隨著書本而自動偵測改變角度

[新知]天價級的書本掃描器
書本放上去之後,就可以按下機器旁邊的按鈕,來自動偵測書本的厚度等相關訊息

[新知]天價級的書本掃描器
接著看到雷射定位點了沒?這個點就是告訴機器你的書本中間那條縫(吉米不知道專業術語該說甚麼)

[新知]天價級的書本掃描器
手動調整一下,調整支撐版,將中間對準這個雷射定位點

[新知]天價級的書本掃描器
這個sensor就是偵測書本厚度的

夥伴又問啦,那誰幫你把書本的頁面,給【正確】的壓平啊?

[新知]天價級的書本掃描器
會這樣想的夥伴真專業,來,就是這兩塊擋板

[新知]天價級的書本掃描器
他會在翻頁時,自動收起來,翻頁之後,在伸出來蓋上去,而且在控制軟體中,還會自動把這兩塊所在的位置給遮蔽掉喔~

[新知]天價級的書本掃描器
這就是dell工作站的全貌(七百萬配這樣的工作站,似乎有點【單薄】,吉米幻想至少該配個兩棵30吋LCD直的,然後旁邊放一台PowerMac Quad G5這樣才像話嘛!不是嗎?)

[新知]天價級的書本掃描器
工作站上面的設定畫面

那他是怎麼翻頁的呢?

[新知]天價級的書本掃描器
來看看他的【吸塵器】,不是啦,這樣說太沒有價值,要說精密的機械手臂

他除了吸氣之外,裡面還有dsp感應器來感應在吸頁面時的力道控制,以免吸力太大把書本都給搞破了,記住喔,年代越久遠的書,越是脆弱,這也是為甚麼防潮箱的總統套房不能住太久的原因,因為若紙張太乾,就容易脆,容易脆,就容易破...所以這個拿捏,夥伴了解了嗎?不是這麼簡單的哩~

[新知]天價級的書本掃描器
人體還是一個非常奇妙的結構,看看我們翻書的這個簡單動作,若要用機器來達成,你看看,要付出多少心力與技術啊~

旁邊的黃色擋板,則是在吸取時,會自動落下隔絕空氣用的

[新知]天價級的書本掃描器
所以說,當一切準備就緒之後,按下start,引擎就發動啦~廠商有把一些常用的按鈕設定到這裡的面板上,可以直接操作,不用用滑鼠在那裡按東按西

其實大家翻書的時候,還有一個問題,你要怎麼將要翻的那頁翻起來,他的下一頁,【乖乖】的躺在下面,而不是同時翻了兩頁、三頁,這樣造成掃描結果的miss

[新知]天價級的書本掃描器
靠的就是這個看似簡單的吹嘴,透過這個梯形上窄下寬的設計,產生不同的氣體流量及流速讓上面那一頁,與下面那一頁分離,將要翻的那一頁漂浮在空中,等著機械手臂來吸走

來來來,分解動作

[新知]天價級的書本掃描器
1. 擋板撤離,吹嘴將要翻的頁面吹起

[新知]天價級的書本掃描器
2.機械手臂伸出

[新知]天價級的書本掃描器
3. 吸取要翻的頁面

[新知]天價級的書本掃描器
4.翻頁完成,擋板歸位駐守,並且掃描完成

完成?!

吉米,怎麼沒看到一條白色的燈管,還是辨識器跑過頁面呢?

那,大家就好奇啦~光學辨識來源是甚麼呢?

來瞧瞧機器頂端

[新知]天價級的書本掃描器
Canon家族,頂級DSLR機種EOS 1D Mk2 ,有玩拍照的人都知道,光是這台頂級數位單眼相機就可以買一台國產小汽車了...(夥伴熱情指正,1D Mk2沒這麼貴啦~20萬有找)

[新知]天價級的書本掃描器
剛最上面是用相機來拍攝物體,也因為他在正中間,所以他兩旁配置有反射用的鏡子,以便能夠正確拍攝到左頁,與右頁

聰明的夥伴就會問啦~

那吉米,左頁右頁是【共拍一張】還是【各拍一張】呢?

[新知]天價級的書本掃描器
答案是透過正中間這個自動切換的鏡子,他會快速的轉換角度,讓相機在下面的機器翻好頁面之後,快速的將左頁與右頁【各拍下一張】照片來

[新知]天價級的書本掃描器
這就是拍出來之後,左頁的結果,在搭配後製處理軟體來進行圖檔的處理以及OCR的便是,最後達到預計的效果


就這樣,一本幾百頁的書,不用【一個】小時,就掃完了,若是工整字體,則再加上OCR辨識技術,來把他變成一個可以迅速檢索的pdf檔喔~

而這個機器的掃描速度是可以調整的,從一小時幾百頁到一小時一兩千頁,都可以

但是呢,若是掃描【重要】書籍,那還是速度慢一點,以免出了甚麼差錯,就麻煩了~

因為買不到啦~

難道要做多拉A夢的時光機回去那個時代找嗎?

這樣有甚麼好處?

1.資料數位化,你有沒有想過,你家書櫥裡面的書籍,若你要從中間找到一段你以前看過,但是映像模糊的片段,透過他來找到,要花多少時間?快則幾分鐘(剛看過,但是還是要翻一翻),慢則一輩子(因為就是想不起來),那若你的收藏又很多的話,那怎麼辦?或是說不是你要找,是你的朋友要從中間找到相關知識,要怎麼找?

有了這種解決方案,你大可以把一整個圖書館的收藏,全部轉成圖文並冒的pdf檔裡面,在電腦裡面只要輸入關鍵字【吉米】,咻~不用幾秒鐘,所有關於吉米的書籍,全部出現,甚至可以看到內文(文字檔)以及疊在後方的原始文件掃描圖檔,讓你不會因為沒有原始資料而不相信所看到的電子文字檔

在說明清楚一點,掃出來的結果可以有幾種

a.每一頁的內容掃成單純的影像檔,所結合而成的pdf檔案(說白話一點,裡面的文字,你不能mark起來,然後拷貝、貼上到你的word檔裡面去使用)

b.每一頁的內容,掃描成影像檔,放至於pdf該頁的最底層,然後上面在疊上一層,OCR辨識後的文字檔,也就是說,眼睛上看上去,就像掃描的頁面,但是你滑鼠一過去小要複製的部份,是可以圈選起來,copy,然後貼到你的word檔案上面去的

這樣很白話了吧?

2.也就是這樣夥伴說有些客戶已經想到另一種使用方式

例如某位醫生,他把他天天要用到的一些多達六千多頁的醫學辭典、文獻,以前都得回到office然後在去一本一本慢慢翻資料,他將這些書籍送來掃描之後,輸出成上面所提到的b結果,也就是掃描結果加上OCR辨識技術的pdf檔

接著下來,他的生活改變了

現在的他,抱著一台平板電腦天機,巡房、甚至是開會時,要找甚麼資料,直接在電腦上面手寫一下關鍵字,按下搜尋

眼睛眨一下,結果就出現了,除了文獻內容,旁邊還有圖片解說,遇到不懂的專業單字,開啟dr.eye即時翻譯軟體,點一下那個生字,翻譯就出來了...

吼~有沒有搞錯啊~會不會太美妙啊?

相信這是大家肖想已久的解決方案吧?

哈哈~

不過這麼貴一台的機器,不是大家都買的起,所以廠商也提出了外包方案,若你有資料要scan,不用買一台,就委託他們,掃一頁看是多少錢,若要加上OCR辨識,再加上多少錢,這樣的方式來解決

那著作權問題呢?

請不要將掃描出來的結果拿去販賣圖利喔~

你自己方便使用,是可以的,這委託廠商掃描時,是要簽切結的喔~
http://forums.jcms.com.tw/addhits.php?c=FFFFFF&t=6407

這種產品的對象

不是一般消費者啦

而是圖書館級、故宮那種等級的客戶

而且這台也只是一代目

新的一代為了增加工作效率,直接裝上【兩台】Canon EOS 1Ds Mk2!!

個別負責左頁與右頁

也就是說,書本翻好面的同時,這兩台相機就拍好照片了

效能增加整整一倍!

價錢呢,就不敢問了...

而還有就是大家知道了故宮級的客戶

就還有那種不會動到【原作品】的高階掃描器,那也是超神奇的哩~

那價錢一樣~又是一台超跑車的價格...
2006-04-09 13:54 發佈
請問吉米:
不知道這種機器的OCR軟體是哪一個?可不可以對「直行」、「旁邊有注音」的文字,底面有插圖的中文字(就是小學課本啦)做掃瞄辨識?
我試過幾種軟體,irispen也用了,效果不大
最後還是乖乖的用手打字,一天10小時只可以打一本,搞到現在都六年級了,只好先休學
如果這種機器可以做,真是一大福音哪!
不知道您是需要掃描之後,來運用他的文字來作其他用途嗎?

以您的狀況來說

您可以參考使用Readiris的掃描軟體來同時將原始圖檔(課本頁面)作為最底層給眼睛看,而中間那層透過readiirs掃成文字檔(僅限於英文、數字、中文,不包含注音),這樣你可以編輯中文,但無法便是注音

但有個變通方式

就是既然你有了中文字內容,你在搭配注音字體,就可以解決啦~

還不需要請出這種解決方案啦~

不知道您的用途是作甚麼呢,可以說清楚一點我幫你想解決方案,當然若涉及商業機密,那就私底下聊啦
【擇你所愛,愛你所選】,吉米丘上的海盜樂園,吉米丘上的部落格,吉米丘上的金銀島、VAG.TW
謝謝吉米:
掃出來的中文字用來統計之用,也就是把所有課本中出現過的字字數作統計,再從資料庫中分析看出這些字的部首、聲母、韻母等等的出現情形,或者比較不同版本之間使用生字的差異,又或者可以用來看看哪一個版本的字選得不好,太難(頻率較低)的字太早就出現。

readiris我從香港買過,結果寄來的不是亞洲版,又給退回去了。其他辨識軟體碰到有注音在旁邊(字體又比較小)或是有插圖作底色全部陣亡...。也許我再買readiris的亞洲版試看看,謝謝囉!
我記得掃描筆的光碟裡面好像有readiris的試用版

你可以先試試看在買

喔~你這需求真是專業啊~

意思是指不只是人要看得懂,還要機器也能辨識的注音文,那這就不是用注音字體可以解決的了

除非你們有另外一套資料庫,存著中文字對應的注音符號,然後在透過這個注音符號去分析使用量...

就好像教育部的國語字典一樣
【擇你所愛,愛你所選】,吉米丘上的海盜樂園,吉米丘上的部落格,吉米丘上的金銀島、VAG.TW
吉米前輩

1D MK2 沒那麼貴啦
看起來比較像是百萬級的翻書器
不知道買壹台拿來翻書會不會很爽
把 1D MK2 偷偷換成 30D ...


(我是來亂的...)
哇!真是又讓我開了一次眼界!
謝謝吉米大大哦!

那個水產資料太神了
我以為是印刷的咧
rod422 wrote:
哇!真是又讓我開了一...(恕刪)


我也是在注意水產資料~ 真的覺得不可思議那真的是用手寫的~

太厲害了~ 不過看過真篇讓我想到Google正在計劃把全世界的圖書都把它數位化的夢想

根據我的記憶~ 那篇報導上面用的機器好像就是這台~ (長的很像~ 我記不清了)

不過真的很謝謝大大讓我們看這樣寶貴的機器~
Premature optimisation is the root of all evil in programming. - - C.A.R. Hoare.
  • 2
內文搜尋
X
評分
評分
複製連結
Mobile01提醒您
您目前瀏覽的是行動版網頁
是否切換到電腦版網頁呢?