[新知]天價級的書本掃描器
大家暌違已久的電子報又來啦~
為甚麼等這麼久? 因為有幾個新的【新知】,吉米暗槓起來留給那天有來現場參加【海盜團隊分享課程第二彈】的夥伴 而且透過吉米親自的解釋、夥伴的解釋、還有【影片】的實際展現,相信看過的人,今天在看電子報,會有完全不一樣的感受吧~ 嘿嘿~ 今天的主角,不是三千元的【消費型】掃描器 也不是吉米介紹過的[新知]下個世紀的螢光筆IrisPen 也不是幾萬元的專業級掃描器 更不是百萬級的專業滾筒掃描器 而是 http://www.jcms.com.tw/newspaper/scanner700-01.jpg 價值七百萬元的掃描器!! 或許夥伴會問,吉米,平平都是掃描器,掃描一張紙上面的東西,為甚麼價錢如同從腳踏車、國產車、進口車、甚至進入了夢幻級跑車的差異等級呢? 讓吉米娓娓道來吧~ 首先,我們要先看一下,我們要掃的東西,是甚麼樣的source? 是很輕易可以獲得的資料? 還是很寶貴,全世界謹此一份的資料文獻? 接著,這些資料,是一張一張的紙張?可以讓你一張一張掃描,或是搭配APF自動餽紙器,可以讓你自動批次作業? 甚至,他是一本裝訂成冊的書籍,你不可能拆開來用APF來掃描,更不可能花費人力一頁一頁的掃吧? 所以囉,今天的主角,之所以貴,就是因為交付給他的任務,是如此的【神聖】、【偉大】 http://www.jcms.com.tw/newspaper/scanner700-03.jpg 首先,光源問題,就是非常講究的了,若你今天要掃描的是一本比你年紀還大的文獻史料,而全世界,只剩下這一本,那你還隨便用一個鹵素燈這樣照嗎?會把這種珍貴書籍給搞壞的啦~ 而且這個光源還計算過他長時間下來的【工作溫度】必須在安定,安全的範圍內,而不會因為時間增加,反而溫度越來越高,造成來源的破壞 我們夥伴告訴吉米,在開始之前,都會先將要掃描的書本,先送去防潮箱裡面的VIP總統套房住上幾天,等他全身的溼寒氣,都被驅走的差不多的時候,這時候才可以進入下一個階段 http://www.jcms.com.tw/newspaper/scanner700-29.jpg 先將書本的基本資料給測量出來 http://www.jcms.com.tw/newspaper/scanner700-25.jpg 然後輸入專屬的dell工作站裡面去 http://www.jcms.com.tw/newspaper/scanner700-26.jpg 這就是今天要上場的model,民國四十三年度的水產資料,這個恐怕都比我們夥伴家長的年紀還大囉~這還是手寫的哩~你看人家寫的多工整! http://www.jcms.com.tw/newspaper/scanner700-27.jpg 我們在這裡可以看到左邊跟右邊兩塊經過設計的冷光燈管,均勻的照射在我們要掃描的主體上,這個的角度也是經過精密計算過的喔 http://www.jcms.com.tw/newspaper/scanner700-04.jpg 這個托盤,就是厲害的地方,讓你放書用的~ http://www.jcms.com.tw/newspaper/scanner700-11.jpg 他們研究發現,對於書本最佳保護的狀態,是翻頁之後呈現110度的角度,而不是你我送進影印機、scanner的180度,也因為這樣,隨著頁數的翻動,他那兩片支撐版,會隨著書本而自動偵測改變角度 http://www.jcms.com.tw/newspaper/scanner700-06.jpg 書本放上去之後,就可以按下機器旁邊的按鈕,來自動偵測書本的厚度等相關訊息 http://www.jcms.com.tw/newspaper/scanner700-07.jpg 接著看到雷射定位點了沒?這個點就是告訴機器你的書本中間那條縫(吉米不知道專業術語該說甚麼) http://www.jcms.com.tw/newspaper/scanner700-34.jpg 手動調整一下,調整支撐版,將中間對準這個雷射定位點 http://www.jcms.com.tw/newspaper/scanner700-09.jpg 這個sensor就是偵測書本厚度的 夥伴又問啦,那誰幫你把書本的頁面,給【正確】的壓平啊? http://www.jcms.com.tw/newspaper/scanner700-36.jpg 會這樣想的夥伴真專業,來,就是這兩塊擋板 http://www.jcms.com.tw/newspaper/scanner700-31.jpg 他會在翻頁時,自動收起來,翻頁之後,在伸出來蓋上去,而且在控制軟體中,還會自動把這兩塊所在的位置給遮蔽掉喔~ http://www.jcms.com.tw/newspaper/scanner700-13.jpg 這就是dell工作站的全貌(七百萬配這樣的工作站,似乎有點【單薄】,吉米幻想至少該配個兩棵30吋LCD直的,然後旁邊放一台PowerMac Quad G5這樣才像話嘛!不是嗎?) http://www.jcms.com.tw/newspaper/scanner700-38.jpg 工作站上面的設定畫面 那他是怎麼翻頁的呢? http://www.jcms.com.tw/newspaper/scanner700-08.jpg 來看看他的【吸塵器】,不是啦,這樣說太沒有價值,要說精密的機械手臂 他除了吸氣之外,裡面還有dsp感應器來感應在吸頁面時的力道控制,以免吸力太大把書本都給搞破了,記住喔,年代越久遠的書,越是脆弱,這也是為甚麼防潮箱的總統套房不能住太久的原因,因為若紙張太乾,就容易脆,容易脆,就容易破...所以這個拿捏,夥伴了解了嗎?不是這麼簡單的哩~ http://www.jcms.com.tw/newspaper/scanner700-30.jpg 人體還是一個非常奇妙的結構,看看我們翻書的這個簡單動作,若要用機器來達成,你看看,要付出多少心力與技術啊~ 旁邊的黃色擋板,則是在吸取時,會自動落下隔絕空氣用的 http://www.jcms.com.tw/newspaper/scanner700-12.jpg 所以說,當一切準備就緒之後,按下start,引擎就發動啦~廠商有把一些常用的按鈕設定到這裡的面板上,可以直接操作,不用用滑鼠在那裡按東按西 其實大家翻書的時候,還有一個問題,你要怎麼將要翻的那頁翻起來,他的下一頁,【乖乖】的躺在下面,而不是同時翻了兩頁、三頁,這樣造成掃描結果的miss http://www.jcms.com.tw/newspaper/scanner700-05.jpg 靠的就是這個看似簡單的吹嘴,透過這個梯形上窄下寬的設計,產生不同的氣體流量及流速讓上面那一頁,與下面那一頁分離,將要翻的那一頁漂浮在空中,等著機械手臂來吸走 來來來,分解動作 http://www.jcms.com.tw/newspaper/scanner700-31.jpg 1. 擋板撤離,吹嘴將要翻的頁面吹起 http://www.jcms.com.tw/newspaper/scanner700-33.jpg 2.機械手臂伸出 http://www.jcms.com.tw/newspaper/scanner700-32.jpg 3. 吸取要翻的頁面 http://www.jcms.com.tw/newspaper/scanner700-36.jpg 4.翻頁完成,擋板歸位駐守,並且掃描完成 完成?! 吉米,怎麼沒看到一條白色的燈管,還是辨識器跑過頁面呢? 那,大家就好奇啦~光學辨識來源是甚麼呢? 來瞧瞧機器頂端 http://www.jcms.com.tw/newspaper/scanner700-02.jpg Canon家族,頂級DSLR機種EOS 1D Mk2 ,有玩拍照的人都知道,光是這台頂級數位單眼相機就可以買一台國產小汽車了... http://www.jcms.com.tw/newspaper/scanner700-28.jpg 剛最上面是用相機來拍攝物體,也因為他在正中間,所以他兩旁配置有反射用的鏡子,以便能夠正確拍攝到左頁,與右頁 聰明的夥伴就會問啦~ 那吉米,左頁右頁是【共拍一張】還是【各拍一張】呢? http://www.jcms.com.tw/newspaper/scanner700-37.jpg 答案是透過正中間這個自動切換的鏡子,他會快速的轉換角度,讓相機在下面的機器翻好頁面之後,快速的將左頁與右頁【各拍下一張】照片來 http://www.jcms.com.tw/newspaper/scanner700-39.jpg 這就是拍出來之後,左頁的結果 就這樣,一本幾百頁的書,不用【一個】小時,就掃完了,若是工整字體,則再加上OCR辨識技術,來把他變成一個可以迅速檢索的pdf檔喔~ 而這個機器的掃描速度是可以調整的,從一小時幾百頁到一小時一兩千頁,都可以 但是呢,若是掃描【重要】書籍,那還是速度慢一點,以免出了甚麼差錯,就麻煩了~ 因為買不到啦~ 難道要做多拉A夢的時光機回去那個時代找嗎? 這樣有甚麼好處? 1.資料數位化,你有沒有想過,你家書櫥裡面的書籍,若你要從中間找到一段你以前看過,但是映像模糊的片段,透過他來找到,要花多少時間?快則幾分鐘(剛看過,但是還是要翻一翻),慢則一輩子(因為就是想不起來),那若你的收藏又很多的話,那怎麼辦?或是說不是你要找,是你的朋友要從中間找到相關知識,要怎麼找? 有了這種解決方案,你大可以把一整個圖書館的收藏,全部轉成圖文並冒的pdf檔裡面,在電腦裡面只要輸入關鍵字【吉米】,咻~不用幾秒鐘,所有關於吉米的書籍,全部出現,甚至可以看到內文(文字檔)以及疊在後方的原始文件掃描圖檔,讓你不會因為沒有原始資料而不相信所看到的電子文字檔 在說明清楚一點,掃出來的結果可以有幾種 a.每一頁的內容掃成單純的影像檔,所結合而成的pdf檔案(說白話一點,裡面的文字,你不能mark起來,然後拷貝、貼上到你的word檔裡面去使用) b.每一頁的內容,掃描成影像檔,放至於pdf該頁的最底層,然後上面在疊上一層,OCR辨識後的文字檔,也就是說,眼睛上看上去,就像掃描的頁面,但是你滑鼠一過去小要複製的部份,是可以圈選起來,copy,然後貼到你的word檔案上面去的 這樣很白話了吧? 2.也就是這樣夥伴說有些客戶已經想到另一種使用方式 例如某位醫生,他把他天天要用到的一些多達六千多頁的醫學辭典、文獻,以前都得回到office然後在去一本一本慢慢翻資料,他將這些書籍送來掃描之後,輸出成上面所提到的b結果,也就是掃描結果加上OCR辨識技術的pdf檔 接著下來,他的生活改變了 現在的他,抱著一台平板電腦天機,巡房、甚至是開會時,要找甚麼資料,直接在電腦上面手寫一下關鍵字,按下搜尋 眼睛眨一下,結果就出現了,除了文獻內容,旁邊還有圖片解說,遇到不懂的專業單字,開啟dr.eye即時翻譯軟體,點一下那個生字,翻譯就出來了... 吼~有沒有搞錯啊~會不會太美妙啊? 相信這是大家肖想已久的解決方案吧? 哈哈~ 不過這麼貴一台的機器,不是大家都買的起,所以廠商也提出了外包方案,若你有資料要scan,不用買一台,就委託他們,掃一頁看是多少錢,若要加上OCR辨識,再加上多少錢,這樣的方式來解決 那著作權問題呢? 請不要將掃描出來的結果拿去販賣圖利喔~ 你自己方便使用,是可以的,這委託廠商掃描時,是要簽切結的喔~ |
啊, 911 Carrera S 級的掃描器,
就那樣放在牆腳喔 |
這種產品的對象
不是一般消費者啦 而是圖書館級、故宮那種等級的客戶 而且這台也只是一代目 新的一代為了增加工作效率,直接裝上【兩台】Canon EOS 1Ds Mk2!! 個別負責左頁與右頁 也就是說,書本翻好面的同時,這兩台相機就拍好照片了 效能增加整整一倍! 價錢呢,就不敢問了... 而還有就是大家知道了故宮級的客戶 就還有那種不會動到【原作品】的高階掃描器,那也是超神奇的哩~ 那價錢一樣~又是一台超跑車的價格... 放在牆角喔 那是因為那台機器,重到誇張~ 不僅下面的工作台要【特殊定做】,才撐的住,而且全速運轉起來的聲音 會讓你想去買Bose那隻除躁耳機 (ro15) |
google是不是也在做類似的 書本數位化的工作呀?
我記得之前有在雜誌上看到過 說google打算把整個圖書館的書都數位化呢! |
對啊~這是很大的野心
而這種機器主要的客戶群也是以圖書館單位為主 誰都希望快速找到自己要的資料,不是嗎? 不過這個service我菛市井小民也可以用 若你不想【買】這台機器的話(除非夥伴是圖書館單位、或是政府機關) 據了解掃一頁彩色的費用包含前置、後續作業,一直到交給你pdf檔,一頁的費用約在5~8元中間 若每一頁還需要ocr辨識,就再加上2~3元的費用 同樣的道理,若你是有一整個書櫃都要掃,那應該有另外的折扣吧~ 不過說真的,若夥伴常有書本需要翻閱、查閱、引用者,這真的是一個相當不錯的解決方案喔~ 用買的絕對是太貴啦~這種專業的事情,交給專業去處理就對啦~ 錢省下來去買Porsche還比較爽不是嗎? |
裡面的操作人員是Ben大俠吧!
我認為這樣的東西對於法院來說會有很大的需求, 因為法院目前在民國88年以前的判決資料室沒有數位化的, 可以的話應該去談看看。另外建議也可以向幾個大型的法律事務所或會計師事務所接觸看看,因為據我所知,在SARS那段時間,幾個大事務所都有進行所謂的在家工作計畫(其實也就只是把所有文件掃成PDF檔而已)最後也沒有完成就算了,但是文件的數位化(尤其是文字化)應該仍然是必需的工作,只是看要如何進行說服了。 之前司法院對於判決資料的數位轉化工程標案, 是由法源資料公司得標的,那時他們的作業不知是用手工還是有加OCR,不過都是只有88年以前的;記得看過民國60年左右的判決就還是龍飛鳳舞手寫版,那樣的大概就還是必須手工輸入了吧。 |
吉米再來說清楚一點好了
一般來說PDF有兩種產生方式 1.用專用軟體【製作編輯】出來的原生檔案,例如使用Acrobat等軟體,製作出來的,所以理論上,他是最完整的,有圖片、有可選取的文字內容,以方便使用搜尋的方式搜尋裡面的資料 2.利用其他軟體所【產生】的可供眼睛觀看的檔案,例如很多檔案現在可以把格式save as成pdf檔,但多半這種格式,只能讓你用眼睛看,不能去動裡面的資料,也不能去選擇其中幾段文字,讓你拉到word裡面去編輯 3.掃描出來的pdf檔,依照掃描器所付的軟體,現在幾乎都可以直接將掃描的結果作成多頁掃描檔案而從下面吉米畫的簡單圖示可以知道 在之前,掃描出來的是一個圖檔可以是JPG、BMP、TIFF,頂多透過OCR的辨識技術再將文字內容的部份轉成txt檔 http://forums.jcms.com.tw/files/jcms...c966b375e.jpeg 現在的掃描軟體,例如readiris,他就可以將你的原稿,掃描成與原始layout一模一樣的圖文並茂word檔(當然文字可以編輯)或是像圖例一般,掃描成多層次的pdf檔,讓你只要攜帶一個檔案,就可以得到所有東西,而原稿在最底層的目的,除了讓原有的圖片可以一起出現之外,若OCR有辨識錯誤的結果,你還可以看原始稿來判斷到底不清楚的是哪個字 |
來
直接給個範例最清楚(ro02) http://forums.jcms.com.tw/files/jcms...f1803f62d.jpeg 例如這是我們要掃的文稿 下面兩個附件就是掃描之後的結果差異 |
數位典藏是台灣在2004年訂定之台灣未來十年數位科技發展十大目標之一,
小子之前做的畢業專題就是以"數位典藏"+"搜尋引擎"為主題, 把辨識出來的數位文字放入資料庫中,供學校國文老師使用, 老實說,中文字的辨識實在是太難了,尤其是文言文中出現的稀有古文字~~~ 合計4千多頁轉數位檔案,就花了2個月(大部份的時間是在抓錯字), 資料庫與搜尋引擎的建立花1個多月,有關於搜尋引擎這方面,小子倒是感觸頗深, 中文與英語系的搜尋真的有差,尤其是供學術使用,英文單字的搜尋可以有較高的命中率, 中文卻因為都是"一句話",前後沒有SPACE,所以搜尋命中率大大的降低了~~~ 例如: 搜尋 "海盜" 出來的結果可能是"台灣海峽出現海盜",也可能是"鴻海盜用某公司之科技"(純屬虛構) 後者就不是我們想要的搜尋結果,但在中文的搜尋,這種情形出現的機率非常高~~~ 而當我們又需要交叉比對時,這種情況又會造成雙倍的結果,導致效率不彰~~~ 唉~~ 廢言一堆,只因回憶當初的痛~~~ 真不好意思 |
所有時間均為台北時間。現在的時間是 06:12。 |
Powered by vBulletin® 版本 3.8.3
版權所有 ©2000 - 2024,Jelsoft Enterprises Ltd.
本網站內之文章,版權歸原作者所有,在此發言並無言論免責權,且與本站立場無關,並禁止未授權轉載。