數位典藏是台灣在2004年訂定之台灣未來十年數位科技發展十大目標之一,
小子之前做的畢業專題就是以"數位典藏"+"搜尋引擎"為主題,
把辨識出來的數位文字放入資料庫中,供學校國文老師使用,
老實說,中文字的辨識實在是太難了,尤其是文言文中出現的稀有古文字~~~
合計4千多頁轉數位檔案,就花了2個月(大部份的時間是在抓錯字),
資料庫與搜尋引擎的建立花1個多月,有關於搜尋引擎這方面,小子倒是感觸頗深,
中文與英語系的搜尋真的有差,尤其是供學術使用,英文單字的搜尋可以有較高的命中率,
中文卻因為都是"一句話",前後沒有SPACE,所以搜尋命中率大大的降低了~~~
例如:
搜尋 "海盜"
出來的結果可能是"台灣海峽出現海盜",也可能是"鴻海盜用某公司之科技"(純屬虛構)
後者就不是我們想要的搜尋結果,但在中文的搜尋,這種情形出現的機率非常高~~~
而當我們又需要交叉比對時,這種情況又會造成雙倍的結果,導致效率不彰~~~
唉~~ 廢言一堆,只因回憶當初的痛~~~ 真不好意思
|