吉米丘上的海盜樂園 - 查看單個文章

itsme_jim · 04-27-2006

數位典藏是台灣在2004年訂定之台灣未來十年數位科技發展十大目標之一，
小子之前做的畢業專題就是以"數位典藏"+"搜尋引擎"為主題，
把辨識出來的數位文字放入資料庫中，供學校國文老師使用，
老實說，中文字的辨識實在是太難了，尤其是文言文中出現的稀有古文字~~~
合計4千多頁轉數位檔案，就花了2個月(大部份的時間是在抓錯字)，
資料庫與搜尋引擎的建立花1個多月，有關於搜尋引擎這方面，小子倒是感觸頗深，
中文與英語系的搜尋真的有差，尤其是供學術使用，英文單字的搜尋可以有較高的命中率，
中文卻因為都是"一句話"，前後沒有SPACE，所以搜尋命中率大大的降低了~~~
例如：
搜尋　　"海盜"
出來的結果可能是"台灣海峽出現海盜"，也可能是"鴻海盜用某公司之科技"(純屬虛構)
後者就不是我們想要的搜尋結果，但在中文的搜尋，這種情形出現的機率非常高~~~
而當我們又需要交叉比對時，這種情況又會造成雙倍的結果，導致效率不彰~~~

唉~~ 廢言一堆，只因回憶當初的痛~~~ 真不好意思

04-27-2006	#9
itsme_jim itsme_jim 目前離線註冊日期: 04-27-2006 住址: TPE city, TWN, R.O.C. 文章: 4	數位典藏是台灣在2004年訂定之台灣未來十年數位科技發展十大目標之一，小子之前做的畢業專題就是以"數位典藏"+"搜尋引擎"為主題，把辨識出來的數位文字放入資料庫中，供學校國文老師使用，老實說，中文字的辨識實在是太難了，尤其是文言文中出現的稀有古文字~~~ 合計4千多頁轉數位檔案，就花了2個月(大部份的時間是在抓錯字)，資料庫與搜尋引擎的建立花1個多月，有關於搜尋引擎這方面，小子倒是感觸頗深，中文與英語系的搜尋真的有差，尤其是供學術使用，英文單字的搜尋可以有較高的命中率，中文卻因為都是"一句話"，前後沒有SPACE，所以搜尋命中率大大的降低了~~~ 例如：搜尋　　"海盜" 出來的結果可能是"台灣海峽出現海盜"，也可能是"鴻海盜用某公司之科技"(純屬虛構) 後者就不是我們想要的搜尋結果，但在中文的搜尋，這種情形出現的機率非常高~~~ 而當我們又需要交叉比對時，這種情況又會造成雙倍的結果，導致效率不彰~~~ 唉~~ 廢言一堆，只因回憶當初的痛~~~ 真不好意思