查看單個文章

舊 04-27-2006   #9
itsme_jim
 
itsme_jim 的頭像
 
itsme_jim 目前離線
註冊日期:
04-27-2006
住址:
TPE city, TWN, R.O.C.
文章:
4
itsme_jim
發送 MSN 消息給 itsme_jim
預設

數位典藏是台灣在2004年訂定之台灣未來十年數位科技發展十大目標之一,
小子之前做的畢業專題就是以"數位典藏"+"搜尋引擎"為主題,
把辨識出來的數位文字放入資料庫中,供學校國文老師使用,
老實說,中文字的辨識實在是太難了,尤其是文言文中出現的稀有古文字~~~
合計4千多頁轉數位檔案,就花了2個月(大部份的時間是在抓錯字),
資料庫與搜尋引擎的建立花1個多月,有關於搜尋引擎這方面,小子倒是感觸頗深,
中文與英語系的搜尋真的有差,尤其是供學術使用,英文單字的搜尋可以有較高的命中率,
中文卻因為都是"一句話",前後沒有SPACE,所以搜尋命中率大大的降低了~~~
例如:
搜尋  "海盜"
出來的結果可能是"台灣海峽出現海盜",也可能是"鴻海盜用某公司之科技"(純屬虛構)
後者就不是我們想要的搜尋結果,但在中文的搜尋,這種情形出現的機率非常高~~~
而當我們又需要交叉比對時,這種情況又會造成雙倍的結果,導致效率不彰~~~

唉~~ 廢言一堆,只因回憶當初的痛~~~ 真不好意思







  回覆時引用此篇文章