這幾天在做 IR Evaluation 的工作,
每天要看上幾百篇文章,著實讓眼睛有些吃不消。
在稍稍擱下工作,休息之餘想到前陣子在 MMDays 看到,
微軟亞洲研究院開發的人立方搜尋器,於是便玩了起來。
基於 IR (資料檢索) 的 SNS (社群網路),
是我想做的題目之一,在看到這項產品出現時,
更確定了其可行性與可能的發展方向。
當然,我很好奇它是怎麼敲出名字的,
於是據我所學,猜測可能的作法:
- 暴力產生字典檔
- 使用 N-gram 模型,令 N = 2 ~ K
- 將常用姓氏後面接的字拿來建 tree
- 使用斷詞器斷出名詞
但使用字典檔不是個明智的作法,
只用 N-gram 可能會有姓名過濾上的問題,
而要建出能夠準確斷出姓名的斷詞器,或許有些困難,
看來看去,比較可能的作法該是使用姓氏 + 高頻字/辭,
建成樹狀結構後,利用 TF (字辭出現的頻率) 去敲出名字;
也就是說,在沒有加上判斷可能是姓名的機制下,
搜尋「台電視」、「張桌子」的時候,應該會傳回結果。
至於連線上的關係,我猜或許是用辭性,也或許是用字典算的。
無聊之餘,便也就查了這兩位先生 (?),
而系統也很給面子地傳回了結果:
原來台電視跟蔣先生有關,
而張桌子的關係圖中,甚至還出現了希特勒呢 (炸)
是說,可能真的有人叫「張桌子」也不一定啊。
之後又試了一些奇怪的字辭,像是「科科科」:
國宅「朱學恆」大大:
想到朱大,不免想到在 BoF 時的「媽媽,那個阿姨是誰」:
迷之音: 哎呀,這個似乎很好用啊 XD
咳咳。
無論如何,背後的技術應該不止這些,
隨便去問十個做 IR 的人,會有十一個跟你說,
要做到這樣的結果,有一定的難度啊啊啊 (搖晃)
因為最近北京舉辦了奧運,所以我也搜尋了「北京奧運」,
在這個時候,人立方的介面便提升了找「人」的效率:
過去就曾出現過圖形化的搜尋引擎,
不過,這樣的搜尋方式能不能吸引使用者,
或許還有待觀察吧 :p
無論如何,這確實是個酷玩意。
是說,這樣的休息活動似乎不大休閒啊 =__=||
後記:
在《隨意搜尋》(Ambient Findability) 書中提到,
六度分離理論把人與人之間的關係以圖學方式解釋,
而早期的研究人員,認為「人」是無法當成文件索引的。
書末亦提到,人們已經開始把文件的概念,
套用在過去不被歸納在「可文件化」的東西上,
這意味著,幾乎所有東西都能具有一定的可尋性。
在搜尋器發展之初,搜尋網頁也曾經是件苦差事,
看看現在便不難猜出,未來搜尋其他類型「文件」的可能了。