工作之餘的休閒 (?) 活動

這幾天在做 IR Evaluation 的工作,
每天要看上幾百篇文章,著實讓眼睛有些吃不消。

在稍稍擱下工作,休息之餘想到前陣子在 MMDays 看到,
微軟亞洲研究院開發的人立方搜尋器,於是便玩了起來。

基於 IR (資料檢索) 的 SNS (社群網路),
是我想做的題目之一,在看到這項產品出現時,
更確定了其可行性與可能的發展方向。

當然,我很好奇它是怎麼敲出名字的,
於是據我所學,猜測可能的作法:

  1. 暴力產生字典檔
  2. 使用 N-gram 模型,令 N = 2 ~ K
  3. 將常用姓氏後面接的字拿來建 tree
  4. 使用斷詞器斷出名詞

但使用字典檔不是個明智的作法,
只用 N-gram 可能會有姓名過濾上的問題,
而要建出能夠準確斷出姓名的斷詞器,或許有些困難,
看來看去,比較可能的作法該是使用姓氏 + 高頻字/辭,
建成樹狀結構後,利用 TF (字辭出現的頻率) 去敲出名字;
也就是說,在沒有加上判斷可能是姓名的機制下,
搜尋「台電視」、「張桌子」的時候,應該會傳回結果。

至於連線上的關係,我猜或許是用辭性,也或許是用字典算的。

無聊之餘,便也就查了這兩位先生 (?),
而系統也很給面子地傳回了結果:

20080817_RLF01

20080817_RLF02

原來台電視跟蔣先生有關,
而張桌子的關係圖中,甚至還出現了希特勒呢 (炸)

是說,可能真的有人叫「張桌子」也不一定啊。

之後又試了一些奇怪的字辭,像是「科科科」:

20080817_RLF03

國宅「朱學恆」大大:

20080817_RLF04

想到朱大,不免想到在 BoF 時的「媽媽,那個阿姨是誰」:

20080817_RLF05

迷之音: 哎呀,這個似乎很好用啊 XD

咳咳。

無論如何,背後的技術應該不止這些,
隨便去問十個做 IR 的人,會有十一個跟你說,
要做到這樣的結果,有一定的難度啊啊啊 (搖晃)

因為最近北京舉辦了奧運,所以我也搜尋了「北京奧運」,
在這個時候,人立方的介面便提升了找「人」的效率:

20080817_RLF06

過去就曾出現過圖形化的搜尋引擎,
不過,這樣的搜尋方式能不能吸引使用者,
或許還有待觀察吧 :p

無論如何,這確實是個酷玩意。

是說,這樣的休息活動似乎不大休閒啊 =__=||


後記:
在《隨意搜尋》(Ambient Findability) 書中提到,
六度分離理論把人與人之間的關係以圖學方式解釋,
而早期的研究人員,認為「人」是無法當成文件索引的。

書末亦提到,人們已經開始把文件的概念,
套用在過去不被歸納在「可文件化」的東西上,
這意味著,幾乎所有東西都能具有一定的可尋性。

在搜尋器發展之初,搜尋網頁也曾經是件苦差事,
看看現在便不難猜出,未來搜尋其他類型「文件」的可能了。