工作之餘的休閒 (?) 活動

這幾天在做 IR Evaluation 的工作，
每天要看上幾百篇文章，著實讓眼睛有些吃不消。

在稍稍擱下工作，休息之餘想到前陣子在 MMDays 看到，
微軟亞洲研究院開發的人立方搜尋器，於是便玩了起來。

基於 IR (資料檢索) 的 SNS (社群網路)，
是我想做的題目之一，在看到這項產品出現時，
更確定了其可行性與可能的發展方向。

當然，我很好奇它是怎麼敲出名字的，
於是據我所學，猜測可能的作法：

暴力產生字典檔
使用 N-gram 模型，令 N = 2 ~ K
將常用姓氏後面接的字拿來建 tree
使用斷詞器斷出名詞

但使用字典檔不是個明智的作法，
只用 N-gram 可能會有姓名過濾上的問題，
而要建出能夠準確斷出姓名的斷詞器，或許有些困難，
看來看去，比較可能的作法該是使用姓氏 + 高頻字/辭，
建成樹狀結構後，利用 TF (字辭出現的頻率) 去敲出名字；
也就是說，在沒有加上判斷可能是姓名的機制下，
搜尋「台電視」、「張桌子」的時候，應該會傳回結果。

至於連線上的關係，我猜或許是用辭性，也或許是用字典算的。

無聊之餘，便也就查了這兩位先生 (?)，
而系統也很給面子地傳回了結果：

原來台電視跟蔣先生有關，
而張桌子的關係圖中，甚至還出現了希特勒呢 (炸)

是說，可能真的有人叫「張桌子」也不一定啊。

之後又試了一些奇怪的字辭，像是「科科科」：

國宅「朱學恆」大大：

想到朱大，不免想到在 BoF 時的「媽媽，那個阿姨是誰」：

~~迷之音: 哎呀，這個似乎很好用啊 XD~~

咳咳。

無論如何，背後的技術應該不止這些，
隨便去問十個做 IR 的人，會有十一個跟你說，
要做到這樣的結果，有一定的難度啊啊啊 (搖晃)

因為最近北京舉辦了奧運，所以我也搜尋了「北京奧運」，
在這個時候，人立方的介面便提升了找「人」的效率：

過去就曾出現過圖形化的搜尋引擎，
不過，這樣的搜尋方式能不能吸引使用者，
或許還有待觀察吧 :p

無論如何，這確實是個酷玩意。

是說，這樣的休息活動似乎不大休閒啊 =__=||

後記：
在《隨意搜尋》(Ambient Findability) 書中提到，
六度分離理論把人與人之間的關係以圖學方式解釋，
而早期的研究人員，認為「人」是無法當成文件索引的。

書末亦提到，人們已經開始把文件的概念，
套用在過去不被歸納在「可文件化」的東西上，
這意味著，幾乎所有東西都能具有一定的可尋性。

在搜尋器發展之初，搜尋網頁也曾經是件苦差事，
看看現在便不難猜出，未來搜尋其他類型「文件」的可能了。

發表迴響取消回覆