關於那個 project

是的,我是指上次放出來的那個夭壽準關鍵字
因為我太無聊了,所以稍稍介紹一下程式運作方式。


首先呢,就是蒐集一大票描述資訊,
它們最初看起來可能會是這樣。

20081019_wff_fig01

有些人可能以為,我接著把資料拿去斷詞了,
但事實上,蒐集到的資訊沒有斷詞的必要,
我只把句子全部斷開,變成一個字一個字的形狀,
看起來會像是下圖這樣的形狀。

20081019_wff_fig02

聰明的你應該會發現,裡面有些文字是無用的,
利用一些簡單的字元特性,我們可以很快地清除符號,
清理完之後,資料會變成像下圖這樣。

20081019_wff_fig03

看到這邊,我想不會寫程式的人該也知道,
只要把看到最多次的字詞挑出來,就會是關鍵字了啊!

20081019_wff_fig04

至於該怎麼挑,有很多方式,
有些可以直接抽取出有用的 substring,
在此要說明的是,圖中的資料是人工挑選過的,
原始輸出資料並沒有這麼乾淨。

20081019_wff_fig05

嗯,大概就是這樣。


接下來可以做什麼呢,到底?

在〈關於那個 project〉中有 2 則留言

  1. 你好棒!這樣也能找….
    不知……甲人開網誌停寫(已完全找不到網誌),後續
    開新網設ID名為網誌文章全刪,只留影片(尚可進入留言),
    此情形可否找到他開的新網誌?
    難倒了吧!
    我試過將他兩個網誌資料保存,再觀察他朋友動向,及他再開新網誌,使用種種ID的可能性組合,皆尋無獲!
    除非我是的員工進入內部調閱資料….
    (這人對我很重要~~~~~他欠我錢啦!)“==“

  2. @lili:
    這個部份我可能也沒法幫上忙喔 ^^;

    網路上的好友網路不見得在真實生活就是有密切關係的,
    若您能連絡到他身邊的朋友,或許會比較容易找到他

發表迴響