Computers 雜七雜八

關於那個 project

文章作者作者: cornguo
文章發佈日期 2008-10-19
在〈關於那個 project〉中有 2 則留言

是的，我是指上次放出來的那個夭壽準關鍵字，
因為我太無聊了，所以稍稍介紹一下程式運作方式。

首先呢，就是蒐集一大票描述資訊，
它們最初看起來可能會是這樣。

有些人可能以為，我接著把資料拿去斷詞了，
但事實上，蒐集到的資訊沒有斷詞的必要，
我只把句子全部斷開，變成一個字一個字的形狀，
看起來會像是下圖這樣的形狀。

聰明的你應該會發現，裡面有些文字是無用的，
利用一些簡單的字元特性，我們可以很快地清除符號，
清理完之後，資料會變成像下圖這樣。

看到這邊，我想不會寫程式的人該也知道，
只要把看到最多次的字詞挑出來，就會是關鍵字了啊!

至於該怎麼挑，有很多方式，
有些可以直接抽取出有用的 substring，
在此要說明的是，圖中的資料是人工挑選過的，
原始輸出資料並沒有這麼乾淨。

嗯，大概就是這樣。

接下來可以做什麼呢，到底?

標籤 Computers, 雜七雜八

在〈關於那個 project〉中有 2 則留言

你好棒!這樣也能找….
不知……甲人開網誌停寫(已完全找不到網誌),後續
開新網設ID名為網誌文章全刪,只留影片(尚可進入留言),
此情形可否找到他開的新網誌?
難倒了吧!
我試過將他兩個網誌資料保存,再觀察他朋友動向,及他再開新網誌,使用種種ID的可能性組合,皆尋無獲!
除非我是的員工進入內部調閱資料….
(這人對我很重要~~~~~他欠我錢啦!)“==“

@lili:
這個部份我可能也沒法幫上忙喔 ^^;

網路上的好友網路不見得在真實生活就是有密切關係的，
若您能連絡到他身邊的朋友，或許會比較容易找到他

在〈關於那個 project〉中有 2 則留言

發表迴響取消回覆